= بحث و گفتگو درباره پردازنده های RYZEN شرکت AMD =

**TERRORIST** · 12th September 2015, 01:51 PM

به نام خداوند بخشنده و بخشایشگر

طبق اعلام شرکت AMD، این شرکت قصد دارد بعد افتضاحی دربخش پردازنده های خود چه بخش ترکیبی APU ها و پردازنده های سری FX، با معماری های متفاوت حال شرکت AMD قصد دارد پردازنده جدیدی با سوکت جدید همراه با ساختار مهندسی DIE متفاوت را معرفی نماید، شرکت AMD ، طراحی و ساخت پردازنده های ZEN را به طراح سابق خود اقای Jim Keller مهندس طراح پردازنده ها که پیش از این سابقه طراحی پردازنده های شرکت AMD و Apple را نیز بر عهده داشته است سپرده شده است که در کارنامه این مهندس طراح می توان پردازنده Athlon 64 یا k7 و طراح پردازنده A5، در این نسل ما شاهد سوکت جدید و پردازنده های جدیدی خواهیم بود همراه با ویژگی های جدید، شرکت AMD اعلام کرده است پردازنده های ZEN با مهندسی ساخت 14 NM با ساختار 14 NM بهره خواهند برد و قابل نصب بروی سوکت AM4 و معماری مورد استفاده در این پردازنده K12 می باشد پردازنده های ZEN در تاریخ 30 ماه چهارم 2016 برنامه ریزی و عرضه خواهند شد، طی خبرهای منتشر شده هسته Die یا Wafer ها توسط شرکت Global Foundries ساخته خواهد شد طبق گفته AMD پردازنده های ZEN تقریبا 40 درصد افزایش کارایی خواهند داشت و از قابلیت SMT یا simultaneous multi-threading پشتیبانی می کنند این پردازنده ها از قابلیت جدید Cache بهره خواهند برد که باعث افزایش کارایی پردازنده در پردازش ها خواهد شد. بیشترین تمرکز پردازنده های ZEN طبق گفته شرکت سازنده بروی Multi Threading خواهد بود .
رقابت بین پردازنده های AMD FX ZEN در تاریخی 3 ماه چهارم سال 2016 در دسترس عموم خواهد بود و در همین تاریخ شرکت Intel نیز پردازنده های Broadwell - E برای رده محصولات HEDT عرضه خواهد کرد
خبرهای منتشر شده است که نشان می دهد شرکت AMD قصد دارد بعد از معرفی پردازنده FX ZEN، در سال میلادی 2018 پردازنده FX ZEN Plus در نظر دارد با ساختار مهندسی جدید عرضه نماید

**Mohammad 1985** · 7th December 2016, 11:31 PM

نوشته اصلی توسط ATER

What؟
تا جایی که من به یاد دارم FX با معماری بلدوزر (اگر اشتباه ننوشته باشم) فقط هایپ بود ، سی پی یو 8 هسته ای با فرکانس خدا به سی پی یو 4هسته اینتل نمیرسید.
البته اگر اشتباه میکنم ممنون میشم دوستان روشنم کنن

سری اتلون FX خیلی قبلتر از سری بلدوزر بود و واقعا هم قوی بود

**A1C1E** · 9th December 2016, 01:39 AM

نوشته اصلی توسط asdaf

ضمن تایید برادر بهزاد عزیز
بگم که در مورد اینتل وقتی میگن یک هسته ان دو نخ داره . اینطوری نیست که هر دو نخ یک نوع داده داشته باشند
و یا هم زمان بر روی یک نوع داده عملیات انجام بدهند .
وقتی یکی از نخ ها مثلا int باشه دیگری نمیتونه همون قسمت سخت افزاری رو داشته باشه و دیگری باید FP باشه تا بازدهی و بهینگی بالا بره
اگر دو نخ یک منبع سخت افزاری یکسان رو در اختیار بگیرند نمی توانند همزمان باشند و باید معطل نخ دیگری برای پایان کار باشد و بازدهی پایین میاد

اما در مورد بولدوزر مثل اینتل نیست چون واقعا دو قسمت سخت افزاری int ضعیف درون هر هسته قرار داده
که هر دو نخ به صورت همزمان می توانند INT باشند اما سرعت ان به یک INT قوی بزرگ نخواهد رسید

In simultaneous multithreading, instructions from more than one thread can be executed in any given pipeline stage at a time. This is done without great changes to the basic processor architecture

Depending on the design and architecture of the processor, simultaneous multithreading can decrease performance if any of the shared resources are bottlenecks for performance.^{[Only registered and activated users can see links. ]} Critics argue that it is a considerable burden to put on software developers that they have to test whether simultaneous multithreading is good or bad for their application in various situations and insert extra logic to turn it off if it decreases performance
https://en.wikipedia.org/wiki/Simultaneous_multithreading

The threads do run concurrently but they share the same functional units in the core. For example, suppose code is running that is floating-point intensive on both threads. One thread is doing calculations and so is the second and they are both able to get the data from the cache. In this case the performance of the processor will be no better than a non-hyper-threading case because there is only one floating-point unit and they both have to share it. Now suppose one thread has integer instructions and the other has floating point instructions. This is a better case because both threads won't be contending for the same resources (the floating-point unit and integer unit are separate functional units in the core)
https://www.reddit.com/r/intel/comments/4lf15e/intel_processors_hyperthreading/

دقیقا متوجه منطورتون تو خط دوم و سوم نشدم
یه توضیح کوچیکی خودم بدم
هر هسته یه قسمت محاسبات عدد صحیح داره (integer) یه قسمت ممیز شناور Floting Point (این برای آخرین نسل فنوم ها و Core 2 ها)
هر مسیر/ترید در زمان مشخص اجازه دستیابی(دسترسی) به یه بخش عدد صحیح int و یه بخش ممیز شناور fp رو داره ( اینتل i7) (داشتن 2 مسیر به ازای یه هسته (یه int یه fp) (دو مسیر به int و دو مسیر به FP) باعث استفاده بهتر از پایپ لاین ها میشه به همین خاطر کاهش کارایی چشمگیری توی کار های تک ترید نداریم (کاهش کارایی خیلی کم)) 3 پایپ لاین در سطح int (به معنی 3 ALU (و 3 آدرس جنریتور) در قسمت int) که بعضی هاشون با FP شیر شده (بعضی بخش ها و رجیستر های FP تو یکی اند بعضی ها تو یکی دیگه) برای سندی بریج
هر ماژول به سه بخش دسترسی داره (سه مسیر) دو تا به int یکی به fp (بلدوزر نسل اول) ، هر مسیر به هر int تقریبا تمییز داده شده از FP هست و هر قسمت int دو پایپ لاین داره (دو ALU) ولی اینجا یه مسیر به FP میره (60 ورودی داره)
+ توی بلدوزر نسل اول قدرت پردازشی int نسبت به فنوم افزایش فوق العاده ای داشت حتی نسبت به تعداد ALU ها و فرکانس نسبت به Core i7 2600K حدود 26% توی بخش محاسبه int بهتر بود ولی خوب i7 هم پایپ لاین هاش مختص فقط int (فقط ALU) نبودن و با FP شیر شده بودن
- عیب بلدوزر چی بود همون FP با یک مسیر این FP هر چقدر قدرتمند بود هر چقدر توی فنوم بخش FP بهتر از int بود اینجا بدتر بود دلیلشم خوب تغذیه نشدن بود (عدم استفاده کامل از قدرت قسمت FP)
هر ماژول دو هسته دو ترید (شیر شده) ، هر هسته به int و FP شیر شده دسترسی داره ، هر ماژول دو مسیر به FP داره در واقع اینجا درست تر از مولتی تریدینگ استفاده کردیم
توی Excavator-v2 که بنچ مارکاش بیرون اومده به بالاترین سطح کارایی نسبت به فرکانس + کارایی نسبت به ترانزیستور + کارایی نسبت به مصرف رسیده (یکی از دلایلش نصف کردن کش L2 بوده واقعا بلدوزر خیلی کش رو زیاد کرده بود مخصوصا کش L2)
در واقع دو مسیر داشتن باعث شده تا بخش FP از بیشتر ظرفیت خودش استفاده کنه
اما توی ZEN چه خبره؟
اینجا ما یه هسته با دو مسیر داریم ( یه بخش int و یه بخش FP در هر هسته و دو مسیر به int و دو مسیر به FP) همانند اینتل
ولی اینجا اعلام شده 3Issue Pipeline توی شکل نمادین 3 پایپ لاین نشون داده شده
اگر هر هسته 3 پایپ لاین باشه که میشه همون فنوم و از هسول که 4 شیرد پایپ لاین داشت نسبت به فرکانس ضعیف تر خواهد بود (در حد سندی بریج خواهد بود) مگر اینکه هر سه پایپ لاین شیرد شده باشن با FP و با بالاترین pipeline depth (فکر کنم در این حالت توی فرکانس بالا مصرف بالا میره)
حالا از این ها بگذریم توی پلتفرم AM4 پل شمالی به درون CPU اومده این باعث میشه سرعت HT بره بالا و مموری کنترلر هم بهتر کم مصرف تر باشه (همه اینا با لیتیوگرافی 14nm ساخته میشن در برابر 65nm پل شمالی های قبل) باشه و اینا کمک کنن سرعت کش بهتر بشه (دلیل کم کردن کش)
البته قسمت Global Front End هم تاثیر زیادی توی تاثیر مسیر ها و پاپیپ لاین ها داره
__________________________________________________ __________________________________________________ _____________________________
پیش بینی من اینه که zen توی کارایی کلی چند هسته ای چند نخی در حد اینتل باشه ولی توی تک ترید خیلی خوب نباشه (از بلدوزر ها قطعا بهتره)
همون طور که میدونیم طبق قانون آمدال اگر دستور عمل ها ثابت باشن (مثل موتور بازی ها منهای اونا که با ولکان و منتل و DX12 طراحی میشن (کمتر محدودن)) افزایش تعداد هسته ها فایده نداره
(برای استفاده از برنامه های غیر محاسباتی فایده ندارن)
این پردازنده ها با رم زیاد (طیق قانون گوستافسون) برای برنامه های رندرینگ مثل 3Ds MAX و MAYA و CATIA و ensight و... میخوره
شرمنده ببخشید خیلی زیاد شد خودم هم زیادی فرعی رفتم و اصلا کل حرفام اصولا اشتباه باشه
با احترام

**asdaf** · 9th December 2016, 02:53 PM

نوشته اصلی توسط A1C1E

دقیقا متوجه منطورتون تو خط دوم و سوم نشدم
یه توضیح کوچیکی خودم بدم
هر هسته یه قسمت محاسبات عدد صحیح داره (integer) یه قسمت ممیز شناور Floting Point (این برای آخرین نسل فنوم ها و Core 2 ها)
هر مسیر/ترید در زمان مشخص اجازه دستیابی(دسترسی) به یه بخش عدد صحیح int و یه بخش ممیز شناور fp رو داره ( اینتل i7) (داشتن 2 مسیر به ازای یه هسته (یه int یه fp) (دو مسیر به int و دو مسیر به FP) باعث استفاده بهتر از پایپ لاین ها میشه به همین خاطر کاهش کارایی چشمگیری توی کار های تک ترید نداریم (کاهش کارایی خیلی کم)) 3 پایپ لاین در سطح int (به معنی 3 ALU (و 3 آدرس جنریتور) در قسمت int) که بعضی هاشون با FP شیر شده (بعضی بخش ها و رجیستر های FP تو یکی اند بعضی ها تو یکی دیگه) برای سندی بریج
هر ماژول به سه بخش دسترسی داره (سه مسیر) دو تا به int یکی به fp (بلدوزر نسل اول) ، هر مسیر به هر int تقریبا تمییز داده شده از FP هست و هر قسمت int دو پایپ لاین داره (دو ALU) ولی اینجا یه مسیر به FP میره (60 ورودی داره)
+ توی بلدوزر نسل اول قدرت پردازشی int نسبت به فنوم افزایش فوق العاده ای داشت حتی نسبت به تعداد ALU ها و فرکانس نسبت به Core i7 2600K حدود 26% توی بخش محاسبه int بهتر بود ولی خوب i7 هم پایپ لاین هاش مختص فقط int (فقط ALU) نبودن و با FP شیر شده بودن
- عیب بلدوزر چی بود همون FP با یک مسیر این FP هر چقدر قدرتمند بود هر چقدر توی فنوم بخش FP بهتر از int بود اینجا بدتر بود دلیلشم خوب تغذیه نشدن بود (عدم استفاده کامل از قدرت قسمت FP)
هر ماژول دو هسته دو ترید (شیر شده) ، هر هسته به int و FP شیر شده دسترسی داره ، هر ماژول دو مسیر به FP داره در واقع اینجا درست تر از مولتی تریدینگ استفاده کردیم
توی Excavator-v2 که بنچ مارکاش بیرون اومده به بالاترین سطح کارایی نسبت به فرکانس + کارایی نسبت به ترانزیستور + کارایی نسبت به مصرف رسیده (یکی از دلایلش نصف کردن کش L2 بوده واقعا بلدوزر خیلی کش رو زیاد کرده بود مخصوصا کش L2)
در واقع دو مسیر داشتن باعث شده تا بخش FP از بیشتر ظرفیت خودش استفاده کنه
اما توی ZEN چه خبره؟
اینجا ما یه هسته با دو مسیر داریم ( یه بخش int و یه بخش FP در هر هسته و دو مسیر به int و دو مسیر به FP) همانند اینتل
ولی اینجا اعلام شده 3Issue Pipeline توی شکل نمادین 3 پایپ لاین نشون داده شده
اگر هر هسته 3 پایپ لاین باشه که میشه همون فنوم و از هسول که 4 شیرد پایپ لاین داشت نسبت به فرکانس ضعیف تر خواهد بود (در حد سندی بریج خواهد بود) مگر اینکه هر سه پایپ لاین شیرد شده باشن با FP و با بالاترین pipeline depth (فکر کنم در این حالت توی فرکانس بالا مصرف بالا میره)
حالا از این ها بگذریم توی پلتفرم AM4 پل شمالی به درون CPU اومده این باعث میشه سرعت HT بره بالا و مموری کنترلر هم بهتر کم مصرف تر باشه (همه اینا با لیتیوگرافی 14nm ساخته میشن در برابر 65nm پل شمالی های قبل) باشه و اینا کمک کنن سرعت کش بهتر بشه (دلیل کم کردن کش)
البته قسمت Global Front End هم تاثیر زیادی توی تاثیر مسیر ها و پاپیپ لاین ها داره
__________________________________________________ __________________________________________________ _____________________________
پیش بینی من اینه که zen توی کارایی کلی چند هسته ای چند نخی در حد اینتل باشه ولی توی تک ترید خیلی خوب نباشه (از بلدوزر ها قطعا بهتره)
همون طور که میدونیم طبق قانون آمدال اگر دستور عمل ها ثابت باشن (مثل موتور بازی ها منهای اونا که با ولکان و منتل و DX12 طراحی میشن (کمتر محدودن)) افزایش تعداد هسته ها فایده نداره
(برای استفاده از برنامه های غیر محاسباتی فایده ندارن)
این پردازنده ها با رم زیاد (طیق قانون گوستافسون) برای برنامه های رندرینگ مثل 3Ds MAX و MAYA و CATIA و ensight و... میخوره
شرمنده ببخشید خیلی زیاد شد خودم هم زیادی فرعی رفتم و اصلا کل حرفام اصولا اشتباه باشه
با احترام

خیلی تشکر بابت وقتی که گذاشتید و توضیحاتی که دادید
int ّبرای اعداد صحیح و fp برای اعداد اعشاری که به خاطر اعشاری بودن و مشکلاتش نیاز به سخت افزار متفاوتی از اعداد صحیح داره
حتی اگه دو نخ یا دو مسیر به یک int فرستاده بشند به دلیل پاپلاین یا خط لوله بودن یا اجرای یک دستور العمل در هر کلاک فقط در یک زمان هر خط لوله فقط یک پردازش را انجام میدهد
و حالت موازی مثل گرافیک نداره . حتی اگه دو مسیر به یک پاپلاین برسه باز هم نتیجه عوض نخواهد شد و باید به صورت خطی و نوبتی اجرا شوند
که خود اینتل هم گفته که اشباح مسیر ها برای یک پاپلاین بازدهی رو کاهش میده
امکان مولتی تردینگ در پاپلاین وجود نداره و غیر ممکنه ! منظور از چند نخی در هسته های Cpu هم اینکه که برای هر پاپلاین یک مسیر قرار میده

بولدوزر شاید بتونه در اجرای همزمان دوتا int در کنار هم بازدهی بهتری از اینتل و نسل قبل خودش داشته باشه . اما بنچ مارک ها میگند که در بازدهی خطی کاهش داشته
هرچقدر طول خط لوله و در نتیجه فرکانس بالاتر باشه تاخیر بالاتر میره و این در حقیقت نکته منفی هست . و از نسل قبلی ضعیفتر بوده

پاپلاین ها بخش های سخت افزاری جدا گانه ای با عملکرد اختصاصی هستند که همگی فقط در یک بسته قرار گرفته اند که به ان هسته cpu میگند

بازدهی پایین fp بولدوزر به خاطر پایین بودن تعداد انها بوده و مسیر تاثیری خطی زیادی نداره
هر هسته فنوم یک fp داشته و مثلا یک 6 هسته ای ان تعداد 6 تا fp داره اینتل هم همین گونه است
اما یک پردازنده مثلا هشت هسته ای بولدوزر فقط 4 تا fp داره

اینطور نیست که کش رو دلبخواهی انتخواب کنیم بلکه به اندازه نیاز هست . اگه کش اشتراکی ربطی به خط لوله نداشته کلا اصلا از همون اول کش رو پایین انتخواب میکردن
دو مسیره شدن fp ممکنه مثل اینتل فقط به خاطر هماهنگی و دلایل نرم افزاری باشه .
هر هسته cpu دو تا نخ داره اما این دو نخ همزمان میتوانند دو مسیر برای fp یا int باشد به همین خاطر در کل چهار مسیر داریم نه اینکه هر هسته بتونه چهار تا نخ رو داشته باشه!

ایا با نصف شدن میزان کش L2 بازدهی fp ان افزایش داشته ؟ یا بی تاثیر بوده ؟ یا فقط به خاطر دو مسیره شدن Fp بوده که کش رو کاهش دادن؟ چرا کش پردازنده های نسل قبلی هم با نداشتن مسیر پایین بوده؟
نکته بولدوزر در int دوتایی ان در هسته ها بوده و چیز خاصی برای fp نداشته

تمام نظریات شما بر روی فرضیه مسیر برای پاپلاین ایجاد شده که اگر خشت اول اشتباه باشه تا ثریا دیوار کج میره .
به همین خاطر نکات مهم رو باید منبع اصلی و معتبر داشته باشه که توی پست بالاییم به این نکات اشاره شده
با نظریه میشه برای نکته و ستون اصلی تعریف ایجاد کرد و در مسیر جلو رفت اما با اگر با اصول ها برای یک فرضیه شاخ و برگ بدیم به تناقضات با خود میرسیم و بی بیراهه می رویم
جاهای اصلی حتما باید به منبع معتبر مراجعه کرد

قانون امدهال که اسم دیگر اون

گوستافسون است

به تاثیر پذیری بازدهی کلی از استفاده پذیری سخت افزار اشاره داره .
اگه مثلا اهمیت یا گلوگاه بودن یا تاخیر گذرگاه پل شمالی و

Global Front End

فقط 5 درصد باشه اگه مثلا 200 برابر سریع تر بشه فقط به نسبت 5 درصد خودش در بازدهی کلی تاثیر خواهد داشت

اگه هم قبلا هسته های استفاده نمی شدند با نرم افزار یا افزایش استفاده پذیری میشه حلش کرد
مثل مسیر برای fp یا دوتایی بودن int

پیشبینی خیلی کلی هست اما تاثیرات مسیر و... بیشتر در چند نخی و پردازش همزمان هست و تاثیر زیادی در پردازش خطی نداره

**asdaf** · 9th December 2016, 04:35 PM

با عرض پوزش از دوستان .
یکم هم اشتباه و تداخل برای ما ایجاد شده
فکر کنم مسیر برای خط لوله ها ی int و fp با اجرای دستور خود خط لوله ها اشتباه گرفته شده

این تصویر باید گویا باشه

درسته هر خط لوله ALU یا پاپلاین فقط یک دستور رو انجام می دهد . و چند تا پاپلاین یک بخش int را تشکیل میدهند
برعکس اینتل بخش int بولدوزر فقط یک مسیر یا نخ رو داشته اما بخش int ان دوتا بوده

البته بخش های خط لوله از int با همدیگر تفاوت دارد و اختصاصی هستند و هرکدام وظیفه خاصی و نوع داده خاصی را دارند
ممکنه یک خط لوله از int برای بارگیری از حافظه باشه و بقیه برای کارهای دیگه
توی zen هم که دو مسیره شده به خاطر اینه که احتمالا نوع پاپلاین اختصاصی رو افزایش دادن و هنگامی که یک نخ به یک پاپلاین رسیدگی میکنه .نخ دیگه پاپلاین اختصاصی دیگه رو بره
در واقع هسته های معماری چند نخی مدل اینتل ضرفیت بیشتر و سرعت بیشتری برای رد کردن نخ های با دستور العمل خاص رو دارند اما برای پردازش اصلی عادی فرقی نکرده
اساس معماری اینتل هم همینه نه اینکه پردازش اصلی int رو مثل بولدوزر دو برابر کنند با سرعت کمتر
اگر هم یک fp نخ داده 128 بیتی رو اجرا کنه یک نخ دیگر 128 بیتی کنارش میتونه باشه . یا اینکه کلا فقط یک نخ 256 بیتی باشه . خارج از ضرفیت و توانایی سخت افزار امکان نداره
فرق fp بولدوزر با excavator فقط در داده های شناور کوچک کوچک هست در بنچمارک و داده های بزرگ فرقی نداره . بخش fp کلا پاپلاین به حساب نمیاد

**TERRORIST** · 10th December 2016, 03:51 PM

مشخصات منتشر شده از نسل بعدی محصولات AMD ZEN ، استفاده از پردازنده های گرافیکی Vega در APU ها نسل جدید .

سوکت AM4 With 1331 Pins برای محصولات Desktop And APU عرضه می شوند ولی سوکت FP5 برای محصولاتی همچون Embedded و سیستم بروی تراشه SOC

**asdaf** · 14th December 2016, 10:50 AM

سرانجام معماری ZEN تحت نام تجاری RYZEN برای کامپیوتر های دسکتاپ به صورت رسمی رونمایی شد
این معماری خیلی فراتر از انتظارات و وعده 40 درصد ipc بیشتر نسبت به پردازنده قبلی ظاهر شد

ول وعده و الوعید بهما حق !

که به لطف تکنولوژی های اختصاصی و جدید تحت بسته ای به نام SenseMI محقق شده است
SenseMI دارای پنج فن اوری هست

[Only registered and activated users can see links. ]

power tune و precision boost در واقع یک تکنولوژی هستند
از انجایی که سیلیکون های تراشه دارای کیفیت متفاوتی هستد برای گرفتن بیشترین تنظیم نسبت به ولتاژ و فرکانس و بازدهی و مصرف
به صورت پویا و داینامیک با توجه به سنسور هایی که در تراشه تعبیه شده با توجه به کیفیت سیلیکون از بهینه ترین تنظیمات برای تراشه استفاده میکند

Extended frequency range
با توجه دمای پردازنده و خنک کننده موجود به صورت خودکار میزان اورکلاک را تنظیم میکند
حتی با داشتن خنک کننده ابی یا حتی با نیتروژن مایع!!

من یتوکل الله فهو حسبه!

neural net prediction که همچنین اساس کار smart prefetch نیز است
برای پیشبینی نتیجه شاخه ها است که با نتیجه دستور العمل های قبلی که ذخیره شده است
نتیجه شاخه ها را نیز پیشبینی میکند و مستقیم بهترین مسیر و داده های مورد نیاز پردازش را اماده میکند

از انجایی که شیوه کش پردازنده متحول و مدل کاملا جدید شده است .
کش سطح سوم بین چند هست مشترک هست و سرعت پایین اما حجم بالا دارد اطلاعاتی که مورد نیاز است با توجه به نتیجه پیشبینی شاخه
اطلاعات کش سطح سوم را به کش خیلی پرسرعت اما اختصاصی سطح دوم ارسال میکند .

امروزه خیلی از چیزها اسم سیستم نورون مغزی به خود میگیرند اما منظور Amd این است که نتایج و رفتار ها همیشه توسط نرم افزار مخصوص
ذخیره شده مخصوصا در کش سطح سوم و با توجه به ذخیره الگوی رفتار پردازش ها انها را همانند مغز یاد اوری میکند و باعث صرفه جویی در پردازش و سرعت بیشتر می شود

ربنا لا تحمل علینا اصرا کما حملته علی الذین من قبلنا !!!

نتیجه این فن اوری ها این شده است که علاوه بر 40 درصد ipc بیشتری داشته باشیم

در همایش پردازنده 8 هسته ای با 16 نخ و فرکانس قفل شده بر روی 3.4 و مصرف 95 وات
در مقابل رده بالا ترین پردازنده اینتل در حال حاضر i7-6900K از broadwell E با مصرف 140 وات و قیمت 1090 اودلار
توانسته است در Blender و Handbrake با چند ثانیه زودتر پردازش را به پایان برساند
همچنین در بازی Battlefield 1 و در حالی که با گرافیک تایتان ایکس انویدیا همراه شده بودنند پردازنده 6900k را شکست داده است

جاء الحق و زهق باطل !!
اساعه اساعه! العجل العجل!!

**TERRORIST** · 14th December 2016, 11:29 PM

درود

با این مشخصات و بررسی ها صورت گرفته از پردازنده های Ryzen، می تواند گفت که AMD دارد بعد از مدت ها پردازنده های قدرتمند و قابل رقابت با رقیب خود عرضه می کند برام خیلی جالبه که چطور و کدوم مدل از پردازنده Ryzen توانسته است پردازنده ای قدرتمندی مثل: CI7 6900K چه مصرف بیکاری و در زمان حجم کاری مصرف کمتری داشته باشد و در برخی از نرم افزارهای کاربردی مانند: Blender که واقعا این محیط نرم افزار می تواند چندین نخی را پیاده سازی کنند قوی تر ظاهر شود . 00

هنوز برای بنده جای پرسش هستش که چگونه توانسته است از پردازنده COI7 6900K قوی تر ظاهر شود البته خیلی نیستش و جای امیدواری هستش از نظر Price And Performance ، چرا که COI7 6900K که بنده دارم از نظر Multi - Core And Multi Thread بعد از Xeon E7 ها قدرتمندترین ها هستند.

قطعا قطعا برای کاربران خبر خوشایندی خواهد بود که میتوانند با مبلغ بسیار کمی یک پردازنده هشت هسته ای داشته باشند بتوانند از قدرت (در تست های صورت گرفته IPC بیش از 40 درصد ) می باشد که واقعا رضایت بخش می باشد ، کاربران میتوانند با خرید این پردازنده ها از داشتن لذت چند هسته ای و چند نخی قدرتمند لذت ببرند . مصرف کمتر نسبت به رقیب خود با استفاده از قابلیت مدیریت پویا می تواند نقطه عطفی باشد برای AMD بعد از مدتها کاهش مصرف را شاهد هستیم ، استفاده از هسته ها همراه با تکنولوژی SMT ، این گونه در صحبت ها مطرح هستش که نسل بعدی کنسول شرکت Microsoft Scorpio قرار هستش از پردازنده های هشت هسته ای Ryzen استفاده نماید. که با افزایش بهره وری و توازی در پردازش داده ها می شود.

تستی صورت گرفته است از نرم افزار Blender همراه با 100 نمونه از بافت ها می باشد که توسط SR7 با فرکانس پیش فرض و بدونه درگیری Boost این بررسی ها صورت گرفته است ، با فرکانس 3.4 GHZ توانسته است این داده ها در مدت 25 ثانیه تبدیل به اطلاعات کرده است با استفاده از Instructions مانند AVX 256 Bit شرکت AMD توانسته است این بررسی ها را انجام دهد (البته در نرم افزار کاربردی Blender)

تا الان با این خبر تحسین کاربران در بر داشته است .

تصویری منتشر شده از محصول جدید AMD که گفته می شود از Solder استفاده شده

=======================================

**A1C1E** · 15th December 2016, 01:21 AM

نوشته اصلی توسط asdaf

خیلی تشکر بابت وقتی که گذاشتید و توضیحاتی که دادید
int ّبرای اعداد صحیح و fp برای اعداد اعشاری که به خاطر اعشاری بودن و مشکلاتش نیاز به سخت افزار متفاوتی از اعداد صحیح داره
حتی اگه دو نخ یا دو مسیر به یک int فرستاده بشند به دلیل پاپلاین یا خط لوله بودن یا اجرای یک دستور العمل در هر کلاک فقط در یک زمان هر خط لوله فقط یک پردازش را انجام میدهد
و حالت موازی مثل گرافیک نداره . حتی اگه دو مسیر به یک پاپلاین برسه باز هم نتیجه عوض نخواهد شد و باید به صورت خطی و نوبتی اجرا شوند
که خود اینتل هم گفته که اشباح مسیر ها برای یک پاپلاین بازدهی رو کاهش میده
امکان مولتی تردینگ در پاپلاین وجود نداره و غیر ممکنه ! منظور از چند نخی در هسته های Cpu هم اینکه که برای هر پاپلاین یک مسیر قرار میده

پاپلاین ها بخش های سخت افزاری جدا گانه ای با عملکرد اختصاصی هستند که همگی فقط در یک بسته قرار گرفته اند که به ان هسته cpu میگند

تمام نظریات شما بر روی فرضیه مسیر برای پاپلاین ایجاد شده که اگر خشت اول اشتباه باشه تا ثریا دیوار کج میره .
به همین خاطر نکات مهم رو باید منبع اصلی و معتبر داشته باشه که توی پست بالاییم به این نکات اشاره شده
با نظریه میشه برای نکته و ستون اصلی تعریف ایجاد کرد و در مسیر جلو رفت اما با اگر با اصول ها برای یک فرضیه شاخ و برگ بدیم به تناقضات با خود میرسیم و بی بیراهه می رویم
جاهای اصلی حتما باید به منبع معتبر مراجعه کرد

یه توضیح کوچوکو و کافی در باره مسیر
در یک CPU با دو مسیر در هر لحظه فقط یکی از مسیر ها کار میکنه و مسیر ها همزمان کار نمیکنند و نا همزمان کار میکنند (یعنی زمانی که مسیر اول بیکاره میشه از مسیر دوم کار کشید)

در واقع باعث میشه که بتونیم از بالای 90% توانایی یک هسته بهره ببریم
و به همین دلیل امکان ساخت هسته های بزرگ تر و با ورودی های بیشتر امکان پذیر شده (مثال معماری core2 با 32 ورودی رزرو دربرابر آخرین معماری اینتل با 97 ورودی رزرو) با توجه به این که تعداد ترد های بیشتر باعث شده اون درصد بلا استفادگی هر هسته کاهش بده و به درصد کمی برسونش ترسی از کاهش راندمان برای ساخت هسته های بزرگ نداریم (تو پردازنده های ARM این مشکل به وضوح دیده میشه برای همین از تکنیک big.LITELE استفاده میکنن)

اما در باره پایپ لاین تمام توضیحات شما درباره CPU های 1 Issue پایپ لاین درسته
نگاه کنید این یک 1Issue با 6 استیج (یا مرحله) پایپ لاینه و در واقع در یک زمان دو کار مشابه انجام نمیده (متد پردازش موازی هم TLP هه در هر لحظه 5 کار متفاوت انجام میده)

ولی اینا دیگه قدیمی شده :دی
این پایین یک 2Issue با 6 استیج (یا مرحله) پایپ لاین رو میبینیم که میتونه دو عملیات مشابه رو در یک لحظه انجام بده (در هر لحظه 10 کار متفاوت انجام میده) (مثل هر int بلدوزر)

این پایین دیاگرام هسته اسکای لیک اینتل هست (بخش FP و int فقط جا شد)

تو این عکس به وضوح 4Issue پایپلاین رو میبینیم (4 عدد ALU و 4 بخش دسترسی به حافظه (تو این بخش ALU برای int و Vector ALU برای FP)) که 3 تا از اونا شیر شدن
عکس پایین هم برای بلدوزر نسل اول هست که هر هسته دو پایپ (دو alu و دو agu (دسترسی به حافظه)) لاین داره ولی مشخص نیست چند پایپ لاین شیر شده (احتمالا 2 تا (یکی از هر بخش int))

نوشته اصلی توسط asdaf

بولدوزر شاید بتونه در اجرای همزمان دوتا int در کنار هم بازدهی بهتری از اینتل و نسل قبل خودش داشته باشه . اما بنچ مارک ها میگند که در بازدهی خطی کاهش داشته
هرچقدر طول خط لوله و در نتیجه فرکانس بالاتر (ثابت) باشه تاخیر بالاتر میره و این در حقیقت نکته منفی هست . و از نسل قبلی ضعیفتر بوده

بازدهی پایین fp بولدوزر به خاطر پایین بودن تعداد انها بوده و مسیر تاثیری خطی زیادی نداره
هر هسته فنوم یک fp داشته و مثلا یک 6 هسته ای ان تعداد 6 تا fp داره اینتل هم همین گونه است
اما یک پردازنده مثلا هشت هسته ای بولدوزر فقط 4 تا fp داره

اینطور نیست که کش رو دلبخواهی انتخواب کنیم بلکه به اندازه نیاز هست . اگه کش اشتراکی ربطی به خط لوله نداشته کلا اصلا از همون اول کش رو پایین انتخواب میکردن
دو مسیره شدن fp ممکنه مثل اینتل فقط به خاطر هماهنگی و دلایل نرم افزاری باشه .
هر هسته cpu دو تا نخ داره اما این دو نخ همزمان میتوانند دو مسیر برای fp یا int باشد به همین خاطر در کل چهار مسیر داریم نه اینکه هر هسته بتونه چهار تا نخ رو داشته باشه!

ایا با نصف شدن میزان کش L2 بازدهی fp ان افزایش داشته ؟ یا بی تاثیر بوده ؟ یا فقط به خاطر دو مسیره شدن Fp بوده که کش رو کاهش دادن؟ چرا کش پردازنده های نسل قبلی هم با نداشتن مسیر پایین بوده؟
نکته بولدوزر در int دوتایی ان در هسته ها بوده و چیز خاصی برای fp نداشته

اگه مثلا اهمیت یا گلوگاه بودن یا تاخیر گذرگاه پل شمالی و

Global Front End

فقط 5 درصد باشه اگه مثلا 200 برابر سریع تر بشه فقط به نسبت 5 درصد خودش در بازدهی کلی تاثیر خواهد داشت

اگه هم قبلا هسته های استفاده نمی شدند با نرم افزار یا افزایش استفاده پذیری میشه حلش کرد
مثل مسیر برای fp یا دوتایی بودن int

پیشبینی خیلی کلی هست اما تاثیرات مسیر و... بیشتر در چند نخی و پردازش همزمان هست و تاثیر زیادی در پردازش خطی نداره

درمورد بلدوزر این هسته نه به درد کارایی بالا میخورده (hi-pref hi-end) و نه راندمان بالایی داشته که بشه تو سیستم کم مصرف استفادش کرد
و اینکه چند باری عکس بلدوزر رو گذاشتم و سطح کش اون نسبت به سطح هسته ها رو نشون دادم و معتقدم یکی از دلایل کاهش مصرف و افزایش کارایی Excavator v2 همین موضوع کاهش کش سطح 2 بوده چرا که کش هم مصرفی داره کم کردن اون باعث کم شدن مصرف کلی تراشه میشه البته این موضوع برداشت شخصیه و ممکنه کلا اشتباه باشه

نوشته اصلی توسط asdaf

قانون امدهال که اسم دیگر اون

گوستافسون است

به تاثیر پذیری بازدهی کلی از استفاده پذیری سخت افزار اشاره داره .

درباره قانون آمدال توضیح خیلی ساده رو ارائه دادم الان هم سعی میکنم یکم بهترش کنم
ما یه CPU Xeon E7-8890v4 با 24 هسته 48 ترد و 2.2 گیگاهرتز فرکانس داریم اگر یه CPU Core i3 با همون معماری و فرکانس داشته باشیم 2 هسته 4 ترد
وقتی تعداد دستور ها کم باشه اختلاف کارایی دو پردازنده به صفر میل میکنه
ولی قانون گوستافسون میگه اگر تعداد دستور ها زیاد باشه (بی نهایت) برای اینکه بتونیم از زئون که 12 برابر هسته و ترد بیشتری داره اختلاف کارایی 12 برابری بگیریم میبایست 12 برابر رم بیشتری هم داشته باشیم (برای همینه که زئون ها و مادربرد های سرور رم بیشتری (فضایی) پشتیبانی میکنن)
منظور از problem و problem size توی قانون گوستافسون همون دستورات زیاد و حجم دستورات هه

نوشته اصلی توسط asdaf

با عرض پوزش از دوستان .
یکم هم اشتباه و تداخل برای ما ایجاد شده
فکر کنم مسیر برای خط لوله ها ی int و fp با اجرای دستور خود خط لوله ها اشتباه گرفته شده

این تصویر باید گویا باشه

درسته هر خط لوله ALU یا پاپلاین فقط یک دستور رو انجام می دهد . و چند تا پاپلاین یک بخش int را تشکیل میدهند
برعکس اینتل بخش int بولدوزر فقط یک مسیر یا نخ رو داشته اما بخش int ان دوتا بوده

البته بخش های خط لوله از int با همدیگر تفاوت دارد و اختصاصی هستند و هرکدام وظیفه خاصی و نوع داده خاصی را دارند
ممکنه یک خط لوله از int برای بارگیری از حافظه باشه و بقیه برای کارهای دیگه
توی zen هم که دو مسیره شده به خاطر اینه که احتمالا نوع پاپلاین اختصاصی رو افزایش دادن و هنگامی که یک نخ به یک پاپلاین رسیدگی میکنه .نخ دیگه پاپلاین اختصاصی دیگه رو بره
در واقع هسته های معماری چند نخی مدل اینتل ضرفیت بیشتر و سرعت بیشتری برای رد کردن نخ های با دستور العمل خاص رو دارند اما برای پردازش اصلی عادی فرقی نکرده
اساس معماری اینتل هم همینه نه اینکه پردازش اصلی int رو مثل بولدوزر دو برابر کنند با سرعت کمتر
اگر هم یک fp نخ داده 128 بیتی رو اجرا کنه یک نخ دیگر 128 بیتی کنارش میتونه باشه . یا اینکه کلا فقط یک نخ 256 بیتی باشه . خارج از ضرفیت و توانایی سخت افزار امکان نداره
فرق fp بولدوزر با excavator فقط در داده های شناور کوچک کوچک هست در بنچمارک و داده های بزرگ فرقی نداره . بخش fp کلا پاپلاین به حساب نمیاد

خوب بازم اینو بالا توضیح دادم عکس معماری اینتل اسکای لیک هم گویاست که بخش fp در 3 پایپ لاین شیر شده (فرقی نمیکنه کدوم مدل بگیش مدل گفتنش یه جوریه من از این جمله امتناع میکنم :دی + نمیگم بخش fp پایپ لاین نداره)
با احترام

**asdaf** · 15th December 2016, 03:47 AM

در یک CPU با دو مسیر در هر لحظه فقط یکی از مسیر ها کار میکنه و مسیر ها همزمان کار نمیکنند و نا همزمان کار میکنند (یعنی زمانی که مسیر اول بیکاره میشه از مسیر دوم کار کشید)

اون وقت اون cpu دو مسیره یک نخ داره؟ منظور من خود یک پاپلاین تکی بود .
اما در مورد مسیر های وارد به fp و int گفتم که اگه مثلا چهار تا مسیر باشه اینطور نیست که چهار تا نخ همزمان داشته باشیم بلکه برای حالت های مختلف نرم افزاری هست

اما در باره پایپ لاین تمام توضیحات شما درباره CPU های 1 Issue پایپ لاین درسته
نگاه کنید این یک 1Issue با 6 استیج (یا مرحله) پایپ لاینه و در واقع در یک زمان دو کار مشابه انجام نمیده (متد پردازش موازی هم TLP هه در هر لحظه 5 کار متفاوت انجام میده)

اون ها به عنوان ریز عملیات حساب میشند که خیلی از اینها مثل شیفت یا اعمال ریاضی ساده در داخل ریجستر انجام میشه
اما منظور از clock cycle اون حتی کار های ریز توی accumulator هم نیست بلکه عملیات اجرای خود alu هست

ولی اینا دیگه قدیمی شده :دی
این پایین یک 2Issue با 6 استیج (یا مرحله) پایپ لاین رو میبینیم که میتونه دو عملیات مشابه رو در یک لحظه انجام بده (در هر لحظه 10 کار متفاوت انجام میده) (مثل هر int بلدوزر)

درسته پاپلاین دو دستور العملی هم ندیده بودیم که دیدیم . که میزان داده های اجرای اون رو افزایش دادن اما توی مسیر و انعطاف محدودیت داره و یکی به حساب میاد

تو این عکس به وضوح 4Issue پایپلاین رو میبینیم (4 عدد ALU و 4 بخش دسترسی به حافظه (تو این بخش ALU برای int و Vector ALU برای FP)) که 3 تا از اونا شیر شدن
عکس پایین هم برای بلدوزر نسل اول هست که هر هسته دو پایپ (دو alu و دو agu (دسترسی به حافظه)) لاین داره ولی مشخص نیست چند پایپ لاین شیر شده (احتمالا 2 تا (یکی از هر بخش int))

فکر کنم توی عکس هر port یا مسیر به یک پاپلاین جداگانه با طول و ظرفیت و تخصص جداگانه می رسند نه اینکه یک پاپلاین با چهار عملیات یکسان پشت سر هم باشه
تعریف پاپلاین رو باید یکم واضح تر کنیم . اینجوری که از تصویر من برداشت میکنم اینه که بعد از چند خط لوله int پردازش fp پشت سر ان انجام میشه و اونها رو تو یک port و خط قرار داده اند
اگه پاپلاین فراتر از یک simd و Clock cycle در نظر بگیریم و کل از اول و تا اخر ماجرا به صورت خطی را خط لوله بگیم ماجرا عوض میشه

[Only registered and activated users can see links. ]
البته توی این تصویر کلا بخش های پردازش داده های یکسان حتی با وجود مسیر های متفاوت رو پاپلاین گفته

از اونجا که AGU ها به دنبال ALU قرار نگرفتند و مسیر خودشان در کنار ALU را دارند به جای اینکه انها را با هم جمع ببندید و یک پاپلاین بگید به نظر خودم هر بخش یک پاپلاین جدا به حساب میاد یعنی 4 تا
برخلاف تصویر اولی توی تصویر بولدوزر داده های int و fp توی دیکود از هم جدا می شوند و خود FP ورودی مستقل داره و بعد از اتمام دوباره به fetch بر می گردنند برای پردازش دیگه

درمورد بلدوزر این هسته نه به درد کارایی بالا میخورده (hi-pref hi-end) و نه راندمان بالایی داشته که بشه تو سیستم کم مصرف استفادش کرد
و اینکه چند باری عکس بلدوزر رو گذاشتم و سطح کش اون نسبت به سطح هسته ها رو نشون دادم و معتقدم یکی از دلایل کاهش مصرف و افزایش کارایی Excavator v2 همین موضوع کاهش کش سطح 2 بوده چرا که کش هم مصرفی داره کم کردن اون باعث کم شدن مصرف کلی تراشه میشه البته این موضوع برداشت شخصیه و ممکنه کلا اشتباه باشه

اگه پاپلاین بولدوزر تک مسیره و چند دستور العملی باشه .بیشتر با هدف ضرفیت بالا طراحی شده . اما توی تصویر چند تا پاپلاین اسم برده و همگی یک مسیر به int
البته کاهش کش سطح دو نتیجه یک عمل دیگه به حساب میاد .
کش سطح دو بولدوزر بیشتر به کش سطح سوم اشتراکی بین هسته ها شبیه بوده و نظر من اینه که عامل مستقل شدن int ها از نظر decode باید دلیل کاهش کش باشه یعنی کاملا هر int مستقل شدن

درباره قانون آمدال توضیح خیلی ساده رو ارائه دادم الان هم سعی میکنم یکم بهترش کنم
ما یه CPU Xeon E7-8890v4 با 24 هسته 48 ترد و 2.2 گیگاهرتز فرکانس داریم اگر یه CPU Core i3 با همون معماری و فرکانس داشته باشیم 2 هسته 4 ترد
وقتی تعداد دستور ها کم باشه اختلاف کارایی دو پردازنده به صفر میل میکنه
ولی قانون گوستافسون میگه اگر تعداد دستور ها زیاد باشه (بی نهایت) برای اینکه بتونیم از زئون که 12 برابر هسته و ترد بیشتری داره اختلاف کارایی 12 برابری بگیریم میبایست 12 برابر رم بیشتری هم داشته باشیم (برای همینه که زئون ها و مادربرد های سرور رم بیشتری (فضایی) پشتیبانی میکنن)
منظور از problem و problem size توی قانون گوستافسون همون دستورات زیاد و حجم دستورات هه

فکر میکردم که امدال و گوستافسون دو طرف یک سکه باشند با تعاریف متفاوت .
[Only registered and activated users can see links. ] اینجا قانون رو در مورد تاخیر توضیح داده
خوب اگه توضیح گوستافسون از شما رو در مورد int های بولدوزر در نظر بگیریم یعنی هرچقدر کش بیشتر باشه بهتره ؟ البته هر int یک هسته به شمار میاد

خوب بازم اینو بالا توضیح دادم عکس معماری اینتل اسکای لیک هم گویاست که بخش fp در 3 پایپ لاین شیر شده (فرقی نمیکنه کدوم مدل بگیش مدل گفتنش یه جوریه من از این جمله امتناع میکنم :دی + نمیگم بخش fp پایپ لاین نداره)
با احترام

تصویری و توضیحی که از اسکای لیک دادین خیلی جدید وجالب بود اما در مورد تصویر بولدوزر صدق نمیکنه .
اسکای لیک رو نمی دونم چی بگم اما به صورتی طراحی شده برای کارهای خاص
که اگه توی پردازش ها fp نباشه یا کم باشه باعث مصرف بیهوده و تاخیر بالا میشه و مسیر جداگانه و مستقیم برای fp نداره یا پردازش همزمان fp با int
اما بولدوزر به صورت حلقه ای و تکرار مراحل از اول ساخته شده . منظورم از پاپلاین نبودنش چیز دیگری بود

**A1C1E** · 15th December 2016, 04:05 PM

نوشته اصلی توسط asdaf

اون وقت اون cpu دو مسیره یک نخ داره؟ منظور من خود یک پاپلاین تکی بود .
اما در مورد مسیر های وارد به fp و int گفتم که اگه مثلا چهار تا مسیر باشه اینطور نیست که چهار تا نخ همزمان داشته باشیم بلکه برای حالت های مختلف نرم افزاری هست

اون ها به عنوان ریز عملیات حساب میشند که خیلی از اینها مثل شیفت یا اعمال ریاضی ساده در داخل ریجستر انجام میشه
اما منظور از clock cycle اون حتی کار های ریز توی accumulator هم نیست بلکه عملیات اجرای خود alu هست

درسته پاپلاین دو دستور العملی هم ندیده بودیم که دیدیم . که میزان داده های اجرای اون رو افزایش دادن اما توی مسیر و انعطاف محدودیت داره و یکی به حساب میاد

فکر کنم توی عکس هر port یا مسیر به یک پاپلاین جداگانه با طول و ظرفیت و تخصص جداگانه می رسند نه اینکه یک پاپلاین با چهار عملیات یکسان پشت سر هم باشه
تعریف پاپلاین رو باید یکم واضح تر کنیم . اینجوری که از تصویر من برداشت میکنم اینه که بعد از چند خط لوله int پردازش fp پشت سر ان انجام میشه و اونها رو تو یک port و خط قرار داده اند
اگه پاپلاین فراتر از یک simd و Clock cycle در نظر بگیریم و کل از اول و تا اخر ماجرا به صورت خطی را خط لوله بگیم ماجرا عوض میشه

[Only registered and activated users can see links. ]
البته توی این تصویر کلا بخش های پردازش داده های یکسان حتی با وجود مسیر های متفاوت رو پاپلاین گفته

از اونجا که AGU ها به دنبال ALU قرار نگرفتند و مسیر خودشان در کنار ALU را دارند به جای اینکه انها را با هم جمع ببندید و یک پاپلاین بگید به نظر خودم هر بخش یک پاپلاین جدا به حساب میاد یعنی 4 تا
برخلاف تصویر اولی توی تصویر بولدوزر داده های int و fp توی دیکود از هم جدا می شوند و خود FP ورودی مستقل داره و بعد از اتمام دوباره به fetch بر می گردنند برای پردازش دیگه

اگه پاپلاین بولدوزر تک مسیره و چند دستور العملی باشه .بیشتر با هدف ضرفیت بالا طراحی شده . اما توی تصویر چند تا پاپلاین اسم برده و همگی یک مسیر به int
البته کاهش کش سطح دو نتیجه یک عمل دیگه به حساب میاد .
کش سطح دو بولدوزر بیشتر به کش سطح سوم اشتراکی بین هسته ها شبیه بوده و نظر من اینه که عامل مستقل شدن int ها از نظر decode باید دلیل کاهش کش باشه یعنی کاملا هر int مستقل شدن

فکر میکردم که امدال و گوستافسون دو طرف یک سکه باشند با تعاریف متفاوت .
[Only registered and activated users can see links. ] اینجا قانون رو در مورد تاخیر توضیح داده
خوب اگه توضیح گوستافسون از شما رو در مورد int های بولدوزر در نظر بگیریم یعنی هرچقدر کش بیشتر باشه بهتره ؟ البته هر int یک هسته به شمار میاد

تصویری و توضیحی که از اسکای لیک دادین خیلی جدید وجالب بود اما در مورد تصویر بولدوزر صدق نمیکنه .
اسکای لیک رو نمی دونم چی بگم اما به صورتی طراحی شده برای کارهای خاص
که اگه توی پردازش ها fp نباشه یا کم باشه باعث مصرف بیهوده و تاخیر بالا میشه و مسیر جداگانه و مستقیم برای fp نداره یا پردازش همزمان fp با int
اما بولدوزر به صورت حلقه ای و تکرار مراحل از اول ساخته شده . منظورم از پاپلاین نبودنش چیز دیگری بود

من هم همینو درباره ترید (ترد - نخ) گفتم
توی ترد اگر دو مسیر (دو مسیر FP دومسیر int) هست در هر لحظه فقط یکی کار میکنه
اما پایپ لاین توی 1Issue پایپ لاین ما چند Stage داریم و به ازای هر Stage توی هر issue میتونیم کارهای متفاوتی همزمان انجام بدیم
توی عکس پایین 1Issue 5Stage پایپ لاین (5 کار متفاوت در یک زمان) IF واکشی - ID دیکد (رمز گشایی) - EX اجرا (ALU) - MEM دسترسی به حافظه (واحد Store) - WB رایت بک (یا همون واحد load)
IF = Instruction Fetch, ID = Instruction Decode, EX = Execute, MEM = Memory access, WB = Register write back

اما توی عکس زیر که 2Issue 5Stage هست (6 دو کار متفاوت جمعا 12 کار متفاوت در یک لحظه) جمعا 10Stage پایپ لاین
IF واکشی - ID دیکد - EX اجرا ( ALU ها) - MEM دسترسی به حافظه (واحد های Store) - WB رایت بک (یا همون واحد های load)
IF = Instruction Fetch, ID = Instruction Decode, EX = Execute, MEM = Memory access, WB = Register write back

خوب دوباره عکس اسکای لیک (بخش int+FP) خبری از بخش واکشی و دیکد کردن دستورات نیست
توی اسکای لیک 14Stage (جمعا) پایپلاین داریم و 4Issue پایپ لاین
هر Issue میتونه شامل بخش های واکشی - دیکد - اجرا - دسترسی به حافظه - رایت بک باشه
میتونه بعضی از اینا هم نداشته باشه
ما اینجا فقط قسمت پایینیه یه پایپ لاین رو میبینیم و نمیدونیم هر کدوم Issue پایپ لاین ها بخش واکشی و دیکد (رمزگشایی) رو داره
اما میبینیم که 4 بخش alu و 4 بخش Store Address یا STA وجود داره پس به 4Issue بودن اسکای لیک پی میبریم حالا اینکه من میگم 4 پایپ لاین دارن منظورم همین در واقع باید میگفتم 4Issue پایپ لاین داره
ولی شما روی Stage ها تاکید دارید که این CPU خیلی بیشتر پایپ لاین داره (البته شمردنشونم دردسره)
درباره شمردن Stage Pipeline های اسکای لیک اینجوری میشه و اینجوری ما 4ALU (واحد اجرایی) داریم بعلاوه 4Store Address (واحد دسترسی به حافظه) بعلاوه 2Load Address (واحد رایت بک) = 10Stage پایپ لاین 4 تا دیگه کجا رفتن؟ خوب احتمالا 2 تا از این Issue پایپ لاین ها Stage واکشی و دیکد هم دارن که میشه 2Issue x 2Stage = 4Stage و جمعا 14 تا Stage یا مرحله حالا یه عده باز میگن اسکای لیک 19 پایپ لاین داره شما واحد های Register Read رو جزو Stage های پایپ لاین ها حساب نکردید و...

خلاصه 4Issue = چهار کار یکسان همزمان (اجرایی تو اسکای لیک) - و Stage تعداد تمام کارهای متفاوت همزمان

در مورد بلدوزر و کش (از نظر من که شاید هم اشتباه باشه) هر بخش int + هر بخش FP = یک هسته ، حالا توی بلدوزر int ها تک مسیره هستن و fp ها هم تک مسیره (دو بخش int به ازای یک بخش fp)
بعضی نرم افزارا (رندرینگ) بیشتر به بخش FP نیاز دارن تا int به همین دلیل بلدوزر مثل اینتل یا فنوم بازدهی کلی خوبی ندارن
اما اگر فقط بخوایم int محاسبه کنیم بله کش اضافه همچنین ram اضافه موثر هست منتها اعداد صحیح جای کمتری نسبت به اعداد اعشاری اشغال میکنند
مثلا در زبان C هر int 16bit و هر float 32bit جا اشغال میکنه
به خاطر همین میگم برای افزایش راندمان کلی بلدوزر نیاز بود حافظه پرمصرف کش کاهش پیدا کنه
باز هم میگم این موضوع کش کاملا نظر شخصی بندس و شاید اصلا صحت نداشته باشه

موضوع: = بحث و گفتگو درباره پردازنده های RYZEN شرکت AMD =

LinkBack

ابزارهای موضوع

جستجو موضوع

نحوه نمایش موضوع

= بحث و گفتگو درباره پردازنده های RYZEN شرکت AMD =

15 کاربر بابت این ارسال مفید از TERRORIST تشکر کرده اند:

6 کاربر بابت این ارسال مفید از A1C1E تشکر کرده اند:

6 کاربر بابت این ارسال مفید از asdaf تشکر کرده اند:

8 کاربر بابت این ارسال مفید از asdaf تشکر کرده اند:

8 کاربر بابت این ارسال مفید از TERRORIST تشکر کرده اند:

8 کاربر بابت این ارسال مفید از asdaf تشکر کرده اند:

7 کاربر بابت این ارسال مفید از TERRORIST تشکر کرده اند:

7 کاربر بابت این ارسال مفید از A1C1E تشکر کرده اند:

6 کاربر بابت این ارسال مفید از asdaf تشکر کرده اند:

4 کاربر بابت این ارسال مفید از A1C1E تشکر کرده اند:

کلمات کلیدی این موضوع

مجوز های ارسال و ویرایش