سری اتلون FX خیلی قبلتر از سری بلدوزر بود و واقعا هم قوی بودنقل قول:
نمایش نسخه قابل چاپ
سری اتلون FX خیلی قبلتر از سری بلدوزر بود و واقعا هم قوی بودنقل قول:
دقیقا متوجه منطورتون تو خط دوم و سوم نشدمنقل قول:
نوشته اصلی توسط asdaf [Only registered and activated users can see links. Click Here To Register...]
یه توضیح کوچیکی خودم بدم
هر هسته یه قسمت محاسبات عدد صحیح داره (integer) یه قسمت ممیز شناور Floting Point (این برای آخرین نسل فنوم ها و Core 2 ها)
هر مسیر/ترید در زمان مشخص اجازه دستیابی(دسترسی) به یه بخش عدد صحیح int و یه بخش ممیز شناور fp رو داره ( اینتل i7) (داشتن 2 مسیر به ازای یه هسته (یه int یه fp) (دو مسیر به int و دو مسیر به FP) باعث استفاده بهتر از پایپ لاین ها میشه به همین خاطر کاهش کارایی چشمگیری توی کار های تک ترید نداریم (کاهش کارایی خیلی کم)) 3 پایپ لاین در سطح int (به معنی 3 ALU (و 3 آدرس جنریتور) در قسمت int) که بعضی هاشون با FP شیر شده (بعضی بخش ها و رجیستر های FP تو یکی اند بعضی ها تو یکی دیگه) برای سندی بریج
هر ماژول به سه بخش دسترسی داره (سه مسیر) دو تا به int یکی به fp (بلدوزر نسل اول) ، هر مسیر به هر int تقریبا تمییز داده شده از FP هست و هر قسمت int دو پایپ لاین داره (دو ALU) ولی اینجا یه مسیر به FP میره (60 ورودی داره)
+ توی بلدوزر نسل اول قدرت پردازشی int نسبت به فنوم افزایش فوق العاده ای داشت حتی نسبت به تعداد ALU ها و فرکانس نسبت به Core i7 2600K حدود 26% توی بخش محاسبه int بهتر بود ولی خوب i7 هم پایپ لاین هاش مختص فقط int (فقط ALU) نبودن و با FP شیر شده بودن
- عیب بلدوزر چی بود همون FP با یک مسیر این FP هر چقدر قدرتمند بود هر چقدر توی فنوم بخش FP بهتر از int بود اینجا بدتر بود دلیلشم خوب تغذیه نشدن بود (عدم استفاده کامل از قدرت قسمت FP)
هر ماژول دو هسته دو ترید (شیر شده) ، هر هسته به int و FP شیر شده دسترسی داره ، هر ماژول دو مسیر به FP داره در واقع اینجا درست تر از مولتی تریدینگ استفاده کردیم
توی Excavator-v2 که بنچ مارکاش بیرون اومده به بالاترین سطح کارایی نسبت به فرکانس + کارایی نسبت به ترانزیستور + کارایی نسبت به مصرف رسیده (یکی از دلایلش نصف کردن کش L2 بوده واقعا بلدوزر خیلی کش رو زیاد کرده بود مخصوصا کش L2)
در واقع دو مسیر داشتن باعث شده تا بخش FP از بیشتر ظرفیت خودش استفاده کنه
اما توی ZEN چه خبره؟
اینجا ما یه هسته با دو مسیر داریم ( یه بخش int و یه بخش FP در هر هسته و دو مسیر به int و دو مسیر به FP) همانند اینتل
ولی اینجا اعلام شده 3Issue Pipeline توی شکل نمادین 3 پایپ لاین نشون داده شده
اگر هر هسته 3 پایپ لاین باشه که میشه همون فنوم و از هسول که 4 شیرد پایپ لاین داشت نسبت به فرکانس ضعیف تر خواهد بود (در حد سندی بریج خواهد بود) مگر اینکه هر سه پایپ لاین شیرد شده باشن با FP و با بالاترین pipeline depth (فکر کنم در این حالت توی فرکانس بالا مصرف بالا میره)
حالا از این ها بگذریم توی پلتفرم AM4 پل شمالی به درون CPU اومده این باعث میشه سرعت HT بره بالا و مموری کنترلر هم بهتر کم مصرف تر باشه (همه اینا با لیتیوگرافی 14nm ساخته میشن در برابر 65nm پل شمالی های قبل) باشه و اینا کمک کنن سرعت کش بهتر بشه (دلیل کم کردن کش)
البته قسمت Global Front End هم تاثیر زیادی توی تاثیر مسیر ها و پاپیپ لاین ها داره
__________________________________________________ __________________________________________________ _____________________________
پیش بینی من اینه که zen توی کارایی کلی چند هسته ای چند نخی در حد اینتل باشه ولی توی تک ترید خیلی خوب نباشه (از بلدوزر ها قطعا بهتره)
همون طور که میدونیم طبق قانون آمدال اگر دستور عمل ها ثابت باشن (مثل موتور بازی ها منهای اونا که با ولکان و منتل و DX12 طراحی میشن (کمتر محدودن)) افزایش تعداد هسته ها فایده نداره
(برای استفاده از برنامه های غیر محاسباتی فایده ندارن)
این پردازنده ها با رم زیاد (طیق قانون گوستافسون) برای برنامه های رندرینگ مثل 3Ds MAX و MAYA و CATIA و ensight و... میخوره
شرمنده ببخشید خیلی زیاد شد خودم هم زیادی فرعی رفتم و اصلا کل حرفام اصولا اشتباه باشه
با احترام
خیلی تشکر بابت وقتی که گذاشتید و توضیحاتی که دادیدنقل قول:
نوشته اصلی توسط A1C1E [Only registered and activated users can see links. Click Here To Register...]
int ّبرای اعداد صحیح و fp برای اعداد اعشاری که به خاطر اعشاری بودن و مشکلاتش نیاز به سخت افزار متفاوتی از اعداد صحیح داره
حتی اگه دو نخ یا دو مسیر به یک int فرستاده بشند به دلیل پاپلاین یا خط لوله بودن یا اجرای یک دستور العمل در هر کلاک فقط در یک زمان هر خط لوله فقط یک پردازش را انجام میدهد
و حالت موازی مثل گرافیک نداره . حتی اگه دو مسیر به یک پاپلاین برسه باز هم نتیجه عوض نخواهد شد و باید به صورت خطی و نوبتی اجرا شوند
که خود اینتل هم گفته که اشباح مسیر ها برای یک پاپلاین بازدهی رو کاهش میده
امکان مولتی تردینگ در پاپلاین وجود نداره و غیر ممکنه ! منظور از چند نخی در هسته های Cpu هم اینکه که برای هر پاپلاین یک مسیر قرار میده
بولدوزر شاید بتونه در اجرای همزمان دوتا int در کنار هم بازدهی بهتری از اینتل و نسل قبل خودش داشته باشه . اما بنچ مارک ها میگند که در بازدهی خطی کاهش داشته
هرچقدر طول خط لوله و در نتیجه فرکانس بالاتر باشه تاخیر بالاتر میره و این در حقیقت نکته منفی هست . و از نسل قبلی ضعیفتر بوده
پاپلاین ها بخش های سخت افزاری جدا گانه ای با عملکرد اختصاصی هستند که همگی فقط در یک بسته قرار گرفته اند که به ان هسته cpu میگند
بازدهی پایین fp بولدوزر به خاطر پایین بودن تعداد انها بوده و مسیر تاثیری خطی زیادی نداره
هر هسته فنوم یک fp داشته و مثلا یک 6 هسته ای ان تعداد 6 تا fp داره اینتل هم همین گونه است
اما یک پردازنده مثلا هشت هسته ای بولدوزر فقط 4 تا fp داره
اینطور نیست که کش رو دلبخواهی انتخواب کنیم بلکه به اندازه نیاز هست . اگه کش اشتراکی ربطی به خط لوله نداشته کلا اصلا از همون اول کش رو پایین انتخواب میکردن
دو مسیره شدن fp ممکنه مثل اینتل فقط به خاطر هماهنگی و دلایل نرم افزاری باشه .
هر هسته cpu دو تا نخ داره اما این دو نخ همزمان میتوانند دو مسیر برای fp یا int باشد به همین خاطر در کل چهار مسیر داریم نه اینکه هر هسته بتونه چهار تا نخ رو داشته باشه!
ایا با نصف شدن میزان کش L2 بازدهی fp ان افزایش داشته ؟ یا بی تاثیر بوده ؟ یا فقط به خاطر دو مسیره شدن Fp بوده که کش رو کاهش دادن؟ چرا کش پردازنده های نسل قبلی هم با نداشتن مسیر پایین بوده؟
نکته بولدوزر در int دوتایی ان در هسته ها بوده و چیز خاصی برای fp نداشته
تمام نظریات شما بر روی فرضیه مسیر برای پاپلاین ایجاد شده که اگر خشت اول اشتباه باشه تا ثریا دیوار کج میره .
به همین خاطر نکات مهم رو باید منبع اصلی و معتبر داشته باشه که توی پست بالاییم به این نکات اشاره شده
با نظریه میشه برای نکته و ستون اصلی تعریف ایجاد کرد و در مسیر جلو رفت اما با اگر با اصول ها برای یک فرضیه شاخ و برگ بدیم به تناقضات با خود میرسیم و بی بیراهه می رویم
جاهای اصلی حتما باید به منبع معتبر مراجعه کرد
قانون امدهال که اسم دیگر اونگوستافسون استبه تاثیر پذیری بازدهی کلی از استفاده پذیری سخت افزار اشاره داره .
اگه مثلا اهمیت یا گلوگاه بودن یا تاخیر گذرگاه پل شمالی وGlobal Front Endفقط 5 درصد باشه اگه مثلا 200 برابر سریع تر بشه فقط به نسبت 5 درصد خودش در بازدهی کلی تاثیر خواهد داشت
اگه هم قبلا هسته های استفاده نمی شدند با نرم افزار یا افزایش استفاده پذیری میشه حلش کرد
مثل مسیر برای fp یا دوتایی بودن int
پیشبینی خیلی کلی هست اما تاثیرات مسیر و... بیشتر در چند نخی و پردازش همزمان هست و تاثیر زیادی در پردازش خطی نداره
با عرض پوزش از دوستان .
یکم هم اشتباه و تداخل برای ما ایجاد شده
فکر کنم مسیر برای خط لوله ها ی int و fp با اجرای دستور خود خط لوله ها اشتباه گرفته شده:d
این تصویر باید گویا باشه
[Only registered and activated users can see links. Click Here To Register...]
درسته هر خط لوله ALU یا پاپلاین فقط یک دستور رو انجام می دهد . و چند تا پاپلاین یک بخش int را تشکیل میدهند
برعکس اینتل بخش int بولدوزر فقط یک مسیر یا نخ رو داشته اما بخش int ان دوتا بوده
البته بخش های خط لوله از int با همدیگر تفاوت دارد و اختصاصی هستند و هرکدام وظیفه خاصی و نوع داده خاصی را دارند
ممکنه یک خط لوله از int برای بارگیری از حافظه باشه و بقیه برای کارهای دیگه
توی zen هم که دو مسیره شده به خاطر اینه که احتمالا نوع پاپلاین اختصاصی رو افزایش دادن و هنگامی که یک نخ به یک پاپلاین رسیدگی میکنه .نخ دیگه پاپلاین اختصاصی دیگه رو بره
در واقع هسته های معماری چند نخی مدل اینتل ضرفیت بیشتر و سرعت بیشتری برای رد کردن نخ های با دستور العمل خاص رو دارند اما برای پردازش اصلی عادی فرقی نکرده
اساس معماری اینتل هم همینه نه اینکه پردازش اصلی int رو مثل بولدوزر دو برابر کنند با سرعت کمتر
اگر هم یک fp نخ داده 128 بیتی رو اجرا کنه یک نخ دیگر 128 بیتی کنارش میتونه باشه . یا اینکه کلا فقط یک نخ 256 بیتی باشه . خارج از ضرفیت و توانایی سخت افزار امکان نداره
فرق fp بولدوزر با excavator فقط در داده های شناور کوچک کوچک هست در بنچمارک و داده های بزرگ فرقی نداره . بخش fp کلا پاپلاین به حساب نمیاد
[Only registered and activated users can see links. Click Here To Register...]
مشخصات منتشر شده از نسل بعدی محصولات AMD ZEN ، استفاده از پردازنده های گرافیکی Vega در APU ها نسل جدید .
سوکت AM4 With 1331 Pins برای محصولات Desktop And APU عرضه می شوند ولی سوکت FP5 برای محصولاتی همچون Embedded و سیستم بروی تراشه SOC
سرانجام معماری ZEN تحت نام تجاری RYZEN برای کامپیوتر های دسکتاپ به صورت رسمی رونمایی شد
این معماری خیلی فراتر از انتظارات و وعده 40 درصد ipc بیشتر نسبت به پردازنده قبلی ظاهر شد
ول وعده و الوعید بهما حق !
که به لطف تکنولوژی های اختصاصی و جدید تحت بسته ای به نام SenseMI محقق شده است
SenseMI دارای پنج فن اوری هست
[Only registered and activated users can see links. Click Here To Register...]
power tune و precision boost در واقع یک تکنولوژی هستند
از انجایی که سیلیکون های تراشه دارای کیفیت متفاوتی هستد برای گرفتن بیشترین تنظیم نسبت به ولتاژ و فرکانس و بازدهی و مصرف
به صورت پویا و داینامیک با توجه به سنسور هایی که در تراشه تعبیه شده با توجه به کیفیت سیلیکون از بهینه ترین تنظیمات برای تراشه استفاده میکند
Extended frequency range
با توجه دمای پردازنده و خنک کننده موجود به صورت خودکار میزان اورکلاک را تنظیم میکند
حتی با داشتن خنک کننده ابی یا حتی با نیتروژن مایع!!
من یتوکل الله فهو حسبه!
neural net prediction که همچنین اساس کار smart prefetch نیز است
برای پیشبینی نتیجه شاخه ها است که با نتیجه دستور العمل های قبلی که ذخیره شده است
نتیجه شاخه ها را نیز پیشبینی میکند و مستقیم بهترین مسیر و داده های مورد نیاز پردازش را اماده میکند
از انجایی که شیوه کش پردازنده متحول و مدل کاملا جدید شده است .
کش سطح سوم بین چند هست مشترک هست و سرعت پایین اما حجم بالا دارد اطلاعاتی که مورد نیاز است با توجه به نتیجه پیشبینی شاخه
اطلاعات کش سطح سوم را به کش خیلی پرسرعت اما اختصاصی سطح دوم ارسال میکند .
امروزه خیلی از چیزها اسم سیستم نورون مغزی به خود میگیرند اما منظور Amd این است که نتایج و رفتار ها همیشه توسط نرم افزار مخصوص
ذخیره شده مخصوصا در کش سطح سوم و با توجه به ذخیره الگوی رفتار پردازش ها انها را همانند مغز یاد اوری میکند و باعث صرفه جویی در پردازش و سرعت بیشتر می شود
ربنا لا تحمل علینا اصرا کما حملته علی الذین من قبلنا !!!
نتیجه این فن اوری ها این شده است که علاوه بر 40 درصد ipc بیشتری داشته باشیم
در همایش پردازنده 8 هسته ای با 16 نخ و فرکانس قفل شده بر روی 3.4 و مصرف 95 وات
در مقابل رده بالا ترین پردازنده اینتل در حال حاضر i7-6900K از broadwell E با مصرف 140 وات و قیمت 1090 اودلار
توانسته است در Blender و Handbrake با چند ثانیه زودتر پردازش را به پایان برساند
همچنین در بازی Battlefield 1 و در حالی که با گرافیک تایتان ایکس انویدیا همراه شده بودنند پردازنده 6900k را شکست داده است
جاء الحق و زهق باطل !!
اساعه اساعه! العجل العجل!!
درود
با این مشخصات و بررسی ها صورت گرفته از پردازنده های Ryzen، می تواند گفت که AMD دارد بعد از مدت ها پردازنده های قدرتمند و قابل رقابت با رقیب خود عرضه می کند برام خیلی جالبه که چطور و کدوم مدل از پردازنده Ryzen توانسته است پردازنده ای قدرتمندی مثل: CI7 6900K چه مصرف بیکاری و در زمان حجم کاری مصرف کمتری داشته باشد و در برخی از نرم افزارهای کاربردی مانند: Blender که واقعا این محیط نرم افزار می تواند چندین نخی را پیاده سازی کنند قوی تر ظاهر شود . 00
هنوز برای بنده جای پرسش هستش که چگونه توانسته است از پردازنده COI7 6900K قوی تر ظاهر شود البته خیلی نیستش و جای امیدواری هستش از نظر Price And Performance ، چرا که COI7 6900K که بنده دارم از نظر Multi - Core And Multi Thread بعد از Xeon E7 ها قدرتمندترین ها هستند.
قطعا قطعا برای کاربران خبر خوشایندی خواهد بود که میتوانند با مبلغ بسیار کمی یک پردازنده هشت هسته ای داشته باشند بتوانند از قدرت (در تست های صورت گرفته IPC بیش از 40 درصد ) می باشد که واقعا رضایت بخش می باشد ، کاربران میتوانند با خرید این پردازنده ها از داشتن لذت چند هسته ای و چند نخی قدرتمند لذت ببرند . مصرف کمتر نسبت به رقیب خود با استفاده از قابلیت مدیریت پویا می تواند نقطه عطفی باشد برای AMD بعد از مدتها کاهش مصرف را شاهد هستیم ، استفاده از هسته ها همراه با تکنولوژی SMT ، این گونه در صحبت ها مطرح هستش که نسل بعدی کنسول شرکت Microsoft Scorpio قرار هستش از پردازنده های هشت هسته ای Ryzen استفاده نماید. که با افزایش بهره وری و توازی در پردازش داده ها می شود.
تستی صورت گرفته است از نرم افزار Blender همراه با 100 نمونه از بافت ها می باشد که توسط SR7 با فرکانس پیش فرض و بدونه درگیری Boost این بررسی ها صورت گرفته است ، با فرکانس 3.4 GHZ توانسته است این داده ها در مدت 25 ثانیه تبدیل به اطلاعات کرده است با استفاده از Instructions مانند AVX 256 Bit شرکت AMD توانسته است این بررسی ها را انجام دهد (البته در نرم افزار کاربردی Blender)
تا الان با این خبر تحسین کاربران در بر داشته است .
تصویری منتشر شده از محصول جدید AMD که گفته می شود از Solder استفاده شده
[Only registered and activated users can see links. Click Here To Register...]
=======================================
[Only registered and activated users can see links. Click Here To Register...]
یه توضیح کوچوکو و کافی در باره مسیرنقل قول:
نوشته اصلی توسط asdaf [Only registered and activated users can see links. Click Here To Register...]
در یک CPU با دو مسیر در هر لحظه فقط یکی از مسیر ها کار میکنه و مسیر ها همزمان کار نمیکنند و نا همزمان کار میکنند (یعنی زمانی که مسیر اول بیکاره میشه از مسیر دوم کار کشید)
[Only registered and activated users can see links. Click Here To Register...]
در واقع باعث میشه که بتونیم از بالای 90% توانایی یک هسته بهره ببریم
و به همین دلیل امکان ساخت هسته های بزرگ تر و با ورودی های بیشتر امکان پذیر شده (مثال معماری core2 با 32 ورودی رزرو دربرابر آخرین معماری اینتل با 97 ورودی رزرو) با توجه به این که تعداد ترد های بیشتر باعث شده اون درصد بلا استفادگی هر هسته کاهش بده و به درصد کمی برسونش ترسی از کاهش راندمان برای ساخت هسته های بزرگ نداریم (تو پردازنده های ARM این مشکل به وضوح دیده میشه برای همین از تکنیک big.LITELE استفاده میکنن)
اما در باره پایپ لاین تمام توضیحات شما درباره CPU های 1 Issue پایپ لاین درسته
نگاه کنید این یک 1Issue با 6 استیج (یا مرحله) پایپ لاینه و در واقع در یک زمان دو کار مشابه انجام نمیده (متد پردازش موازی هم TLP هه در هر لحظه 5 کار متفاوت انجام میده)
[Only registered and activated users can see links. Click Here To Register...]
[Only registered and activated users can see links. Click Here To Register...]
ولی اینا دیگه قدیمی شده :دی
این پایین یک 2Issue با 6 استیج (یا مرحله) پایپ لاین رو میبینیم که میتونه دو عملیات مشابه رو در یک لحظه انجام بده (در هر لحظه 10 کار متفاوت انجام میده) (مثل هر int بلدوزر)
[Only registered and activated users can see links. Click Here To Register...]
این پایین دیاگرام هسته اسکای لیک اینتل هست (بخش FP و int فقط جا شد)
[Only registered and activated users can see links. Click Here To Register...]
تو این عکس به وضوح 4Issue پایپلاین رو میبینیم (4 عدد ALU و 4 بخش دسترسی به حافظه (تو این بخش ALU برای int و Vector ALU برای FP)) که 3 تا از اونا شیر شدن
عکس پایین هم برای بلدوزر نسل اول هست که هر هسته دو پایپ (دو alu و دو agu (دسترسی به حافظه)) لاین داره ولی مشخص نیست چند پایپ لاین شیر شده (احتمالا 2 تا (یکی از هر بخش int))
[Only registered and activated users can see links. Click Here To Register...]
درمورد بلدوزر این هسته نه به درد کارایی بالا میخورده (hi-pref hi-end) و نه راندمان بالایی داشته که بشه تو سیستم کم مصرف استفادش کردنقل قول:
نوشته اصلی توسط asdaf [Only registered and activated users can see links. Click Here To Register...]
و اینکه چند باری عکس بلدوزر رو گذاشتم و سطح کش اون نسبت به سطح هسته ها رو نشون دادم و معتقدم یکی از دلایل کاهش مصرف و افزایش کارایی Excavator v2 همین موضوع کاهش کش سطح 2 بوده چرا که کش هم مصرفی داره کم کردن اون باعث کم شدن مصرف کلی تراشه میشه البته این موضوع برداشت شخصیه و ممکنه کلا اشتباه باشه
درباره قانون آمدال توضیح خیلی ساده رو ارائه دادم الان هم سعی میکنم یکم بهترش کنمنقل قول:
نوشته اصلی توسط asdaf [Only registered and activated users can see links. Click Here To Register...]
ما یه CPU Xeon E7-8890v4 با 24 هسته 48 ترد و 2.2 گیگاهرتز فرکانس داریم اگر یه CPU Core i3 با همون معماری و فرکانس داشته باشیم 2 هسته 4 ترد
وقتی تعداد دستور ها کم باشه اختلاف کارایی دو پردازنده به صفر میل میکنه
ولی قانون گوستافسون میگه اگر تعداد دستور ها زیاد باشه (بی نهایت) برای اینکه بتونیم از زئون که 12 برابر هسته و ترد بیشتری داره اختلاف کارایی 12 برابری بگیریم میبایست 12 برابر رم بیشتری هم داشته باشیم (برای همینه که زئون ها و مادربرد های سرور رم بیشتری (فضایی) پشتیبانی میکنن)
منظور از problem و problem size توی قانون گوستافسون همون دستورات زیاد و حجم دستورات هه
خوب بازم اینو بالا توضیح دادم عکس معماری اینتل اسکای لیک هم گویاست که بخش fp در 3 پایپ لاین شیر شده (فرقی نمیکنه کدوم مدل بگیش مدل گفتنش یه جوریه من از این جمله امتناع میکنم :دی + نمیگم بخش fp پایپ لاین نداره)نقل قول:
نوشته اصلی توسط asdaf [Only registered and activated users can see links. Click Here To Register...]
با احترام@};-
اون وقت اون cpu دو مسیره یک نخ داره؟ منظور من خود یک پاپلاین تکی بود .نقل قول:
در یک CPU با دو مسیر در هر لحظه فقط یکی از مسیر ها کار میکنه و مسیر ها همزمان کار نمیکنند و نا همزمان کار میکنند (یعنی زمانی که مسیر اول بیکاره میشه از مسیر دوم کار کشید)
اما در مورد مسیر های وارد به fp و int گفتم که اگه مثلا چهار تا مسیر باشه اینطور نیست که چهار تا نخ همزمان داشته باشیم بلکه برای حالت های مختلف نرم افزاری هست
نقل قول:
اما در باره پایپ لاین تمام توضیحات شما درباره CPU های 1 Issue پایپ لاین درسته
نگاه کنید این یک 1Issue با 6 استیج (یا مرحله) پایپ لاینه و در واقع در یک زمان دو کار مشابه انجام نمیده (متد پردازش موازی هم TLP هه در هر لحظه 5 کار متفاوت انجام میده)
اون ها به عنوان ریز عملیات حساب میشند که خیلی از اینها مثل شیفت یا اعمال ریاضی ساده در داخل ریجستر انجام میشهفکر میکردم که امدال و گوستافسون دو طرف یک سکه باشند با تعاریف متفاوت .
اما منظور از clock cycle اون حتی کار های ریز توی accumulator هم نیست بلکه عملیات اجرای خود alu هست
نقل قول:
ولی اینا دیگه قدیمی شده :دی
این پایین یک 2Issue با 6 استیج (یا مرحله) پایپ لاین رو میبینیم که میتونه دو عملیات مشابه رو در یک لحظه انجام بده (در هر لحظه 10 کار متفاوت انجام میده) (مثل هر int بلدوزر)
درسته پاپلاین دو دستور العملی هم ندیده بودیم که دیدیم . که میزان داده های اجرای اون رو افزایش دادن اما توی مسیر و انعطاف محدودیت داره و یکی به حساب میاد
نقل قول:
تو این عکس به وضوح 4Issue پایپلاین رو میبینیم (4 عدد ALU و 4 بخش دسترسی به حافظه (تو این بخش ALU برای int و Vector ALU برای FP)) که 3 تا از اونا شیر شدن
عکس پایین هم برای بلدوزر نسل اول هست که هر هسته دو پایپ (دو alu و دو agu (دسترسی به حافظه)) لاین داره ولی مشخص نیست چند پایپ لاین شیر شده (احتمالا 2 تا (یکی از هر بخش int))
فکر کنم توی عکس هر port یا مسیر به یک پاپلاین جداگانه با طول و ظرفیت و تخصص جداگانه می رسند نه اینکه یک پاپلاین با چهار عملیات یکسان پشت سر هم باشه
تعریف پاپلاین رو باید یکم واضح تر کنیم . اینجوری که از تصویر من برداشت میکنم اینه که بعد از چند خط لوله int پردازش fp پشت سر ان انجام میشه و اونها رو تو یک port و خط قرار داده اند
اگه پاپلاین فراتر از یک simd و Clock cycle در نظر بگیریم و کل از اول و تا اخر ماجرا به صورت خطی را خط لوله بگیم ماجرا عوض میشه
[Only registered and activated users can see links. Click Here To Register...]
البته توی این تصویر کلا بخش های پردازش داده های یکسان حتی با وجود مسیر های متفاوت رو پاپلاین گفته
از اونجا که AGU ها به دنبال ALU قرار نگرفتند و مسیر خودشان در کنار ALU را دارند به جای اینکه انها را با هم جمع ببندید و یک پاپلاین بگید به نظر خودم هر بخش یک پاپلاین جدا به حساب میاد یعنی 4 تا
برخلاف تصویر اولی توی تصویر بولدوزر داده های int و fp توی دیکود از هم جدا می شوند و خود FP ورودی مستقل داره و بعد از اتمام دوباره به fetch بر می گردنند برای پردازش دیگه
نقل قول:
درمورد بلدوزر این هسته نه به درد کارایی بالا میخورده (hi-pref hi-end) و نه راندمان بالایی داشته که بشه تو سیستم کم مصرف استفادش کرد
و اینکه چند باری عکس بلدوزر رو گذاشتم و سطح کش اون نسبت به سطح هسته ها رو نشون دادم و معتقدم یکی از دلایل کاهش مصرف و افزایش کارایی Excavator v2 همین موضوع کاهش کش سطح 2 بوده چرا که کش هم مصرفی داره کم کردن اون باعث کم شدن مصرف کلی تراشه میشه البته این موضوع برداشت شخصیه و ممکنه کلا اشتباه باشه
اگه پاپلاین بولدوزر تک مسیره و چند دستور العملی باشه .بیشتر با هدف ضرفیت بالا طراحی شده . اما توی تصویر چند تا پاپلاین اسم برده و همگی یک مسیر به int
البته کاهش کش سطح دو نتیجه یک عمل دیگه به حساب میاد .
کش سطح دو بولدوزر بیشتر به کش سطح سوم اشتراکی بین هسته ها شبیه بوده و نظر من اینه که عامل مستقل شدن int ها از نظر decode باید دلیل کاهش کش باشه یعنی کاملا هر int مستقل شدن
نقل قول:
درباره قانون آمدال توضیح خیلی ساده رو ارائه دادم الان هم سعی میکنم یکم بهترش کنم
ما یه CPU Xeon E7-8890v4 با 24 هسته 48 ترد و 2.2 گیگاهرتز فرکانس داریم اگر یه CPU Core i3 با همون معماری و فرکانس داشته باشیم 2 هسته 4 ترد
وقتی تعداد دستور ها کم باشه اختلاف کارایی دو پردازنده به صفر میل میکنه
ولی قانون گوستافسون میگه اگر تعداد دستور ها زیاد باشه (بی نهایت) برای اینکه بتونیم از زئون که 12 برابر هسته و ترد بیشتری داره اختلاف کارایی 12 برابری بگیریم میبایست 12 برابر رم بیشتری هم داشته باشیم (برای همینه که زئون ها و مادربرد های سرور رم بیشتری (فضایی) پشتیبانی میکنن)
منظور از problem و problem size توی قانون گوستافسون همون دستورات زیاد و حجم دستورات هه
[Only registered and activated users can see links. Click Here To Register...] اینجا قانون رو در مورد تاخیر توضیح داده
خوب اگه توضیح گوستافسون از شما رو در مورد int های بولدوزر در نظر بگیریم یعنی هرچقدر کش بیشتر باشه بهتره ؟ البته هر int یک هسته به شمار میاد
تصویری و توضیحی که از اسکای لیک دادین خیلی جدید وجالب بود اما در مورد تصویر بولدوزر صدق نمیکنه .نقل قول:
خوب بازم اینو بالا توضیح دادم عکس معماری اینتل اسکای لیک هم گویاست که بخش fp در 3 پایپ لاین شیر شده (فرقی نمیکنه کدوم مدل بگیش مدل گفتنش یه جوریه من از این جمله امتناع میکنم :دی + نمیگم بخش fp پایپ لاین نداره)@};-
با احترام
اسکای لیک رو نمی دونم چی بگم اما به صورتی طراحی شده برای کارهای خاص
که اگه توی پردازش ها fp نباشه یا کم باشه باعث مصرف بیهوده و تاخیر بالا میشه و مسیر جداگانه و مستقیم برای fp نداره یا پردازش همزمان fp با int
اما بولدوزر به صورت حلقه ای و تکرار مراحل از اول ساخته شده . منظورم از پاپلاین نبودنش چیز دیگری بود
من هم همینو درباره ترید (ترد - نخ) گفتمنقل قول:
نوشته اصلی توسط asdaf [Only registered and activated users can see links. Click Here To Register...]
توی ترد اگر دو مسیر (دو مسیر FP دومسیر int) هست در هر لحظه فقط یکی کار میکنه
اما پایپ لاین توی 1Issue پایپ لاین ما چند Stage داریم و به ازای هر Stage توی هر issue میتونیم کارهای متفاوتی همزمان انجام بدیم
توی عکس پایین 1Issue 5Stage پایپ لاین (5 کار متفاوت در یک زمان) IF واکشی - ID دیکد (رمز گشایی) - EX اجرا (ALU) - MEM دسترسی به حافظه (واحد Store) - WB رایت بک (یا همون واحد load)
IF = Instruction Fetch, ID = Instruction Decode, EX = Execute, MEM = Memory access, WB = Register write back
[Only registered and activated users can see links. Click Here To Register...]
اما توی عکس زیر که 2Issue 5Stage هست (6 دو کار متفاوت جمعا 12 کار متفاوت در یک لحظه) جمعا 10Stage پایپ لاین
IF واکشی - ID دیکد - EX اجرا ( ALU ها) - MEM دسترسی به حافظه (واحد های Store) - WB رایت بک (یا همون واحد های load)
IF = Instruction Fetch, ID = Instruction Decode, EX = Execute, MEM = Memory access, WB = Register write back
[Only registered and activated users can see links. Click Here To Register...]
خوب دوباره عکس اسکای لیک (بخش int+FP) خبری از بخش واکشی و دیکد کردن دستورات نیست
توی اسکای لیک 14Stage (جمعا) پایپلاین داریم و 4Issue پایپ لاین
هر Issue میتونه شامل بخش های واکشی - دیکد - اجرا - دسترسی به حافظه - رایت بک باشه
میتونه بعضی از اینا هم نداشته باشه
ما اینجا فقط قسمت پایینیه یه پایپ لاین رو میبینیم و نمیدونیم هر کدوم Issue پایپ لاین ها بخش واکشی و دیکد (رمزگشایی) رو داره
اما میبینیم که 4 بخش alu و 4 بخش Store Address یا STA وجود داره پس به 4Issue بودن اسکای لیک پی میبریم حالا اینکه من میگم 4 پایپ لاین دارن منظورم همین در واقع باید میگفتم 4Issue پایپ لاین داره
ولی شما روی Stage ها تاکید دارید که این CPU خیلی بیشتر پایپ لاین داره (البته شمردنشونم دردسره)
درباره شمردن Stage Pipeline های اسکای لیک اینجوری میشه و اینجوری ما 4ALU (واحد اجرایی) داریم بعلاوه 4Store Address (واحد دسترسی به حافظه) بعلاوه 2Load Address (واحد رایت بک) = 10Stage پایپ لاین 4 تا دیگه کجا رفتن؟ خوب احتمالا 2 تا از این Issue پایپ لاین ها Stage واکشی و دیکد هم دارن که میشه 2Issue x 2Stage = 4Stage و جمعا 14 تا Stage یا مرحله حالا یه عده باز میگن اسکای لیک 19 پایپ لاین داره شما واحد های Register Read رو جزو Stage های پایپ لاین ها حساب نکردید و... :-S
خلاصه 4Issue = چهار کار یکسان همزمان (اجرایی تو اسکای لیک) - و Stage تعداد تمام کارهای متفاوت همزمان
[Only registered and activated users can see links. Click Here To Register...]
در مورد بلدوزر و کش (از نظر من که شاید هم اشتباه باشه) هر بخش int + هر بخش FP = یک هسته ، حالا توی بلدوزر int ها تک مسیره هستن و fp ها هم تک مسیره (دو بخش int به ازای یک بخش fp)
بعضی نرم افزارا (رندرینگ) بیشتر به بخش FP نیاز دارن تا int به همین دلیل بلدوزر مثل اینتل یا فنوم بازدهی کلی خوبی ندارن
اما اگر فقط بخوایم int محاسبه کنیم بله کش اضافه همچنین ram اضافه موثر هست منتها اعداد صحیح جای کمتری نسبت به اعداد اعشاری اشغال میکنند
مثلا در زبان C هر int 16bit و هر float 32bit جا اشغال میکنه
به خاطر همین میگم برای افزایش راندمان کلی بلدوزر نیاز بود حافظه پرمصرف کش کاهش پیدا کنه
باز هم میگم این موضوع کش کاملا نظر شخصی بندس و شاید اصلا صحت نداشته باشه
@};-