برسی ابتدایی معماری PASCAL : معماری برای هوش مصنوعی

**Veyron** · 6th January 2016, 11:53 PM

Pascal : Architecture for Artificial intelligence

پاسکال : معماری برای هوش مصنوعی

خوب باید همین اول بگم از نتایج و قابلیت های NVIDIA Drive PX.2 که تنها اثر و نمود حضور پاسکال در CES.2016 بود بشدت شوکه شدم . تنها منبع فعلی ما برای برآورد معماری همین drive px.2 هست .

با دیدن معماری و مکانیزم عملگرد px.2 با 2 تراشه گرافیکی پاسکال به راحتی میشه متوجه شد پاسکال طوری طراحی شده تا بتونه شبکه های عصبی مغز را شبیه سازی کند .

برای اینکه معماری خودمختار باشد و شبیه مغز انسان باشد باید Front end خیلی قوی ای داشته باشد . اگر FE خیلی قوی داشته باشد شبیه CPU میشود . موردی که در معماری فرمی شاهد اون بودیم .

به تصویر زیر دقت کنید : با یه تقریبی از تعداد هسته ها به نسبت سطح تراشه میشود به راحتی حجم FE نسبت به Core count رو تقریب زد . ( در این تقریب معماری Fermi قوی ترین Front end ونزدیک به cpu و کمترین قدرت خام محاسباتی و VLIW بیشترین تعداد هسته به نسبت تعداد ترانزیستوری هایی که برای طراحی تراشه به کار رفته و بیشترین قدرت محاسباتی خام )

الف ) در شکل بالا هرچقدر معماری ها به سمت چپ نزدیک باشند به معماری cpu نزدیکتر و خودمختاری تراشه بالاتر اما تعداد هسته ها کمتر و قدرت خام کمتر .

ب ) اما هرچقدر معماری ها به سمت راست نزدیکتر باشند تعداد هسته ها بیشتر و قدرت محاسباتی خام بالاتر اما توان محاسباتی و خود مختاری تراشه کمتر.

خوب این به چه معنا در پاسکال است ؟ به این معنا که در نسل پاسکال تعداد هسته ها افزایش پیدا نمیکنند ( تغییرات ناچیز) اما تعداد ترانزیستور هایی که برای Front end کلاستر ها به کار رفته است بسیار افزایش پیدا میکند . اما چگونه میتوان قهمید معماری پاسکال به سمت هسته های کمتر حرکت کرده ؟؟

من با ضریب اطمینان بالایی خدمت دوستان عرض میکنم تعداد هسته ها در پاسکال به طور مثال در GP104 تفاوت زیادی با GM204 نخواهد کرد . اما تعداد ترانزیستور های به کار رفته برای GP104 ( اگر این اسم تراشه باشد) حدودا 2 برابر GM204 خواهد بود .

چایگاه Polaris هم جالب هست که بالانسی بین FE و Core count و این نشون دهنده راه amd هست . البته نکته جالب توجه ازفیش حرکت اون به سمت پردازنده ای شدن معماری هست ( یعنی قدرت بالاتر FE )

به مقایسه پاسکال با GTX TITAN X دقت کنید :

مصرف کلی PX.2 با TITAN X برابر است . هر 2 250 وات مصرف میکنند . با فرض حذف 2 تگرا که اونها هم از GPU PASCAL استفاده میکنن و کل سیستم رو از یک تراشه PASCAL در نظر بگیریم داریم :

1 ) قدرت محاسباتی هر 2 بسیار به هم نزدیک است و حدود 8-7 ترا فلاپس است .

این یعنی تعداد هسته ها در پاسکال 2 برابر نمیشود و تغییر نخواهد کرد . ( اما تعداد ترانزیستور های به کار رفته 2 برابر شده است )

2) DL TOPS به مخفف DEEP learning Tera operation per second بیش از 3 برابر شده .

البته انویدیا در متن خود ادعا کرده در الگوریتم های پیچیده اختلاف حدود 10 برابر است .

3) Alexnet ب ااستفاده شبکه نرون های مغز با استفاده از شبکه کانوولوشن ( کانوولشن انتگرال پیچیده برای توابع است که اونایی که انتگرال های کانوولشن برای تجیزیه و تحلیل سیگنال ها دیدن میفهن من چی میگم ) که تصاویر رو درک و محاسبه می کند .

این به این معناست که در عمل کارایی سیستم 6.2 برابر معماری نسل قبل ماکسول است که عدد خوبی برای شبکه هوش مصنوعی است .

اما در بخش Gaming :

ار یو ف ا.کینگ کدینگ می ؟؟ دیپ لرنینگ و هوش مصنوعی به درد ما انصافا نمیخوره و از حوزه ما خارجه . ببنیم این معماری در گیمینگ چه میکنه ؟

در حال حاظر جز یک دورنمای خیلی دور چیزی از معماری پاسکال نداریم . اما چیزی که واضح هست اینه که معماری به شدت به سمت معماری fermi در حرکت است و قدرت FE تراشه نسبت به نسل قبل خیلی بیشتر میشود .

چیزی که من پیشبینی میکنم بازگشت کامل HW Scheduler ها و یک سیستم fe بسیار پیچیده با هسته های کم هست ( چیزی شبیه به فرمی سابق )

**asdaf** · 7th January 2016, 02:19 PM

گفته شده که از حداکثر ضرفیت هسته های gcn استفاده نمی شده . اما در معماری polaris به جای تغییر زیاد در خود هسته ها و ضرفیت اونها بیشتر ترانزیستور اضافی مربوط به بخش های اختصاصی و بهینه استفاده شدن و بازدهی هسته هاست
همچنین amd ادعا کرده که تا سال 2020 به بازدهی 25 برابر (کارایی/نسبت به مصرف) خواهد رسید و بر خلاف گذشته همانند انویدیا نقشه راه داده

حرکت انوییدا از فرمی به سمت مکسول و حذف اجزای سخت افزاری با اتکا به کارایی نرم افزار و درایور هاش برای دایرکس 11 بوده . یقینا دایرکس 12 تاثیر خودش را در اینده انویدیا گذاشته

شعار pascal و محاسبات ده برابر و NVlink و حافظه مشترک در همان ابتدا مشخص بود جوابی برای HSA هست مخصوصا کارایی مشابه مغز انسان و هیچ ادعایی در مورد بازی نداشت
اینجا انویدیا pascal را خودش یک پا cpu کرده است و این ترکیب سخت افزاری انویدا باعث شده که شاهد cpu ای که cpu نیست و gpu ای gpu نباشد باشیم

اما hsa با استفاده از نرم افزار و سپردن اجزای کارها به cpu و gpu واقعی بدون نیاز به سخت افزار اضافه در برتری قرار دارد و می تواند از تمام قدرت انها استفاده کند
تفاوت HSA و مشابه انویدیا همانند برتری مکسول نسبت به رقیب یا فرمی در دایرکس 11 هست که دسترسی سطح پایین تر و مصرف کمتر سخت افزار می باشد

به نظرم اجزای اضافی pascal در جایگاه محاسبات همانند fixed function عمل می کنند
انویدیا به جای لجبازی و جلو برد تکنولوژی اختصاصی خودش بهتره که به جمع تمام حامیان فن اوری ازاد hsa بپیوندد . در غیر این صورت خیلی عقب خواهد افتاد و خودش ضرر می کند

**moc** · 9th January 2016, 11:31 AM

با بررسی معماری های فرمی و سری 5000 به بعد تقریبا میشه به این نتیجه رسید که میزان fe بالاتر نسبت به هسته ها موجب بیشتر شدن نرخ پیکسل تولیدی نسبت به تکسچر میشه و انویدیا احتمالا نقشه هایی رو برا استفاده از نرخ پیکسل بالاتر در دایرکت 12 و رزولوشن 4k و استفاده از فرامین خاص برا جبران نقص های سخت افزاری در دایرکت 12 مثل قابلیت asynch کشیده البته این نظر بنده بی سواد هست دوستان و اساتید تصحیح کنند

**Veyron** · 11th January 2016, 06:52 PM

نوشته اصلی توسط moc

با بررسی معماری های فرمی و سری 5000 به بعد تقریبا میشه به این نتیجه رسید که میزان fe بالاتر نسبت به هسته ها موجب بیشتر شدن نرخ پیکسل تولیدی نسبت به تکسچر میشه و انویدیا احتمالا نقشه هایی رو برا استفاده از نرخ پیکسل بالاتر در دایرکت 12 و رزولوشن 4k و استفاده از فرامین خاص برا جبران نقص های سخت افزاری در دایرکت 12 مثل قابلیت asynch کشیده البته این نظر بنده بی سواد هست دوستان و اساتید تصحیح کنند

با تشکر

MOC عزیز اتفاقا من گفتم معماری انویدیا بیشتر به سمت CPU LIKE شدن و کمتر شدن قدرت خام محاسباتی داره حرکت میکنه و این یعنی توانایی کمتر در نرخ تولید پیکسلی نسبت به حالتی که شما Core count و هسته های زیادی داشته باشی .

یعنی به طور خلاصه بگم نسبت به تعداد ترانزیستور های مصرفی معماری pascal شما Giga flops خام کمتری به خاطر کمتر بودن تعداد هسته ها در اختیار دارید . ( محاسبات خام و خطی مثل عدد Giga flops اعلامی )

مطلب شما برای پیکسل سازی با صحبت های من فرق داره Moc عزیز . برای توضیح بهتر نرخ پیکسل تولیدی شما به هسته های زیاد ( قدرت محاسباتی خام بالا و ROP های زیاد و قدرتمند )احتیاج دارید . برای عدم داشتن bottleneck در تولید پیکسل به ازای هسته های بسیار زیاد علاوه بر G pipline های ورتکس و پیکسل که بخش های ابتدایی هستن شما یعد از rasterization به ROP ها هم برای عدم ایجاد گلوگاه در تولید پیکسلبشدت نیاز دارند .

اینها ساده ترین مکانیزم هستن و یک موتور گرافیکی غیر پیچیده با هسته های زیاد و rOP مناسب توانایی تولید بسیار زیاد پیکسل دارند . اما در دوره جدید تراشه های گرافیکی محاسبات پیچیده زیاضی از روال Graphic pipline ساده نسل های قبل فاصله زیادی گرفتند . هرچقدر front end قویتر داشته باشید محاسبات و دستورالعمل های پیچیده تری رو میتونید انجام بدید ( معماری cpu like )

بزارید ساده تر بگم .

برای انجام کار های بسیار زیاد و سرعت بسیار زیاد و نه پیچیده از معماری HIGH core count استفاده میشه . ( هسته های زیاد )

برای انجام کارهای بسیار پیچیده اما کم سرعت از معماری cpu like استفاده میشود یعنی مغز بسیار قدرتمندتر ( هسته های کم اما هوشمند )

نوشته اصلی توسط asdaf

انویدیا به جای لجبازی و جلو برد تکنولوژی اختصاصی خودش بهتره که به جمع تمام حامیان فن اوری ازاد hsa بپیوندد . در غیر این صورت خیلی عقب خواهد افتاد و خودش ضرر می کند

hsa راهی هست که بیشتر soc های ترکیبی با cpu باید بروند ASDAF عزیزم و این جدای از راه انودیا هست . دستور دهی و آدرس دهی با استفاده از FE پردازنده در یک Memory pool مشترک با gpu و استفاده از بازوان قدرتمند gpu برای انجام کارها .

این قطعا با راهی که انودیا در پیش گرفته بسیار متفاوت هست . انویدیا میخواد خود gpu رو با قویتر کردن FE به حالتی برسونه کمترین وابستگی رو به پردازنده داشته باشه و هسته های اون قابلیت های محساباتی بسیار پیچیده ای داشته باشن . ( هرچند هنوز هم نیاز زیادی به پردازنده دارد )

به نظرم اجزای اضافی pascal در جایگاه محاسبات همانند fixed function عمل می کنند

در معماری های فعلی فعلی FF ها بخش بسیار کم و کمترین ترانزیستور مصرفی برای اینها است که اغلب در Graphic pipline ها خلاصه میشن . کلا g pipline ها که روال g pipline رو ارسال میکنن ذاتا ff هستن . اینها با بحث ما که fe هوشمند تراشه است متفاوته asdaf عزیزم .

پاسکال بیشتر به سمت قدرتمند کردن Front end کلی سیستمش پیش میره . مکانیزم fixed function یعنی قدرت و شتابدهی در یک عمل خاص . این با چیزی که من میگم کلا تفاوت داره ( یعنی هوشمندی و توانایی انجام بسیار از کارها )

**Veyron** · 11th January 2016, 07:02 PM

خوب خبر های جالبی از سمت تیم سبز با نمایش ابعاد BGA تراشه معادل GP104 درز کرده است .

افزایش تعداد PIN های GP104 احتمالی نسبت به GM204 و کاهش ابعاد BGA تراشه .

براورد کلی از 3DCENTER نشون میده تراشه GP104 احتمالا اندکی کوچکتر از GM204 خواهد بود هرچند به نظر من Die size رو واقعا نمیشه از روی BGA Size درست حدس زد .

احتمال اینکه gp104 از GDDR5X به جای HBM-2 استفاده کند بسیار زیاد است . خوبی اون قیمت ارزان تر GDDR5X نسبت به HBM هست ( نه برای مشتریان انویدیا بلکه برای حاشیه سود بیشتر انویدیا ) . در دسترس بودن و سهولت بکارگیری نسبت به INTERPOSER و دردسرهای اون .

**asdaf** · 12th January 2016, 01:24 PM

چیزی که اگه قرار باشه بیشتر مربوط به CPU و APU سازان مثل اینتل و بقیه شرکت های SOC باشه بهتره که انویدیا دنبالش نره
بنیاد HSA و اموزشی که میدهند احتیاج به کمی تغییر GPU داره اما در کل فقط CPU و GPU با حافظه مشترک با بالاترین بازدهی و سرعت کافی هست
و دستورات و نیاز پردازشی اضافه که همون دستورات GPU محور هستند به GPU که PCI EXPRESS داره محول میشه
یعنی کل دستاورد های پاسکال و کم کردن نیاز محاسبات به CPU خودش توسط APU انجام میشه و هیچ مزیتی حتی بار CPU نسبت به GPU ای که به APU متصل بشه نداره

اما اینجا حافظه مشترک کودا و پاسکال به صورت مجازی هستند و همون FE ها برای کم کردن بار CPU بازدهی پایینتری نسبت به HSA دارند
وقتی که خود اینتل دارای DGPU هست و ARM و خیلی شرکت های دیگه SOC خودشون در این زمینه فعالیت می کنند . تلاش انویدیا فقط مربوط به پردازنده های ساده امروزی میشه
و در بحث اینده نگری و طولانی مدت میشه گفت IT IS TOTAL WASTE OF EFFORTS
اگر در قیاس با یک CPU واقعی در نظر بگیریم FE پاسکال مثل FF یا همون عملکرد های اختصاصی و خاص می مونه چون واقعا نمیشه در همه چیز ازش کار کشید . همون طور که گفتم در جایگاه محاسبات

__________________________________________________ ___________
Nvidia Pascal over a year ahead of 14/16nm competition

[Only registered and activated users can see links. ]

مثل اینکه نمونه چیپ پاسکال که توی CESS نمایش داده شد انقدر دارای پیچیدگی بوده که مهندسین معظم انویدیا تصمیم گرفتن همچنان متحیر زیبایی های اون بمونند
و از نظر تکنولوژی یکسال از شرکت مفلوک رقیب جلو هستند که شرکت اشغال فروش AMD اگه گرافیک های پارسالش رو ریبرند کنه و با اسم نسل بعدی با مصرف 250 وات در یکسال بعد بده همچنان عقب خواهد بود
ای خدا !!! ای روزگار !! ای بخت !!! این چه کاری بود با من کردی.

**Veyron** · 12th January 2016, 03:19 PM

نوشته اصلی توسط asdaf

چیزی که اگه قرار باشه بیشتر مربوط به CPU و APU سازان مثل اینتل و بقیه شرکت های SOC باشه بهتره که انویدیا دنبالش نره
بنیاد HSA و اموزشی که میدهند احتیاج به کمی تغییر GPU داره اما در کل فقط CPU و GPU با حافظه مشترک با بالاترین بازدهی و سرعت کافی هست
و دستورات و نیاز پردازشی اضافه که همون دستورات GPU محور هستند به GPU که PCI EXPRESS داره محول میشه
یعنی کل دستاورد های پاسکال و کم کردن نیاز محاسبات به CPU خودش توسط APU انجام میشه و هیچ مزیتی حتی بار CPU نسبت به GPU ای که به APU متصل بشه نداره
اما اینجا حافظه مشترک کودا و پاسکال به صورت مجازی هستند و همون FE ها برای کم کردن بار CPU بازدهی پایینتری نسبت به HSA دارند
اگر در قیاس با یک CPU واقعی در نظر بگیریم FE پاسکال مثل FF یا همون عملکرد های اختصاصی و خاص می مونه چون واقعا نمیشه در همه چیز ازش کار کشید . همون طور که گفتم در جایگاه محاسبات
__________________________________________________ ___________

ASDAF عزیزم بازم متوجه صحبت های من نشدی . من نمیگم قویتر کردن FE باعث استقالال کامل از CPU میشه بلکه میگم هسته های GPU کارهای پیچیده تری میتونند بکن نه یک سری اعمل محدود . و نکته مهم اینه که دیگه پردازنده ها از پس دستوردهی داده های پیچیده GPU برنمیان و این وظیفه خود GPU هست که تا جایی که براشون امکان داره از پس اونها بر بیان .

1) اشتباه شما اینه که مرتب معماری انویدیا رو با HSA و APU مقایسه میکنی و میگی پردازنده با یک حافظه مشترک کارش رو با GPU بهتر انجام میده تا یک GPU خالی با یک FE بسیار قوی . این دیدگاه برای زمانی خوب بود که داده هایی که برای GPU ارسال میشدندپیچیدگی خاصی نداشتند و پردازنده به خوبی از عهده آدرس دهی همه اونها بر میومد .

2) اما امروزه با پیچیده شدن برنامه نویسی برای GPU ها پردازنده به تنهایی از پس آدرس دهی به GPU برنمیان و این خود GPU هست که باید اونقدر هوشمند باشه که بتونه از پس کارهای خودش بربیاد . دقیقا به همین خاطر بود که VLIW که بشدت نیازمند پردازنده بود با GCN که اصلا نیاز به چک ILP نداشت و نیازبسیارکمتری به پردازنده نسبت به VLIW داشت جایگزین شد . (جدا شدن بخش Radeon Technology Group که AMD در زمان خرید ATI اصلا هدف ترکیب با پردازنده و یکی شدن با هم رو داشت گواه بر این مدعاست که خواه ناخواه با پیچیده شدن دستورالعمل های GPU چاره جز پیچیده تر کردن FE جی پی یو ها نیست . ) میبینید حرکت از VLIW با هسته های بسیار زیاد به ازای ترانزیستور محدود به سمت GCN اسکالری با هسته های کمتر به ازای ترانزستور مصرفی بیشتر گواه بر این مدعاست . ( در معماری GCN شما 2.8 میلیارد ترانزیستور برای 1280 هسته دارید اما در معماری VLIW شما به ازای 2.1 بیلیون ترانزیستور 1600 هسته داشتید )

3) با پیچیده تر شدن و هوشمندتر شدن GPU ها برنامه نویسی و کارهایی که GPU ها میتوان انجام داد بسیار گسترده تر میشود. از حساب ماتریس های ساده قدیم تا امروزه نوشتن برنامه های Molecule Dynamic و ...... و امروزه هم Deep learning که gpu ها باید از پس اونها و تعداد زیاد دستورالعمل های پیچیده اونها بر بیان .

پس میبینید روند قویتر شدن FE خود GPU اجتناب ناپذیر هست و با پیچیده تر شدن برنامه نویسی GPU ها و افزایش دستورالعمل ها و کارهایی که از GPU ها بر می آید چاره جز این نیست و انویدیا هم از اونجایی که پردازنده سیسک قابل توجه نمیسازه راه جدایی داره دوست من .

وقتی که خود اینتل دارای DGPU هست و ARM و خیلی شرکت های دیگه SOC خودشون در این زمینه فعالیت می کنند . تلاش انویدیا فقط مربوط به پردازنده های ساده امروزی میشه
و در بحث اینده نگری و طولانی مدت میشه گفت IT IS TOTAL WASTE OF EFFORTS

[Only registered and activated users can see links. ]

برنده شدن مناقصات 2 ابر کامپیوتر ارشد آینده آمریکا یعنی SUMMIT و SIERRA به ترتیب با 150-300 پتافلاپس و 100 پتافلاپس خلاف گفته های شماست ASDAF عزیزم و همین الان معماری آینده انویدیا VOLTA در قلب 2 ابر کامپیتوتر ارشد آمریکا خواهند بود انویدیا فروش اولیش رو اونجا میکنه ( سفارش برای معماری نسل بعد نسل بعدش از 2-3 سال قبل : دی .

این هم آینده یعنی سال 2017 الی 2018 . اینها حقایق هستند عزیز . سعی نکن اعتقادات قبل از تحقیقاتت بر نتایج تحقیقات اثر بزاره ASDAF عزیز .

همین الان PASCAL در خودرو سازی هم توجه اغلب شرکت های خودروسازی رو جلب کرده و طومار هایی که برای Deeplearning پاسکال نوشتند جالب توجه است . اینم از حوزه هوش مصنوعی برای پاسکال .

Nvidia Pascal over a year ahead of 14/16nm competition
[Only registered and activated users can see links. ]
مثل اینکه نمونه چیپ پاسکال که توی CESS نمایش داده شد انقدر دارای پیچیدگی بوده که مهندسین معظم انویدیا تصمیم گرفتن همچنان متحیر زیبایی های اون بمونند
و از نظر تکنولوژی یکسال از شرکت مفلوک رقیب جلو هستند که شرکت اشغال فروش AMD اگه گرافیک های پارسالش رو ریبرند کنه و با اسم نسل بعدی با مصرف 250 وات در یکسال بعد بده همچنان عقب خواهد بود
ای خدا !!! ای روزگار !! ای بخت !!! این چه کاری بود با من کردی.

این مقاله چارلی دمورژان دشمن خونی انودیای اهه . فک کردی تعریف کرده ؟

باو مسخره میکرده .

باو این همش تیکه انداخته مقالشو من خوندم . همشم سر اینه که انیودیا توی drive px.2 به جای نشون دادن پاسکال واقعی از 980MXM Madule استفاده کرده .

همش در طول مقاله میخواد با نشون دادن شماره پارت نامبر تراشه انویدیا رو مسخره کنه و آخرش میگه مرحله tape out تولیدی این ماله قبل از رسیدن خود tsmc به مرحله tape out تراشته است .

. یعنی انویدا پاسکال رو نمایش نداده بلکه جای gtx980mxmadule گذاشته .

کلا بزا راحتت کنم : هرچی توی semiaccurate از انویدیا دیدی بدون میخواد با خاک کوچه یکیش کنه . قدیما 2-3 سال پیش اینجوری نبود . الان 1 سالیه که خیلی بدتر شده . نمیدونم برا چی اینجوری ادیتور ارشد سایتش خخخ

**asdaf** · 12th January 2016, 04:59 PM

دیگه اینقدر پیشروی و توجیه نکنید .
درسته FE باعث استفاده شدن بهینه از هسته ها میشه و میشه اونها رو به صورت بهتری ادرس دهی کرد که بشه توی محاسبات پیچیده ازش استفاده بشه .با پیشرفته شدن گرافیک ها برنامه نویسی هم پیشرفته تر می شود .
در صورت که در معماری های قبلی به صورت فله ای استفاده می شدنند . اما این ادرس دهی اجزای گرافیک از حداقل نیاز برای دایرکس 12 و گرافیک مدرن هست . پیشرفت بیشتر FE فقط مربوط به بازدهی بهتر گرافیک میشه
مثل معماری POLARIS . و FE بیشتر از معماری POLARIS فقط بیشتر از نیاز ادرس دهی هسته هاست بلکه برای ایجاد اعمال خاصی هست که شما دعا می کنید فقط باید مربوط به خود گرافیک بشه
پاسکال دارای ان قسمت هاست اما رقیب ندارد . اما این اصلا توجیه کننده نیست که هرچه FE بیشتر حتی به صورت مضحک در واقع بهتر خواهد بود . بلکه در بازدهی تاثیر دارد
اینجا انویدیا از گرافیک خودش مایه گزاشته است

گذر گاه PCI EXPRESS محدود هست . و نمیشه همه اطلاعات خام رو منتقل کرد
در مدل محاسبات AMD ...
CPU<>DGPU=====GPU
خود پردازنده و گرافیک داخلی مستقیم با هم تعامل می کنند و هرچی نیاز دارند رو انجام میدهند بدون نیاز به فشار زیاد به FE و اطلاعات افزوده بر گرافیک بدون نیاز به وابسته های CPU به گرافیک ارسال میشود انگار گرافیک داخلی و خارجی باهم کراس شده اند
اشتباه نکیند اینجا گرافیک هم FE داره اما به اندازه مورد نیاز و می تونم بگم که POLARIS بازدهی بهتری با بهترین تناسب FE و مقدار مورد نیاز برای ادرس دهی و بهینه استفاده شدن از هسته ها خواهد داشت اما نه به قیمت ایجاد اعمال محاسباتی خاص
اما مدل انوییدا
CPU=======XFE<>GPU
این مدل همون طور که گفتید FE هوشمند تر خود مختار تر و .... اینجا خود گرافیک اعمالش و اطلاعاتش را اصلاح میکند و با توجه به محدودیت PCI EXPRESS فقط داده های CPU محور ارسال میشود
تفاوت این است که در مدل AMD داده ها گرافیک محورند اما در مدل انویدیا CPU محور
اما از نظر بازدهی مدل AMD بسیار بهتر هست و اصلا اهمیتی نداره که گرافیک خاک برسر چقدر FE کوچکتری داره بلکه FE به اندازه نیاز هست و باعث میشه یک گرافیک بهینه داشته باشیم
برنامه نویسی هم پیشرفت میکنه و خیلی از کارها در مدل برنامه نویسی جدید به صورت خودکار انجام خواهد شد
شما نمی تونید ادعا کنید که برنامه های پاسکال هوشمند تر یا کد نویسی کمتری دارند و بهتر از مدل AMD هست اما من می تونم ادعا کنم که از نظر مصرف و بازدهی مدل AMD خیلی بهتر خواهد بود
به جای اینکه مثل انویدیا همه چیز رو روی گرافیک سنگین کنیم باید یک سیستم کلی رو نگاه کنیم

مگر شرکت ها قرار داد لوگو و برند با کسی دارند . صنعت به سمت پیروز ها خواهد رفت و اگر در گذشته انویدا بهتر بوده نزار اعتقاداتت بر واقعیت اینده تاثیر بگذاره
در زمینه خودرو هم انویدیا گفته که خودروهای هوشمند شده اش همراه با خنک کننده آبی برای پردازنده خواهند بود .

انویدیا خیلی روی تبلیغات کار میکنه حتی اگر دروغ باشه . هیچ اطمینانی نیست که خودروهای هوشمند یا ابر کامپیوتر ها به سمت اینده انویدیا خواهند رفت

نویسنده اون سایت از کنایه استفاده کرده بود که خودم هم خواستم به صورتی استفاده کنم که به کسی بر نخوره
اما یا حرف های مدیر انویدیا رو درست فرض کنیم و همه چیز رو با حساب به جلو بریم که مقاله خنده داری میشه یا اینکه فرض کنیم که مدیر انوییدا دروغ گو بوده
درست مثل فرمی که گفتند از یک چیپ تقلبی استفاده کرده بودن و زمان ارائه چیپ واقعی به خاطر مشکلات فنی خیلی به عقب افتاده بود
حتی خیلی قبل تر از CESS امسال چیزی که از پاسکال نمایش داده شده بود فقط یک ماکت بوده .
اینا نشان دهنده این هست که معماری پاسکال به خاطر مشکلات هنوز اجرایی نشده . چطور قبل از دایرکس 12 اونها حرف و ماکت پاسکال رو داشتند و بعد از این همه مدت باز هم یک ماکت برخلاف رقیب که همیشه چیپ واقعی رو نشون داده
همه و انیودیا باید بدونند که طراحی پیچیده ترین FE گرافیک جهان خیلی سخته اما APU همه کاره نه .
پس اینجا AMD سالها جلو هست و اونی که گریه میکنه من نیستم

**Veyron** · 12th January 2016, 06:46 PM

دیگه اینقدر پیشروی و توجیه نکنید .

توجیح چی ASDAF جان ؟

شما که اغلب حرف هایی که خودم زدم رو دباره تایید میکنی و داخل تایید خودت نقضشون میکنی . باو من که چیز خاصی نمیگم . فقط میگم مکانیزم APU با قویتر شدن FE برای گرافیک جدا هستند . حتی برای apu و کارایی بهتر اون هم باید gpu یک FE قویتر داشته باشه . نمونش همین GCN خود AMD که اصلا جزو ملزومات HSA برای AMD بود . اصلا با VLIW ممکن نبود ساپورت HSA.

از این واضح تر مشخص تر دیگه چی باید بگم ؟

درسته FE باعث استفاده شدن بهینه از هسته ها میشه و میشه اونها رو به صورت بهتری ادرس دهی کرد که بشه توی محاسبات پیچیده ازش استفاده بشه .با پیشرفته شدن گرافیک ها برنامه نویسی هم پیشرفته تر می شود .
در صورت که در معماری های قبلی به صورت فله ای استفاده می شدنند . اما این ادرس دهی اجزای گرافیک از حداقل نیاز برای دایرکس 12 و گرافیک مدرن هست . پیشرفت بیشتر FE فقط مربوط به بازدهی بهتر گرافیک میشه

خوب اینکه حرف های خودم هم بود . فقط بخش بولد شده تنها برای FE نیست . خیلی بخش های دیگه تاثیر گذارن . FE قویتر یعنی توانایی قرار دادن IS های بیشتر ( اگر قرار داده شود ).

مثل معماری POLARIS . و FE بیشتر از معماری POLARIS فقط بیشتر از نیاز ادرس دهی هسته هاست بلکه برای ایجاد اعمال خاصی هست که

شما دعا می کنید فقط باید مربوط به خود گرافیک بشه

FE بیشتر نه دوست من قویتر . بعد منظور شما مثلا کدوم بخش FE هست ؟

اون قسمتی که بولد قرمز کردم یعنی چی ؟ منظور شما FFP های مربوط به D3D pipline هست ؟؟ این چه ربطی به بحث ما داره که دعا کنم ؟

پاسکال دارای ان قسمت هاست اما رقیب ندارد . اما این اصلا توجیه کننده نیست که هرچه FE بیشتر حتی به صورت مضحک در واقع بهتر خواهد بود . بلکه در بازدهی تاثیر دارد

رقیب که زیاد داره . خخخ . اما .. این بخش بولد شده

. جان من خودتم فهمیدی چی نوشتی ؟ - حتی به صورت مزحک یعنی چی ؟ بازدهی در چه زمینه ای ؟

ینجا انویدیا از گرافیک خودش مایه گزاشته است

خوب از همسایه که نمیگذاره ASDAF عزیزم

گذر گاه PCI EXPRESS محدود هست . و نمیشه همه اطلاعات خام رو منتقل کرد

خدا NVLINK رو ازش نگیره در SUMMIT و SIERRA . :دی

CPU<>DGPU=====GPUخود پردازنده وگرافیک داخلی مستقیم با هم تعامل می کنند

ASDAF جان DGPU چیه ؟ D چیه ؟ منظورت Discrete هست ؟ اون که میشه مجزا - داخلی اسمش IGPU یا همون Integrated GPU هست . اگر این خوب داریم برتری سیستم APU رو به یک سیستم CPU-GPU جدا میبینیم :

حالا اینها این چه ربطی به بحث قویتر شدن FE کارت های انویدیا داره ؟ یعنی شما میفرمایید FE قویتر نشه چون CPU از پسش بر میاد ؟ ا FE تراشه های گرافیکی دارن بشدت قوی میشن . شما میگی نیازی نیست - من میگم هست - AMD و NVIDIA هم اینو میگن :

دلیل :

همین VLIW به GCN ؟ دلیلی واضح تر از این ؟ اصلا رکن اصلی کارایی APU های AMD از قدیم آوردن GCN بود که بتونه بدونه نیاز به ILP که بشدت CPU رو به زحمت مینداخت با CPU ارتباط برقرار کنه . بدون GPU هوشمند اصلا HSA غیرر ممکن بود . بدون وجود Unified memory هم همچنین .

نشونه دیگه هوشمندتر شدن GCN به POLARIS و تقویت زیاد FE در اون ؟ چیزهایی که خود AMD به اون اشاره کرده نه من . غیر از اینه ؟ الان کجای حرف های من چیز خارج از عرفی رو میگه /

الان polaris در ces مهمترین بخش های تغییرش قویتر شدن fe و افزایش ipc تراشه بود . این خیلی واضحه .

این از بحث FE و اینکه انودیا داره اونو خیلی قویتر میکنه که یکی از دلایلش همین کارایی در AI هست که دیدید همه کنفرانس CES رو اون میچرخید . هوشمندتر شدن GPU ها واضح هست . amd در زمان fermi وقبلش معماری غیر هوشمند VLIW رو داشت تمام بازار HPC ها و SUPER COMPUTER هارو از دست داد .

شما مشتریان HPC انویدیا رو با AMD مقایسه کنید . یه نگاه به TOP500 بندازید .

تفاوت این است که در مدل AMD داده ها گرافیک محورند اما در مدل انویدیا CPU محور

بله زمانبندی و ادرس دهی سریالی cpu مانند انویدیا هست که اون رو خیلی شبیه پردازنده ها کرده . شاید در داده های خطی سریع نباشه اما در داده های پیچیده و غیر خطی قطعا حرف های زیادی برای گفتن داره .

برنامه ریزی راحت هسته های انودیا باعث شره همه که نه اما اغلب برنامه های hpc و شبیه سازی به شکل عالی توسط cuda نوشته بشوند و همین الان هم در مبحث AI کلی جلوتر باشد . تا زمانی که AMD بخواد به این نقطه برسد انویدیا مبحث دیگه ای رو شروع کرده .

اما از نظر بازدهی مدل AMD بسیار بهتر هست و اصلا اهمیتی نداره که گرافیک خاک برسر چقدر FE کوچکتری داره بلکه FE به اندازه نیاز هست و باعث میشه یک گرافیک بهینه داشته باشیم

در نرم افزار ها و محاسبات خطی بله مدل AMD به مراتب سریعتر هست . اما در محاسبات پیچیده که نیاز به برنامه نویسی و شبیه سازی های پیچیده دارند قطعا مدل انویدیا . برای محاسبات خطی از FPGA های دست ساز استفاده میشود . مثل Brutforce که نشون داد amd خیل عالی هست اما با تهیه fpga های دانشجویی و دستی سریع از مد افتاد .

گستردگی برنامه های CUDA و اجبار AMD به ساخت بستر بولتزمن نشون دهنده اقبال اغلب برنامه نویسان به معماری انویدیا دارد .

برنامه نویسی هم پیشرفت میکنه و خیلی از کارها در مدل برنامه نویسی جدید به صورت خودکار انجام خواهد شد

به صورت خودکار به اذن خدا ؟ خخخخ یا وابستگی به پردازنده توسط اون و سرعت کمتر ؟

شما نمی تونید ادعا کنید که برنامه های پاسکال هوشمند تر یا کد نویسی کمتری دارند و بهتر از مدل AMD هست اما من می تونم ادعا کنم که از نظر مصرف و بازدهی مدل AMD خیلی بهتر خواهد بود

گستردگی cuda ادعای خوبی هست asdaf عزیز . من نمیگیم توسعه دهندگان میگن . درواقع اینها رو HPC ساز ها و ابر کامپیوتر سازها تشخیص میدن . من هنوز ندیدم مناقصه ای رو AMD با معماری های نسل بعدش برای Super computer ها برده باشه .

نویسنده اون سایت از کنایه استفاده کرده بود که خودم هم خواستم به صورتی استفاده کنم که به کسی بر نخوره
اما یا حرف های مدیر انویدیا رو درست فرض کنیم و همه چیز رو با حساب به جلو بریم که مقاله خنده داری میشه یا اینکه فرض کنیم که مدیر انوییدا دروغ گو بوده
درست مثل فرمی که گفتند از یک چیپ تقلبی استفاده کرده بودن و زمان ارائه چیپ واقعی به خاطر مشکلات فنی خیلی به عقب افتاده بود
حتی خیلی قبل تر از CESS امسال چیزی که از پاسکال نمایش داده شده بود فقط یک ماکت بوده .
اینا نشان دهنده این هست که معماری پاسکال به خاطر مشکلات هنوز اجرایی نشده . چطور قبل از دایرکس 12 اونها حرف و ماکت پاسکال رو داشتند و بعد از این همه مدت باز هم یک ماکت برخلاف رقیب که همیشه چیپ واقعی رو نشون داده
همه و انیودیا باید بدونند که طراحی پیچیده ترین FE گرافیک جهان خیلی سخته اما APU همه کاره نه .
پس اینجا AMD سالها جلو هست و اونی که گریه میکنه من نیستم

والا من برام خیلی جالبه بدونم کدومشون توی مبحث gaming جلو میوفتن .

انویدیا اگر دیرتر پاسکال رو بده واضحه بازارو از دست میده . حالا بیاید ببنیم کی زودتر میده و بازار رو بدست میگیره .

amd که خوب سالها جلوتره دیگه

**zeus** · 16th January 2016, 09:04 PM

من هنوز نفهمیدم pci e نسخه 1 یا 2 یا 3 فرق زیادی با هم تو عمل ندارند
[Only registered and activated users can see links. ]
NVLINK چه تاثیری رو پروفنس نهایی میگذاره ؟

موضوع: برسی ابتدایی معماری PASCAL : معماری برای هوش مصنوعی

LinkBack

ابزارهای موضوع

جستجو موضوع

نحوه نمایش موضوع

برسی ابتدایی معماری PASCAL : معماری برای هوش مصنوعی

12 کاربر بابت این ارسال مفید از Veyron تشکر کرده اند:

8 کاربر بابت این ارسال مفید از asdaf تشکر کرده اند:

7 کاربر بابت این ارسال مفید از moc تشکر کرده اند:

7 کاربر بابت این ارسال مفید از Veyron تشکر کرده اند:

5 کاربر بابت این ارسال مفید از Veyron تشکر کرده اند:

7 کاربر بابت این ارسال مفید از asdaf تشکر کرده اند:

7 کاربر بابت این ارسال مفید از Veyron تشکر کرده اند:

5 کاربر بابت این ارسال مفید از asdaf تشکر کرده اند:

7 کاربر بابت این ارسال مفید از Veyron تشکر کرده اند:

3 کاربر بابت این ارسال مفید از zeus تشکر کرده اند:

موضوعات مشابه

بحث و تبادل نظر درباره سری PASCAL (نسل آینده تراشه های انویدیا)

= کارت گرافیک بعدی NVIDIA "Pascal"16NM خواهد بود =

=== لیست کارتهای گرافیکی نسل بعد NVIDIA با اسم رمز PASCAL ===

= استفاده از GDDR5X به جای HBM2 در PASCAL==

کلمات کلیدی این موضوع

مجوز های ارسال و ویرایش