برسی ابتدایی معماری PASCAL : معماری برای هوش مصنوعی

**Veyron** · 6th January 2016, 11:53 PM

Pascal : Architecture for Artificial intelligence

پاسکال : معماری برای هوش مصنوعی

خوب باید همین اول بگم از نتایج و قابلیت های NVIDIA Drive PX.2 که تنها اثر و نمود حضور پاسکال در CES.2016 بود بشدت شوکه شدم . تنها منبع فعلی ما برای برآورد معماری همین drive px.2 هست .

با دیدن معماری و مکانیزم عملگرد px.2 با 2 تراشه گرافیکی پاسکال به راحتی میشه متوجه شد پاسکال طوری طراحی شده تا بتونه شبکه های عصبی مغز را شبیه سازی کند .

برای اینکه معماری خودمختار باشد و شبیه مغز انسان باشد باید Front end خیلی قوی ای داشته باشد . اگر FE خیلی قوی داشته باشد شبیه CPU میشود . موردی که در معماری فرمی شاهد اون بودیم .

به تصویر زیر دقت کنید : با یه تقریبی از تعداد هسته ها به نسبت سطح تراشه میشود به راحتی حجم FE نسبت به Core count رو تقریب زد . ( در این تقریب معماری Fermi قوی ترین Front end ونزدیک به cpu و کمترین قدرت خام محاسباتی و VLIW بیشترین تعداد هسته به نسبت تعداد ترانزیستوری هایی که برای طراحی تراشه به کار رفته و بیشترین قدرت محاسباتی خام )

الف ) در شکل بالا هرچقدر معماری ها به سمت چپ نزدیک باشند به معماری cpu نزدیکتر و خودمختاری تراشه بالاتر اما تعداد هسته ها کمتر و قدرت خام کمتر .

ب ) اما هرچقدر معماری ها به سمت راست نزدیکتر باشند تعداد هسته ها بیشتر و قدرت محاسباتی خام بالاتر اما توان محاسباتی و خود مختاری تراشه کمتر.

خوب این به چه معنا در پاسکال است ؟ به این معنا که در نسل پاسکال تعداد هسته ها افزایش پیدا نمیکنند ( تغییرات ناچیز) اما تعداد ترانزیستور هایی که برای Front end کلاستر ها به کار رفته است بسیار افزایش پیدا میکند . اما چگونه میتوان قهمید معماری پاسکال به سمت هسته های کمتر حرکت کرده ؟؟

من با ضریب اطمینان بالایی خدمت دوستان عرض میکنم تعداد هسته ها در پاسکال به طور مثال در GP104 تفاوت زیادی با GM204 نخواهد کرد . اما تعداد ترانزیستور های به کار رفته برای GP104 ( اگر این اسم تراشه باشد) حدودا 2 برابر GM204 خواهد بود .

چایگاه Polaris هم جالب هست که بالانسی بین FE و Core count و این نشون دهنده راه amd هست . البته نکته جالب توجه ازفیش حرکت اون به سمت پردازنده ای شدن معماری هست ( یعنی قدرت بالاتر FE )

به مقایسه پاسکال با GTX TITAN X دقت کنید :

مصرف کلی PX.2 با TITAN X برابر است . هر 2 250 وات مصرف میکنند . با فرض حذف 2 تگرا که اونها هم از GPU PASCAL استفاده میکنن و کل سیستم رو از یک تراشه PASCAL در نظر بگیریم داریم :

1 ) قدرت محاسباتی هر 2 بسیار به هم نزدیک است و حدود 8-7 ترا فلاپس است .

این یعنی تعداد هسته ها در پاسکال 2 برابر نمیشود و تغییر نخواهد کرد . ( اما تعداد ترانزیستور های به کار رفته 2 برابر شده است )

2) DL TOPS به مخفف DEEP learning Tera operation per second بیش از 3 برابر شده .

البته انویدیا در متن خود ادعا کرده در الگوریتم های پیچیده اختلاف حدود 10 برابر است .

3) Alexnet ب ااستفاده شبکه نرون های مغز با استفاده از شبکه کانوولوشن ( کانوولشن انتگرال پیچیده برای توابع است که اونایی که انتگرال های کانوولشن برای تجیزیه و تحلیل سیگنال ها دیدن میفهن من چی میگم ) که تصاویر رو درک و محاسبه می کند .

این به این معناست که در عمل کارایی سیستم 6.2 برابر معماری نسل قبل ماکسول است که عدد خوبی برای شبکه هوش مصنوعی است .

اما در بخش Gaming :

ار یو ف ا.کینگ کدینگ می ؟؟ دیپ لرنینگ و هوش مصنوعی به درد ما انصافا نمیخوره و از حوزه ما خارجه . ببنیم این معماری در گیمینگ چه میکنه ؟

در حال حاظر جز یک دورنمای خیلی دور چیزی از معماری پاسکال نداریم . اما چیزی که واضح هست اینه که معماری به شدت به سمت معماری fermi در حرکت است و قدرت FE تراشه نسبت به نسل قبل خیلی بیشتر میشود .

چیزی که من پیشبینی میکنم بازگشت کامل HW Scheduler ها و یک سیستم fe بسیار پیچیده با هسته های کم هست ( چیزی شبیه به فرمی سابق )

**Veyron** · 13th February 2016, 07:08 PM

خوب دوستان اینطور که به نظر میاد پیشبینی های من در مورد تعداد کم هسته ها نسبت به ترانزیستور های مصرفی درست از آب در نیامده است . و اینجور که پیداست حتی از ماکسول هم در این زمینه پیشی خواهد گرفت و چه بسا حتی کپلر.

بیاید یکسری اسلاید های کمتر دیده شده رو ببینیم :

این هارو من از پرزنت انودیا در کیپ تاون آوریل 2014 به نام GPGPU2: Advanced Methods for Computing with CUDA برداشتم که تا به حال نادیده گرفته شده بود .

دقت کنید این پرزنت از جانب خود انودیا حدود 2 سال قبل هست ونکات جالبی داره :

اگر تغییر معماری خاصی از 2014 تا به حال در GP100-200 ایجاد نشده باشه 12 ترافلاپس توانایی محاسباتی SP عدد جالب توجهی هست ( احتمالا این مربوط به کارت های TESLA هستند که کلاک ریشو اونها نرمالایز هست .
پس با این حساب با فرض 2 برابر شدن تعداد ترانزیستور های یا حتی بیشتر نسبت هسته ها به ترانزیستور های مصرفی نه تنها کاهش نداشتند بلکه بیشتر هم شده اند . با 4 ترافلاپس توان محاسباتی DP احتمالا برای GP100 باید انتظار 1:3 DP/SP ratio داشته باشیم .

**TERRORIST** · 13th February 2016, 10:53 PM

رامین منظورت این که PASCAL عملا یک تراشه Compute محور هستش، تا یک تراشه که برای GAMING طراحی شده باشه برعکس Maxwell که کاملا برای Gaming طراحی شده است اگه این طور نبود Nvidia برای TESLA از Kepler استفاده نمی کرد چون MAXWELL در DP و MIX Mode Compute فقیر هستش ، مخصوصا PASCAL می تونه برای HPC ها مناسب باشه این طوری باشه خود NVIDIA با این کارش DIE / Transistor ها قربانی کرده برای فضای محاسباتی .

مثلا اگر Nvidia از Maxwell بروی Node 16 NM FF Plus استفاده می کرد قطعا در زمینه تمرکز GAMING ما شاهد افزایش کارایی خیلی بهتر در نسبت به نسل پیشین بودیم در نهایت احتمال 2 برابر کارایی .

فکر نمی کنم PASCAL بخواد انقلابی یا معجزه ای خاصی بوجود بیاره ، دارم روش بیشتر کار میکنم ببینم میشه از این معماری برای برنامه نویسی تحت CLOUD استفاده کرد ولی امیدوارم بهتر بشه .

**Veyron** · 14th February 2016, 05:16 AM

به به بهزاد عزیز . دیگه داری expert خفنی میشی - احسنت : دی

راستش بهزاد عزیز باید این معماری معرفی بشه تا بشه روش نظر نهایی رو داد . در مورد مکسول علیه کپلر در زمینه های محاسباتی باید بگم بهزاد جان مکسول به مراتب بهتر بود . ببنید توانایی محاسباتی مکسول خیلی خیلی بیشتر از کپلر هست اما به علت کمبودتعداد dp unit ها دقت لازم در اغلب برنامه های حوزه بازاری که مورد نظر تسلا هست رو نداره .

صرفا زیاد بودن تعداد dp ها برتری خاصی نیست . dp ها فقط بدرد این میخورن در بعضی از حوزه ها که دقت زیاد عددی تا رقم اعشاری بسیار طولانی محاسبه بشوند . چیدمان dp/sp ها در یک معماری یکی هست اما خود معماری تعیین کننده قدرتی هست که از این واحد ها بدست میاد . ( اتفاقا مدل انویدیا با مدل AMD برای بکارگیری DP/SP فرق میکنه و مدل AMD واحد های جدا نیستن بلکه حالتی Merge گونه دارن اما انویدیا به کلی براشون به خاطر نوع معماری محیطی جدارو براشون ایجاد میکنه که البته با کلاک گیتینگ توانایی غیر فعال سازی داره و مصرف رو خیلی کاهش میده ( هرچند leakage خودش رو داره ) البته مدل انویدیا ترانزیستور خیلی بیشتری نسبت به مدل amd می بره . اما power effcient تر هست .

ماکسول به علت تساوی بیشتر سهم front end / back end خیلی خیلی از کپلر بهتر بود - اینکه انویدیا ماکسول رو با حجم dp زیاد ایجاد نکرد کوری ویپیری نود 28 نانومتر بود . البته بگم این حوزه HPC حوزه ای هست که بر خلاف بازار گیمینگ مشتریان اون که سازنده های Super computer هستند تحقیقات زیادی روی عملکرد کلی تراشه ای که قراره استفاده بکنن انجام میدن و بهترین محصول رو انتخاب میکنن که توانایی انجام کارهایی که ازش انتظار دارند رو داشته باشه .

یه نکته جالب هست اینه که pascal از برنامه عقب هست و Volta جلو هست . یعنی سال 2017 سال تحویل ولتا به 2 ابر کامیوتر اصلی آمریکاست و تا پاسکال بخواد جون بگیره volta جایگزین شده . انویدیا به شکل برنامه ریزی شده اش از زمان فرمی هر 2-2.5 سال یک معماری جدید معرفی میکنه که کلا چیدمان اش و نحوه کاراییش از بنیان تغییر کرده . خیلی جرات داره . البته این کارش از زمان g8 به gt200 هم دیده میشد . بر عکس رقیب که سالهای سال از ارتقای یک معماری بهره میگیره - سال ها از hd2900xt تا hd6970 با معماری کلی VLIW کار میکرد . حال هم قراره تا احتمالا پیش از کنسول های PS5-Xbox NEXT بهره وری GCN رو ارتقائ بده بدون تغییر اساسی در شالوده کلی معماری .

**Veyron** · 17th February 2016, 07:57 PM

تازه اسلاید های

GPGPU2: Advanced Methods for Computing with CUDA دست سایتهایی مث videocardz و techpowerup رسیده برای 12 ترافلاپسی بودن پاسکال واقعا خسته نباشن .

دم بچه های 3dcenter آلمان گرم که همیشه خبر هارو مدتهازودتر از رقبا واکشی میکنن انصافا آدمای پیگیری هستن و بعضیاشون کاربرای بیوند هم هستن .

موضوع: برسی ابتدایی معماری PASCAL : معماری برای هوش مصنوعی

LinkBack

ابزارهای موضوع

جستجو موضوع

نحوه نمایش موضوع

برسی ابتدایی معماری PASCAL : معماری برای هوش مصنوعی

12 کاربر بابت این ارسال مفید از Veyron تشکر کرده اند:

10 کاربر بابت این ارسال مفید از Veyron تشکر کرده اند:

10 کاربر بابت این ارسال مفید از TERRORIST تشکر کرده اند:

9 کاربر بابت این ارسال مفید از Veyron تشکر کرده اند:

10 کاربر بابت این ارسال مفید از Veyron تشکر کرده اند:

موضوعات مشابه

بحث و تبادل نظر درباره سری PASCAL (نسل آینده تراشه های انویدیا)

= کارت گرافیک بعدی NVIDIA "Pascal"16NM خواهد بود =

=== لیست کارتهای گرافیکی نسل بعد NVIDIA با اسم رمز PASCAL ===

= استفاده از GDDR5X به جای HBM2 در PASCAL==

کلمات کلیدی این موضوع

مجوز های ارسال و ویرایش