برسی ابتدایی معماری PASCAL : معماری برای هوش مصنوعی

**Veyron** · 6th January 2016, 11:53 PM

Pascal : Architecture for Artificial intelligence

پاسکال : معماری برای هوش مصنوعی

خوب باید همین اول بگم از نتایج و قابلیت های NVIDIA Drive PX.2 که تنها اثر و نمود حضور پاسکال در CES.2016 بود بشدت شوکه شدم . تنها منبع فعلی ما برای برآورد معماری همین drive px.2 هست .

با دیدن معماری و مکانیزم عملگرد px.2 با 2 تراشه گرافیکی پاسکال به راحتی میشه متوجه شد پاسکال طوری طراحی شده تا بتونه شبکه های عصبی مغز را شبیه سازی کند .

برای اینکه معماری خودمختار باشد و شبیه مغز انسان باشد باید Front end خیلی قوی ای داشته باشد . اگر FE خیلی قوی داشته باشد شبیه CPU میشود . موردی که در معماری فرمی شاهد اون بودیم .

به تصویر زیر دقت کنید : با یه تقریبی از تعداد هسته ها به نسبت سطح تراشه میشود به راحتی حجم FE نسبت به Core count رو تقریب زد . ( در این تقریب معماری Fermi قوی ترین Front end ونزدیک به cpu و کمترین قدرت خام محاسباتی و VLIW بیشترین تعداد هسته به نسبت تعداد ترانزیستوری هایی که برای طراحی تراشه به کار رفته و بیشترین قدرت محاسباتی خام )

الف ) در شکل بالا هرچقدر معماری ها به سمت چپ نزدیک باشند به معماری cpu نزدیکتر و خودمختاری تراشه بالاتر اما تعداد هسته ها کمتر و قدرت خام کمتر .

ب ) اما هرچقدر معماری ها به سمت راست نزدیکتر باشند تعداد هسته ها بیشتر و قدرت محاسباتی خام بالاتر اما توان محاسباتی و خود مختاری تراشه کمتر.

خوب این به چه معنا در پاسکال است ؟ به این معنا که در نسل پاسکال تعداد هسته ها افزایش پیدا نمیکنند ( تغییرات ناچیز) اما تعداد ترانزیستور هایی که برای Front end کلاستر ها به کار رفته است بسیار افزایش پیدا میکند . اما چگونه میتوان قهمید معماری پاسکال به سمت هسته های کمتر حرکت کرده ؟؟

من با ضریب اطمینان بالایی خدمت دوستان عرض میکنم تعداد هسته ها در پاسکال به طور مثال در GP104 تفاوت زیادی با GM204 نخواهد کرد . اما تعداد ترانزیستور های به کار رفته برای GP104 ( اگر این اسم تراشه باشد) حدودا 2 برابر GM204 خواهد بود .

چایگاه Polaris هم جالب هست که بالانسی بین FE و Core count و این نشون دهنده راه amd هست . البته نکته جالب توجه ازفیش حرکت اون به سمت پردازنده ای شدن معماری هست ( یعنی قدرت بالاتر FE )

به مقایسه پاسکال با GTX TITAN X دقت کنید :

مصرف کلی PX.2 با TITAN X برابر است . هر 2 250 وات مصرف میکنند . با فرض حذف 2 تگرا که اونها هم از GPU PASCAL استفاده میکنن و کل سیستم رو از یک تراشه PASCAL در نظر بگیریم داریم :

1 ) قدرت محاسباتی هر 2 بسیار به هم نزدیک است و حدود 8-7 ترا فلاپس است .

این یعنی تعداد هسته ها در پاسکال 2 برابر نمیشود و تغییر نخواهد کرد . ( اما تعداد ترانزیستور های به کار رفته 2 برابر شده است )

2) DL TOPS به مخفف DEEP learning Tera operation per second بیش از 3 برابر شده .

البته انویدیا در متن خود ادعا کرده در الگوریتم های پیچیده اختلاف حدود 10 برابر است .

3) Alexnet ب ااستفاده شبکه نرون های مغز با استفاده از شبکه کانوولوشن ( کانوولشن انتگرال پیچیده برای توابع است که اونایی که انتگرال های کانوولشن برای تجیزیه و تحلیل سیگنال ها دیدن میفهن من چی میگم ) که تصاویر رو درک و محاسبه می کند .

این به این معناست که در عمل کارایی سیستم 6.2 برابر معماری نسل قبل ماکسول است که عدد خوبی برای شبکه هوش مصنوعی است .

اما در بخش Gaming :

ار یو ف ا.کینگ کدینگ می ؟؟ دیپ لرنینگ و هوش مصنوعی به درد ما انصافا نمیخوره و از حوزه ما خارجه . ببنیم این معماری در گیمینگ چه میکنه ؟

در حال حاظر جز یک دورنمای خیلی دور چیزی از معماری پاسکال نداریم . اما چیزی که واضح هست اینه که معماری به شدت به سمت معماری fermi در حرکت است و قدرت FE تراشه نسبت به نسل قبل خیلی بیشتر میشود .

چیزی که من پیشبینی میکنم بازگشت کامل HW Scheduler ها و یک سیستم fe بسیار پیچیده با هسته های کم هست ( چیزی شبیه به فرمی سابق )

**Veyron** · 17th January 2016, 05:20 PM

نوشته اصلی توسط zeus

من هنوز نفهمیدم pci e نسخه 1 یا 2 یا 3 فرق زیادی با هم تو عمل ندارند
[Only registered and activated users can see links. ]
NVLINK چه تاثیری رو پروفنس نهایی میگذاره ؟

زئوس عزیز این بیشتر برای ارتباط بهتر صفحات محاسباتی HPC های آینده انویدیا کاربرد داره و وظیفه هماهنگی کلی و ارتباطی این بخش های محاسباتی بر عهده شرکت هایی نظیر Mellanox هست .

شبیه ساز های فعلی و بعضی نرم افزار های محاسباتی چنان دستورات پیچیده ای به GPU از طریق پردازنده میدهند که پردازنده برای ارسال دستورات بعدی بسیار معطل میشود . بالانس DELAY های دستور دهی پردازنده به GPU و سرگرم نگه داشتن GPU به پردازش ماتریس های خیلی خیلی پییچیده هنر برنامه نویسان HPC هست برای استفاده بهینه از سیستم هاشون .

برای فهم راحت تر این همان قضیه Bottleneck در cpu و gpu هست . اگر gpu خواهان دستورات زیادی برای پردازش باشد و cpu نتواند با سرعت کافی پاسخگویی کند منابع سیستم به هدر رفته . در حال حاظر شبیه سازها برای هر hpc با معماری متفاوت طوری بالانس میشود که بار های CPU و GPU همیشه در حالت بالانس قرارگرفته باشد . مثلا ابر کامپیوتر هایی که از INTEL Xeon CPU + Intel Xeon Phi برای محاسبات استفاده می کنند زیرساخت نرم ازفری متفاوتی با hpc های دیگر دارند وقطعا با شتابدهنده هایی که هسته های موازی بیشتری در شتابدهنده محاسباتیشون استفاده می شود تفاوت های بنیادی دارند .

در نسل VOLTA و IBM next gen CPU ها احتمالا درگاه اطلاعاتی بزرگی مورد نیاز بوده که انویدیا به فکر توسعه سیستم ارتباطی چنینی بین CPU-GPU شده است زئوس عزیزم .

**TERRORIST** · 22nd January 2016, 07:53 PM

4096 هسته CUDA همراه با فرکانس 900 ~ 1000 MHZ توان مصرفی هر هسته 100 W برای GPU ، یعنی این که GTX 980 توان مصرفیش 100 W می باشد برای DRIVE X2 هستش که شرکت NVIDIA ادعاء می کند از پردازنده های گرافیکی PASCAL استفاده کرده است. گفته می شود کارت گرافیک GTX 1080 حدود 20 / 25 درصد قوی تر از TTX باشد همراه با 4096 هسته ای CUDA و 256 بیت نیز Memory Interface احتمالا با HBM2 عرضه شود یا GDDR5X که باید منتظر خبرهای بیشتر باشیم توان مصرفی نیز بین 180 الی 200 وات ، پشتیبانی از Async Compute و این احتمال وجود دارد از کارت گرافیک GTX 980 TI نیز حدود 35 درصد قوی باشد

**magiteq** · 22nd January 2016, 11:33 PM

نام گذاری 1080GTX حتمی هست؟
یادمه یکی از استاتید گفت نامگذاری به شکل 1XXX کلا در کارتهای NVIDIA دیگه منسوخ شده

**zeus** · 23rd January 2016, 12:43 AM

نوشته اصلی توسط magiteq

نام گذاری 1080GTX حتمی هست؟
یادمه یکی از استاتید گفت نامگذاری به شکل 1XXX کلا در کارتهای NVIDIA دیگه منسوخ شده

2016
GTX1070 = GTX 980TI @ $399
GTX1080 = 35%-40% faster than GTX 980TI @$549

2017
GTX1170 (rebrand) = GTX1080 @$399
GTX1180 (big pascal) = 35%-40% faster than GTX1170 @$549
GTX1180TI (big pascal)= 15%-20% faster than GTX1180 @$749
GTXTitanXX (big pascal)= 20% faster than GTX1180TI @$999

فکر نکم فرقی کرده باشه ولی مدیرای تبلیغاتی بعضی مواقع لحظات اخر اسم تغییر میدند نمونش xbox one

**SYNCMASTER** · 23rd January 2016, 05:41 PM

gtx 1080به نظر شخصی بنده اسم فوق العاده جذابیه واسه این کارت نازنین
خداکنه اسمش روتغییرندن

نوشته اصلی توسط zeus

فکر نکم فرقی کرده باشه ولی مدیرای تبلیغاتی بعضی مواقع لحظات اخر اسم تغییر میدند نمونش xbox one

چندین سال قبل هم بعداز نسخه اول ایکس باکس مایکروسافت سال2005واسه نسخه جدیدکنسول ایکس باکس نام xenosیا xbox2روانتخاب کرده بود که دراخر نامxbox360روگذاشتندروکنسول جدیدشون

**A1C1E** · 5th February 2016, 02:02 PM

در این عکس بسیار اغراق شده
درواقع VLIW سری 5000 رو نشون میده سری 4000 و 3000 خیلی بهتر بودن و توی سری 6000 AMD اومد این گند رو کمتر کرد
و نسخه های مختلف GCN رو کلا یه جور نمایش داده در صورتی که ما میدونیم 7970 با 380X که مشخصات یکسان اما نسخه معماری متفاوتی دارن حدود 1 میلیارد ترانزیستور اختلاف دارن!
فرمی رو هم فقط از نظر تعداد کودا دربرابر حجم FE ها نشون داده (آلزایمر دارن آیا؟

)
اون موقع کودا کور ها خیلی بزرگتر بودن و امکان افزایش کودا به صورت 2 برابر نبود و برای همین از فرکانس دوبرابر استفاده میشده
یعنی خود انویدیا داره منکر کودا کور های بزرگتر سری فرمی میشه و حتی فرکانس دوبرابر نسبت به جی پی یو شو رو در نظر نگرفته اگر میخواست عاقلانه حساب کنه یه چیزی تو مایه های مکسول در میومد! البته منظور قدرت FE دربرابر کودا هست از نظر سطح/تعداد ترانزیستور کودا نسبت به FE هم نصف مکسول ...
اونجوری که انویدیا داره میگه مید رنج و لو رنج ها هم پاسکال میده بیرون!

اصلا سری موبایل و کم مصرف رو باید همون مکسول آپدیت شده بده بیرون البته نسخه GeForce شو نه نسخه Quadro که برای طراحاست
من حدس میزنم که کارت تایتان پاسکال مشخصاتش نسبت به 980 اینجوری باشه
FE چهار برابر بزرگتر از 980
کودا کور دو برابر بیشتر از 980
ROPs دو برابر بیشتر از 980
واحد های تسلیشن چهار برابر بیشتر از 980
نسخه پی سی 4x4GB HBM2 با پهنای باند 1TB/s
+ احتمالا 4096 واحد اجرایی (همون DP توی تایتان نسل اول) (احتمال داره از DP های کمتری استفاده کنه مثلا 1024 یا 2048 تا و تا نسل ولتا برای نسبت یک به یک واحد اجرایی به کودا کور رو نده دست ملت) توی تایتان نسل اول 960 واحد اجرایی بود که فقط 896 تا از اونا فعال بودن و همه دیدیم که با معماری مضخرف کپلر (نسبت به فرمی و مکسول) چه قدرت وحشتناکی توی رندرینگ داشت! البته فکر میکنم به خاطر هوش مصنوعی همون 4x16=64 تا نسبت به هر SMM یعنی مجموعا 2048 تا محتمل تر باشه
+ تعداد بیشتری پردازنده RISC گفته شده 4 دونر و 8 تا Cortex-A57 نسبت به 2 تا Cortex-A15 در تایتان
به هر حال امیدوارم سه کارت مکسول 3 بده بیرون یکی مشابه 960 با 64bit GDDR5X و دوبرابر واحد تسلیشن نسبت به 960 با 2GB رم
و دومی مشخصات مشابه با 980 با 128bit GDDR5X و دوبرابر واحد تسلیشن نسبت به 980 و 4GB رم
و سومی 1536 کودا کور و 192 واحد تسلیشن و 48 ROPs و 3GB 96bit GDDR5X
اینو برای این میگم چون بازدهی مکسول 2 نسبت به ترانزیستور/مصرف توی گیمینگ خیلی بهتر از پاسکال و کپلر و فرمی هه فقط توی تسلیشن از کپلر کم میاره که اونم به خاطر واحد های کم تسلیشنشه
و در آخر پاسکال اسمی بود انتخاب کردی انویدیا جون
پاسکال به خاطر عقایدش و باور های مذهبیش نبوغش در ریاضیات رو به روی دنیا بست

**SaeedSYS** · 5th February 2016, 04:27 PM

کارت های رده بالا پاسکال رو ظاهرا زودتر میان رده و پایین رده عرضه میشه درسته ؟؟؟

یک اشتباهی در محاسبات استاد پیش اومده حتما ...

**Veyron** · 5th February 2016, 08:11 PM

من از اینکه دوستان بعضی مقاله های نه چندان ارزشمند بنده رو مطالعه میکنن و نتیجه گیری های حتی سطحی میکنن خوشحال میشم . اما با تخیل و عمق کم دید به مقاله هم منو خیلی ناراحت میکنن .

ببنید وقتی شما این مقاله رو می خونید و از قرارداد های اون استفاده میکنید که من نوعی تعیین کردم استفاده میکنید (که جنبه قراردادی بین خودمون دارد و ممکنه جای دیگه چیز دیگه ای باشه و اصلا اینی نباشه که اینجا مطرح کردم) . احتمالا حتی مفهوم بلاک های اولیه که من میخواستم شما متوجه منظور بنده بشید رو نشدید . نمونش همین FE که من بارها توضیح دادم اما میتونست خیلی اسم های دیگه ای به خودش بگیره و به شکل اکادمیک حتی بهتره اون رو CU بخونیم . کامپیوت یونیت خیر منظور واحد کنترل یا هرچیز دیگه که شما ترجیح دادید از عبارت معادل من استفاده کنید . خود fe المان های بسیاری داره و ممکنه بعضی از مولفین سایت های مطرح فقط اون رو شامل ffp ها بدونن و من نوعی اون رو به علاوه + cu بدونم .

نوشته اصلی توسط A1C1E

اون موقع کودا کور ها خیلی بزرگتر بودن و امکان افزایش کودا به صورت 2 برابر نبود و برای همین از فرکانس دوبرابر استفاده میشده

کودا کور های خیلی بزرگ بودن ؟ یا کوچک ؟ متاسفانه همونطور که بالا گفتم شما یه برداشت سطحی از قرارداد های پیش تعریف شده من کردید . دوست من شما از هسته های GPU چی میدونید یا اصلا منظور من رو چی برداشت کردید ؟ منظور از بزرگ و کوچیک بودن و غیزه چی هست ؟ مثلا تفاوت ابعادشون در نسل های مختلف انویدیا بیا حتی قیاسشون با AMD ؟

در ابتدا باید خدمتتون عرض کنم خود هسته ها یا واحد های اجرایی در نه تنها معماری های انویدیا - بلکه حتی معماری های AMD ابعادی مشابه - طرز ساخت بی نهایت مشابه (در دقت PRECISION های مشابه )، که البته بسیار کوچک هم دارند و خود واحد اجرایی به تنهایی یکی از کوچکترین المان ها در ساخت تراشه هاست . اون بخشی که باعث افزایش شدید ابعاد وپیچیدگی مماری میشه نحوه استفاده از این آجر های بلاک اجرایی هست .

این واحد های اجرایی یا هسته ها که بنده عرض میکنم در انویدیا و AMD مشابه هستند طبق قرار داد بین المللی IEEE-754 از 985 به بعد وظیفه مشخصی دارند و از فرمی و حتی VLIW به این سمت ورژن 011 تغییرات خاصی نکردند و ابعاد اونها هم تغییری نکرده . بلکه نحوه استفاده از اینها پیچیدگی تراشه رو تعیین میکنه

پس این از روشن سازی کودا کور های خیلی بزرگ و خیلی کوچیک .

امکان افزایش کودا به صورت 2 برابر نبود و برای همین از فرکانس دوبرابر استفاده میشده

نظریات ...... ؟ خوب مسئله ابعاد که بالا حل شد چون EU ها در تمام GPU های فعلی چه انودیای چه AMD بسیار شبیه به هم هستند وبا قرار داد 754 طراحی شدن و تفاوت بسیار ناچیزی دارند . این از این

علت استفاده از فرکانس 2 برابر در فرمی یا بیشتر از اون در معماری های گذشته به خاطر قدرت بسیار بالای CU تراشه و نحوه استفاده از EU ها بوده دوست عزیز نه بزرگ بودن کودا ها - این نظریات فضایی رو از کجا پیدا میکنید ؟ .

استفاده از فارکانس بالاتر واحد اجرایی یا کواد پمپینگ که اینتل در پنتیوم ابتدا پیاده سازی کرد زمانی لازم میشد که قدرت بخش cu خیلی بیشتر از EU بود - به چه معنا ؟

CU به حدی دستورات برای EU به منظور اجرای دستورات می فرستاد که خارج از توانایی EU برای انجام به موقع و هماهنگ بود و به همین علت بخش های اجرایی در فرکانس خیلی بالاتری از بخش های کنترلی دستوری انجام وظیفه میکردند تا از هدر رفت منابع اجرایی و تلفات توان محاسباتی سیستم جلوگیری شود . معماری فرمی و تسلا و جی-80 به همین منوال بودند چون سیستم کنترلی و دستوردهی بسیار نیرومند اونها رو تعداد هسته کمی با قدرت بسیار زیادی اعمال میشد و هسته برای اینکه بتونن دستورات پیچیده ارسالی که تعداد زیادی کلاک برای انجامشون بود به انجام برسونن نیاز داشتند از فرکانس بالاتری نسبت به سطح کلی تراشه کار بکنند .

EU بزرگی نداریم بلکه FE-CU بسیار بزرگی داشتیم دوست عزیز .

یعنی خود انویدیا داره منکر

کودا کور های بزرگتر سری فرمی

میشه و حتی فرکانس دوبرابر نسبت به جی پی یو شو رو در نظر نگرفته اگر میخواست عاقلانه حساب کنه

یه چیزی تو مایه های مکسول در میومد

!

یه چیز تو مایه های ؟ این تصویر داره تفاوت FE و مقدار ترازنیستوری که برای حجم EU-FE به کار فرته رو حدودا تخمین میزنه - باز کوداکور های بزرگتر ؟ عاقلانه حساب کردن انویدیا ؟

+ احتمالا 4096 واحد اجرایی (

همون DP توی تایتان نسل اول

)
(احتمال داره از DP های کمتری استفاده کنه مثلا 1024 یا 2048 تا و تا نسل ولتا برای نسبت یک به یک

واحد اجرایی به کودا کور

رو نده دست ملت)

داداش اسم اون DP که میگی واحد اجرایی نیست والله - منظور دقت واحد اجرایی هست . این ........... رو کی یاد داده که DP توی تایتان نسل اول اسمش واحد اجرایی بوده ؟ نسبت یک به یک هم با کودا کور که میگی اون کودا کوری هم که شما میگی نسبت باهاش داره میشه دقت SP .

منور از DP-SP دقت واحد های اجرایی هست دوست عزیز طبق قرارداد IEEE برای DP تا 64 بیت هست و برای SP هم تا 32bit و دقت جدیدی که پاسکال هم قراره استفاده اضافه بشه مدل 16 بیتی دقت پایین هست که برای محاسباتی که مکان هندسی نیاز ندارند مثل یادگیری عمیق مناسب هست .

علت استفاده از dp یا sp و اینکه چرا در بازی ها از eu هایی با دقت SP استفاده میشه بر میگرده به دقت مکان هندسی یابی ورتکس ها یا برای DP محسبات دقیق ماتریس هایی که اعداد بسیار دقیقی درشون هست که بحثش اینجا نیست

+ تعداد بیشتری پردازنده RISC گفته شده 4 دونر و 8 تا Cortex-A57 نسبت به 2 تا Cortex-A15 در تایتان

اینایی که میگی در Tegra های پشت drive P.x2 بودن عزیز - بسیار بسیار بعیده در gpu های بالارده انویدیا هسته arm ببنیم به صورت تو کار ( چیزی که البته در گذشته های دور قولش داده شده بود)

-------------

موفق باشید

**zeus** · 6th February 2016, 02:37 PM

کسی اطلاعاتی درباره Nvidia Nsight داره اصلا چیه ؟

**TERRORIST** · 12th February 2016, 09:15 PM

درود دوستان

کارت گرافیک GP104 طبق خبری منتشر شده است در تاریخ سه ماه سوم سال میلادی 2016 عرضه خواهد شد، در تاریخ April کارت گرافیک های براساس محصول Tesla در تراشه GP100 و دو کارت گرافیک برای رده محصولاتی Desktop نیز در تاریخ June شامل : GTX 1080 GP 104 و GTX 1070 GP104 عرضه خواهند شد و سایر محصولات این شرکت نیز سه ماه چهارم نیز GP106 - GP 107 در نظر گرفته شده است از سوی این شرکت برای عرضه نسل جدید ما در نسل جدید NVIDIA نیز شاهد کارتهای گرافیکی با اسم TITAN نیز هستیم به احتمال زیاد در تاریخ سه ماه اول سال میلادی 2017 در نظر گرفته شده است براساس تراشه GP100 و در اخر نیز تراشه Rebrand شده GP108 برای سه ماه دوم از سوی NVIDIA تزریق خواهد شد.

دو کارت گرافیک GTX 1070 و GTX 1080 شامل 8 گیگابایت خواهند بود. البته این دو کارت گرافیک در سبد محصولات Mid Range قرار خواهند گرفت

کارتهای گرافیک High - END شرکت NVIDIA دارای 16 گیگابایت حافظه خواهند بود با تراشه GP100 عرضه خواهند شد .

موضوع: برسی ابتدایی معماری PASCAL : معماری برای هوش مصنوعی

LinkBack

ابزارهای موضوع

جستجو موضوع

نحوه نمایش موضوع

برسی ابتدایی معماری PASCAL : معماری برای هوش مصنوعی

12 کاربر بابت این ارسال مفید از Veyron تشکر کرده اند:

7 کاربر بابت این ارسال مفید از Veyron تشکر کرده اند:

8 کاربر بابت این ارسال مفید از TERRORIST تشکر کرده اند:

5 کاربر بابت این ارسال مفید از magiteq تشکر کرده اند:

6 کاربر بابت این ارسال مفید از zeus تشکر کرده اند:

7 کاربر بابت این ارسال مفید از SYNCMASTER تشکر کرده اند:

9 کاربر بابت این ارسال مفید از A1C1E تشکر کرده اند:

5 کاربر بابت این ارسال مفید از SaeedSYS تشکر کرده اند:

10 کاربر بابت این ارسال مفید از Veyron تشکر کرده اند:

3 کاربر بابت این ارسال مفید از zeus تشکر کرده اند:

6 کاربر بابت این ارسال مفید از TERRORIST تشکر کرده اند:

موضوعات مشابه

بحث و تبادل نظر درباره سری PASCAL (نسل آینده تراشه های انویدیا)

= کارت گرافیک بعدی NVIDIA "Pascal"16NM خواهد بود =

=== لیست کارتهای گرافیکی نسل بعد NVIDIA با اسم رمز PASCAL ===

= استفاده از GDDR5X به جای HBM2 در PASCAL==

کلمات کلیدی این موضوع

مجوز های ارسال و ویرایش