نقص طراحی تراشه‌های Blackwell تقصیر ما بود، نه TSMC

مدیرعامل انویدیا اعلام کرد که نقص طراحی بزرگی که منجر به خرابی بخش عظیمی از پردازنده‌های Blackwell این شرکت در مرحله تولید شده بود، ماه‌ها پیش برطرف شده و نسخه بهبود‌یافته تراشه‌های B100 و B200 اکنون به‌صورت انبوه تولید می‌شوند. هوانگ همچنین تأکید کرد که این مشکل کاملاً ناشی از اشتباه انویدیا بوده و شرکت […]


مدیرعامل انویدیا اعلام کرد که نقص طراحی بزرگی که منجر به خرابی بخش عظیمی از پردازنده‌های Blackwell این شرکت در مرحله تولید شده بود، ماه‌ها پیش برطرف شده و نسخه بهبود‌یافته تراشه‌های B100 و B200 اکنون به‌صورت انبوه تولید می‌شوند. هوانگ همچنین تأکید کرد که این مشکل کاملاً ناشی از اشتباه انویدیا بوده و شرکت TSMC، شریک تولیدی این شرکت، کمک کرده تا این مشکل به‌موقع رفع شود.

هوانگ در گفتگویی با رویترز گفت: «ما یک نقص طراحی در تراشه‌های Blackwell داشتیم که به لحاظ عملکردی مشکل نداشت، اما این نقص باعث کاهش سهم تراشه‌های سالم از ویفرهای تولیدی می‌شد. این مسئله کاملاً تقصیر انویدیا بود.»

اعتراف انویدیا به بی تقصیر بودن TSMC

به‌دنبال انتشار گزارش‌هایی در مورد این نقص طراحی، برخی از رسانه‌ها به‌اشتباه TSMC را مقصر دانستند و حتی مطرح کردند که این مسئله ممکن است به رابطه انویدیا با این شریک بزرگ تیم سبز آسیب برساند. اما هوانگ این ادعاها را تکذیب کرد و گفت که اشتباهات محاسباتی انویدیا عامل اصلی مشکل بوده و اخبار مربوط به تنش بین این دو شرکت را «جعلی» خواند.

تراشه‌های Blackwell B100 و B200 انویدیا با استفاده از فناوری بسته‌بندی CoWoS-L شرکت TSMC تولید می‌شوند که به این تراشه‌ها اجازه می‌دهد با سرعت انتقال داده حدود ۱۰ ترابایت بر ثانیه کار کنند. یکی از عوامل اصلی در این فناوری، محل قرارگیری دقیق پل‌های سیلیکونی (LSI) است. با این حال، عدم هماهنگی در خصوصیات انبساط حرارتی بین دای‌های GPU، پل‌های LSI، و سایر اجزای تراشه منجر به تاب برداشتن سیستم و در نهایت از کار افتادن آن می‌شد. به گفته منابعی، انویدیا مجبور شد لایه‌های بالایی و نقاط اتصال سیلیکون GPU را برای بهبود بازده تولید اصلاح کند. اگرچه جزئیات دقیقی از این اصلاحات فاش نشده، انویدیا اعلام کرد که این فرایند نیازمند طراحی و بکارگیری ماسک‌های لیتوگرافیکی جدید بوده است.

مسائل مربوط به سهم پایین تراشه‌های سالم و مشکلات عملکردی در صنعت نیمه‌هادی پدیده نادری نیستند. معمولاً شرکت‌ها با تغییر در لایه‌های فلزی تراشه این مشکلات را برطرف می‌کنند و نسخه‌ای جدید از تراشه خود را تولید می‌کنند. به‌عنوان نمونه، شرکت اینتل برای رفع ۵۰۰ نقص گزارش‌شده در پردازنده‌های Sapphire Rapids خود، حدود ۱۲ نسخه جدید طراحی کرده است. هر نسخه جدید حدود سه ماه زمان می‌برد تا به‌طور کامل طراحی، اصلاح و تولید شود. از این منظر، سرعت انویدیا و TSMC در رفع نقص تراشه‌های Blackwell بسیار چشمگیر بوده است.

در همین رابطه بخوانید:

انویدیا مشکل تراشه‌های Blackwell را حل کرد

انویدیا: قیمت پردازنده‌های فوق سریع Blackwell نجومی و به ۲.۵ میلیارد تومان می‌رسد!

دردسرهای خرابی شتاب دهنده گران‌قیمت H100 80GB انویدیا برای متا

نسخه‌های اصلاح‌شده تراشه‌های Blackwell که برای هوش مصنوعی و ابررایانه‌ها طراحی شده‌اند، اواخر اکتبر وارد تولید انبوه می‌شوند و انتظار می‌رود اوایل سال آینده وارد بازار شوند. با این وجود، انویدیا اوایل امسال اعلام کرده بود که برای برآورده کردن نیاز شرکت‌های بزرگ ارائه‌دهنده خدمات ابری نظیر AWS، گوگل و مایکروسافت، مجبور خواهد بود در سال ۲۰۲۴ تعدادی از تراشه‌های Blackwell با بازده پایین را نیز ارسال کند. هنوز مشخص نیست چه تعداد از این تراشه‌ها در سال ۲۰۲۴ به دیتاسنترها ارسال خواهند شد.



Source link