زلزله در دنیای هوش مصنوعی؛ چطور چینی‌ها با دیپ‌سیک دنیا را غافلگیر کردند

جدول امتیاز دیپ‌سیک، برتری مدل V3 را در بسیاری از بنچمارک‌های کد و ریاضی نشان می‌دهد مایلز براندیج، پژوهشگر سابق سیاست‌گذاری در OpenAI، از دو ترفند پیش‌آموزش و یادگیری تقویتی کارآمدتر بر پایه‌ی استدلال زنجیره‌ای (Chain-of-Thought Reasoning) نام می‌برد. به عبارت ساده‌تر، دیپ‌سیک از تکنیک نسبتا جدیدی استفاده کرد که به مدل اجازه می‌داد به‌جای […]


جدول امتیاز دیپ‌سیک، برتری مدل V3 را در بسیاری از بنچمارک‌های کد و ریاضی نشان می‌دهد

مایلز براندیج، پژوهشگر سابق سیاست‌گذاری در OpenAI، از دو ترفند پیش‌آموزش و یادگیری تقویتی کارآمدتر بر پایه‌ی استدلال زنجیره‌ای (Chain-of-Thought Reasoning) نام می‌برد. به عبارت ساده‌تر، دیپ‌سیک از تکنیک نسبتا جدیدی استفاده کرد که به مدل اجازه می‌داد به‌جای تقلید صرف از رفتار انسان، مرحله‌به‌مرحله و از طریق آزمون‌ و خطا (یادگیری تقویتی) مسائل را حل کند. این روش باعث شد مدل بتواند با توان محاسباتی و هزینه‌ی به‌مراتب کمتر، به سطح عملکرد مدل o1 اوپن‌ای‌آی دست یابد.

نسخه‌ی سوم و دوم DeepSeek اساسا از همان نوع مدل‌هایی هستند که در GPT-4 استفاده شده، اما با مهندسی هوشمندانه‌تر تا بهره‌وری GPUها افزایش یابد.

مایلز براندیج، پژوهشگر سابق سیاست‌گذاری در OpenAI

البته آزمایشگاه‌های دیگر هم از این روش‌ها استفاده می‌کنند. برای مثال، روش «Mixture of Experts» که دیپ‌سیک در آموزش مدل‌هایش استفاده کرده، در GPT-4 نیز به کار گرفته شده است. این روش به‌کمک مجموعه‌ای از «متخصصان» (Experts) که هرکدام در پردازش نوع خاصی از داده‌ها مهارت دارند، فقط بخش‌های خاصی از مدل را که برای آن ورودی مفید هستند، فعال می‌کند تا بدین‌ترتیب در عین افزایش دقت، هزینه و قدرت پردازشی را کاهش دهد.

اما دیپ‌سیک با ایجاد دسته‌بندی‌های تخصصی‌تر و توسعه‌ی روشی کارآمدتر برای ارتباط میان این بخش‌ها، تکنیک MoE را بهبود داد و کل فرایند آموزش را بهینه‌تر کرد. علاوه‌براین، پژوهشگران دیپ‌سیک، تکنیک Multi-Head Latent Attention را به‌گونه‌ای بهبود دادند تا با فشرده‌سازی روش‌های ذخیره و بازیابی اطلاعات در مدل، میزان حافظه‌ی موردنیاز برای پردازش درخواست‌ها را به‌طور چشمگیری کاهش دهد. درواقع، جدیدترین مدل دیپ‌سیک به‌قدری بهینه است که توسعه‌ی آن تنها به یک‌دهم قدرت پردازشی مدل Llama 3.1 شرکت متا نیاز داشت.

در سایه‌ی تحریم‌ها؛ دیپ‌سیک از چه سخت‌افزاری استفاده کرد؟

یکی از داغ‌ترین موضوعاتی که درباره‌ی دیپ‌سیک مطرح می‌شود، سخت‌افزاری است که برای توسعه‌ی مدل‌ های زبانی بزرگ از آن‌ها استفاده کرد؛ آن هم در سایه‌ی تحریم‌های آمریکا که توانایی چین در به‌دست‌آوردن و تولید تراشه‌های پیشرفته‌ برای ساخت این مدل‌ها را به‌شدت محدود کرده است.

ممنوعیت صادرات تراشه‌های پیشرفته به چین که به‌طور جدی در اکتبر ۲۰۲۳ آغاز شد، نسبتا جدید است و تأثیر کامل آن هنوز احساس نشده. بااین‌حال، درمورد توسعه‌ی هوش مصنوعی به‌نظر می‌رسد آمریکا و چین رویکردهای متضادی در پیش گرفته‌اند. درحالی‌که آمریکا روی قدرت خام شرط‌بندی بزرگی کرده است (مانند پروژه‌ی ۵۰۰ میلیارد دلاری آلتمن با ترامپ)، دیپ‌سیک به‌دلیل دسترسی به منابع محدود، سراغ بهینه‌سازی رفته است.

دیپ‌سیک می‌گوید به ۱۰هزار تراشه A100 انویدیا دسترسی دارد

دیپ‌سیک در یک مقاله‌ی پژوهشی منتشرشده در آگوست ۲۰۲۴، اعلام کرد که به مجموعه‌ای متشکل از ۱۰,۰۰۰ تراشه‌ی A100 انویدیا دسترسی دارد که صادرات آن‌ها به چین در اکتبر ۲۰۲۲ ممنوع شده بود. در مقاله‌ی دیگری در ماه ژوئن همان سال، دیپ‌سیک اشاره کرد که مدل قدیمی‌تر DeepSeek-V2 با استفاده از خوشه‌هایی از تراشه‌های H800 انویدیا توسعه یافته است. انویدیا این تراشه را برای رعایت قوانین کنترل صادرات آمریکا، با توان پردازشی کمتری تولید کرده است.

منابع دیگر تخمین می‌زنند که دیپ‌سیک احتمالا از چیزی حدود ۵۰,۰۰۰ تراشه‌ی انویدیا برای توسعه‌ی فناوری خود استفاده کرده است. انویدیا از اظهارنظر مستقیم درباره‌ی اینکه دیپ‌سیک دقیقا از کدام تراشه‌های این شرکت استفاده کرده، خودداری کرد؛ بااین‌حال، سخنگوی غول تراشه‌سازی در بیانیه‌ای گفت که «دیپ‌سیک پیشرفت چشمگیری در صنعت هوش مصنوعی» از خود به نمایش گذاشت و اضافه کرد که روش استنتاجی این استارتاپ برای آموزش مدل، «به تعداد قابل‌توجهی از GPU‌های انویدیا و شبکه‌های پردازشی پرقدرت نیاز دارد.»

دانشمند ارشد دیپ‌سیک پیش‌تر کارمند انویدیا بوده

جالب اینکه دانشمند ارشد دیپ‌سیک، زی‌ژنگ پن، که در توسعه‌ی مدل‌های DeepSeek-VL2 و DeepSeek-V3 و DeepSeek-R1 نقش کلیدی داشته، پیش‌تر کارمند انویدیا بوده است. به‌گفته‌ی ژیدینگ یو، دانشمند ارشد تحقیقاتی در انویدیا، «زی‌ژنگ یکی از کارآموزان ما در انویدیا در تابستان ۲۰۲۳ بود. بعدها، زمانی که قصد داشتیم پیشنهاد استخدام تمام‌وقت به او بدهیم، به دیپ‌سیک پیوست. در آن زمان، تیم هوش مصنوعی چندوجهی دیپ‌سیک تنها سه عضو داشت.»

صرف‌نظر از اینکه مدل‌های دیپ‌سیک دقیقا با چه تراشه‌ای توسعه یافته‌اند، به نظر می‌رسد این‌روزها رویکرد متن‌باز در حوزه‌ی هوش مصنوعی درحال کسب نفوذ و محبوبیت بیشتری است؛ این موضوع زنگ خطری برای شرکت‌های بسته‌ای چون OpenAI است که روزی می‌خواست اولین شرکت دنیا باشد که به AGI دست پیدا می‌کند.

چرا دیپ‌سیک دنیا را شگفت‌زده کرد؟

هوش مصنوعی به توان محاسباتی عظیم و هزینه‌های هنگفت نیاز دارد؛ تاحدی که قدرتمندترین مدیران فناوری آمریکا در حال خرید نیروگاه‌های هسته‌ای هستند تا برق موردنیاز مدل‌های هوش مصنوعی خود را تامین کنند.

همین چند وقت پیش، متا اعلام کرد که امسال بیش از ۶۵ میلیارد دلار برای توسعه‌ی هوش مصنوعی هزینه خواهد کرد. اوپن‌ای‌آی هم سال گذشته برآورد کرد که صنعت هوش مصنوعی به تریلیون‌ها دلار سرمایه‌گذاری برای تامین تراشه‌های پیشرفته نیاز دارد.

بنابراین، تصور اینکه مدل‌هایی با عملکرد مشابهِ قدرتمندترین مدل‌های هوش مصنوعی آمریکا می‌توانند با هزینه‌‌ای به‌مراتب کمتر و با تراشه‌هایی به‌مراتب ضعیف‌تر توسعه یابند، درک صنعت از میزان سرمایه‌گذاری موردنیاز در حوزه‌ی هوش مصنوعی را زیرورو کرده است.

هوش مصنوعی منتقدان و مخالفان زیادی دارد، اما حامیانش نوید آینده‌ای پرسود می‌دهند. برای مثال، لیسا سو، مدیرعامل AMD، تاثیر هوش مصنوعی بر زندگی روزمره و پژوهش‌های بشری در آینده را با تاثیر اینترنت، ظهور گوشی‌های هوشمند و فضای ابری یکسان می‌داند و معتقد است آنچه اکنون از هوش مصنوعی می‌بینیم، تنها نوک کوه یخ است.

اگر چنین قدرت متحول‌کننده‌ای بتواند با چنین هزینه‌ی کمی به دست آید، آن‌وقت دنیا با فرصت‌های جدید و البته تهدیدهای جدیدی روبه‌رو خواهد شد.

در این میان، شرکتی که از هیاهوی این تکنولوژی نوظهور بیشترین سود را برده، انویدیا است که تراشه‌های پیشرفته‌ی مورداستفاده‌ی شرکت‌های هوش مصنوعی را تولید می‌کند. تصور سرمایه‌گذاران این بود که در دوران «تب طلای هوش مصنوعی»، خرید سهام انویدیا به‌معنی سرمایه‌گذاری روی شرکتی است که «بیل‌وکلنگ» این صنعت را تولید می‌کند. مهم نیست کدام شرکت درنهایت در رقابت هوش مصنوعی پیروز شود؛ چراکه تمام آن‌ها برای اجرای مدل‌های خود به انبوهی از تراشه‌های انویدیا نیاز خواهند داشت. این تصور کمک کرد در ۲۷ دسامبر ۲۰۲۴، ارزش سهام انویدیا به ۱۳۷ دلار برسد؛ تقریبا ۱۰ برابر ارزش آن در ابتدای ژانویه‌ی ۲۰۲۳.

چطور دیپ‌سیک توانست دستاوردهای چندساله OpenAI را فقط در عرض چند ماه بازتولید کند؟

اما موفقیت دیپ‌سیک این تصور را که باعث افزایش نجومی ارزش سهام انویدیا شد، زیر سؤال می‌برد. اگر این استارتاپ به‌جای آنکه صرفا تراشه‌ی بیشتری بخرد، واقعا راهی پیدا کرده است تا از آن‌ها به‌طور کارآمدتری استفاده کند، شرکت‌های دیگر نیز به همین روش روی خواهند آورد. این تغییر می‌تواند کاهش تقاضا برای پیشرفته‌ترین تراشه‌های انویدیا را در پی داشته باشد؛ چراکه شرکت‌ها همیشه در تلاشند هزینه‌های خود را کاهش دهند.

اما درباره‌ی جنبه‌ی دیگری از ماجرا کمتر صحبت می‌شود؛ این‌که چطور دیپ‌سیک توانست دستاوردهای چندساله‌ی OpenAI را فقط در عرض چند ماه بازتولید کند. اوپن‌ای‌آی شبیه TSMC برای دنیای تراشه، خود را به‌عنوان تنها شرکتی که قادر به ساخت هوش مصنوعی پیشرفته است، معرفی کرده و با این تصویر، حمایت سرمایه‌گذاران را برای ساخت بزرگ‌ترین دیتاسنتر هوش مصنوعی جهان به دست آورده است. اما دستاورد یک‌شبه‌ی دیپ‌سیک نشان می‌دهد برتری‌های فنی دوام چندانی ندارند؛ حتی زمانی‌که شرکت‌ها تلاش می‌کنند روش‌های خود را محرمانه نگه دارند.

بخشی از ارزش شرکت‌های بسته‌ای چون OpenAI به این وابسته است که مردم تصور کنند آن‌ها در حال انجام کارهای بسیار مهمی هستند که از توان بسیاری از شرکت‌ها خارج است. این تصور برای ایجاد هیاهوی تبلیغاتی و جذب سرمایه‌ی بیشتر یا توسعه‌ی پروژه‌های جدید لازم است. اما دیپ‌سیک نشان داد برای رسیدن به جایگاه اوپن‌ای‌آی، نیازی به سرمایه‌‌های صدها میلیون دلاری نیست. عجیب نیست که این موضوع دست‌کم برای چند ساعت، بازار بورس آمریکا را به وحشت انداخت.

موفقیت دیپ‌سیک چه معنایی برای آینده هوش مصنوعی دارد؟

موفقیت دیپ‌سیک نشان داد که ریخت‌وپاش مالی عامل تضمین‌کننده‌ی برتری نیست؛ هرچند برخی از کارشناسان به ادعای این شرکت درمورد هزینه‌ی نهایی آموزش مدل شک دارند و می‌گویند هزینه‌ها بسیار بیشتر از چیزی است که اعلام شده.

برخی احساس می‌کنند محدودیت‌های صادراتی آمریکا شکست خورده و به‌جای کاهش سرعت پیشرفت فناوری چین، آن‌ها را مجبور به نوآوری کرده است. برای برخی هم، موفقیت دیپ‌سیک نشان‌دهنده‌ی از دست رفتن برتری آمریکا در حوزه‌ی هوش مصنوعی است.

عده‌ای معتقدند این وضعیت مقطعی است و بازار بورس و صنعت هوش مصنوعی دوباره به حالت قبل باز می‌گردد؛ اما تعدادی از کارشناسان، این وضعیت را نشانه‌ای از یک تحول فناوری می‌دانند؛ اینکه شرکت‌های هوش مصنوعی به جای تلاش برای ایجاد مدل‌های بزرگ‌تر و پرهزینه‌تر، اکنون بیشتر بر توسعه‌ی قابلیت‌های پیشرفته، مانند استدلال و منطق، متمرکز شده‌اند.



Source link