نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
جدول امتیاز دیپسیک، برتری مدل V3 را در بسیاری از بنچمارکهای کد و ریاضی نشان میدهد مایلز براندیج، پژوهشگر سابق سیاستگذاری در OpenAI، از دو ترفند پیشآموزش و یادگیری تقویتی کارآمدتر بر پایهی استدلال زنجیرهای (Chain-of-Thought Reasoning) نام میبرد. به عبارت سادهتر، دیپسیک از تکنیک نسبتا جدیدی استفاده کرد که به مدل اجازه میداد بهجای […]
جدول امتیاز دیپسیک، برتری مدل V3 را در بسیاری از بنچمارکهای کد و ریاضی نشان میدهد
مایلز براندیج، پژوهشگر سابق سیاستگذاری در OpenAI، از دو ترفند پیشآموزش و یادگیری تقویتی کارآمدتر بر پایهی استدلال زنجیرهای (Chain-of-Thought Reasoning) نام میبرد. به عبارت سادهتر، دیپسیک از تکنیک نسبتا جدیدی استفاده کرد که به مدل اجازه میداد بهجای تقلید صرف از رفتار انسان، مرحلهبهمرحله و از طریق آزمون و خطا (یادگیری تقویتی) مسائل را حل کند. این روش باعث شد مدل بتواند با توان محاسباتی و هزینهی بهمراتب کمتر، به سطح عملکرد مدل o1 اوپنایآی دست یابد.
نسخهی سوم و دوم DeepSeek اساسا از همان نوع مدلهایی هستند که در GPT-4 استفاده شده، اما با مهندسی هوشمندانهتر تا بهرهوری GPUها افزایش یابد. – مایلز براندیج، پژوهشگر سابق سیاستگذاری در OpenAI
نسخهی سوم و دوم DeepSeek اساسا از همان نوع مدلهایی هستند که در GPT-4 استفاده شده، اما با مهندسی هوشمندانهتر تا بهرهوری GPUها افزایش یابد.
– مایلز براندیج، پژوهشگر سابق سیاستگذاری در OpenAI
البته آزمایشگاههای دیگر هم از این روشها استفاده میکنند. برای مثال، روش «Mixture of Experts» که دیپسیک در آموزش مدلهایش استفاده کرده، در GPT-4 نیز به کار گرفته شده است. این روش بهکمک مجموعهای از «متخصصان» (Experts) که هرکدام در پردازش نوع خاصی از دادهها مهارت دارند، فقط بخشهای خاصی از مدل را که برای آن ورودی مفید هستند، فعال میکند تا بدینترتیب در عین افزایش دقت، هزینه و قدرت پردازشی را کاهش دهد.
اما دیپسیک با ایجاد دستهبندیهای تخصصیتر و توسعهی روشی کارآمدتر برای ارتباط میان این بخشها، تکنیک MoE را بهبود داد و کل فرایند آموزش را بهینهتر کرد. علاوهبراین، پژوهشگران دیپسیک، تکنیک Multi-Head Latent Attention را بهگونهای بهبود دادند تا با فشردهسازی روشهای ذخیره و بازیابی اطلاعات در مدل، میزان حافظهی موردنیاز برای پردازش درخواستها را بهطور چشمگیری کاهش دهد. درواقع، جدیدترین مدل دیپسیک بهقدری بهینه است که توسعهی آن تنها به یکدهم قدرت پردازشی مدل Llama 3.1 شرکت متا نیاز داشت.
یکی از داغترین موضوعاتی که دربارهی دیپسیک مطرح میشود، سختافزاری است که برای توسعهی مدل های زبانی بزرگ از آنها استفاده کرد؛ آن هم در سایهی تحریمهای آمریکا که توانایی چین در بهدستآوردن و تولید تراشههای پیشرفته برای ساخت این مدلها را بهشدت محدود کرده است.
ممنوعیت صادرات تراشههای پیشرفته به چین که بهطور جدی در اکتبر ۲۰۲۳ آغاز شد، نسبتا جدید است و تأثیر کامل آن هنوز احساس نشده. بااینحال، درمورد توسعهی هوش مصنوعی بهنظر میرسد آمریکا و چین رویکردهای متضادی در پیش گرفتهاند. درحالیکه آمریکا روی قدرت خام شرطبندی بزرگی کرده است (مانند پروژهی ۵۰۰ میلیارد دلاری آلتمن با ترامپ)، دیپسیک بهدلیل دسترسی به منابع محدود، سراغ بهینهسازی رفته است.
دیپسیک میگوید به ۱۰هزار تراشه A100 انویدیا دسترسی دارد
دیپسیک در یک مقالهی پژوهشی منتشرشده در آگوست ۲۰۲۴، اعلام کرد که به مجموعهای متشکل از ۱۰,۰۰۰ تراشهی A100 انویدیا دسترسی دارد که صادرات آنها به چین در اکتبر ۲۰۲۲ ممنوع شده بود. در مقالهی دیگری در ماه ژوئن همان سال، دیپسیک اشاره کرد که مدل قدیمیتر DeepSeek-V2 با استفاده از خوشههایی از تراشههای H800 انویدیا توسعه یافته است. انویدیا این تراشه را برای رعایت قوانین کنترل صادرات آمریکا، با توان پردازشی کمتری تولید کرده است.
منابع دیگر تخمین میزنند که دیپسیک احتمالا از چیزی حدود ۵۰,۰۰۰ تراشهی انویدیا برای توسعهی فناوری خود استفاده کرده است. انویدیا از اظهارنظر مستقیم دربارهی اینکه دیپسیک دقیقا از کدام تراشههای این شرکت استفاده کرده، خودداری کرد؛ بااینحال، سخنگوی غول تراشهسازی در بیانیهای گفت که «دیپسیک پیشرفت چشمگیری در صنعت هوش مصنوعی» از خود به نمایش گذاشت و اضافه کرد که روش استنتاجی این استارتاپ برای آموزش مدل، «به تعداد قابلتوجهی از GPUهای انویدیا و شبکههای پردازشی پرقدرت نیاز دارد.»
دانشمند ارشد دیپسیک پیشتر کارمند انویدیا بوده
جالب اینکه دانشمند ارشد دیپسیک، زیژنگ پن، که در توسعهی مدلهای DeepSeek-VL2 و DeepSeek-V3 و DeepSeek-R1 نقش کلیدی داشته، پیشتر کارمند انویدیا بوده است. بهگفتهی ژیدینگ یو، دانشمند ارشد تحقیقاتی در انویدیا، «زیژنگ یکی از کارآموزان ما در انویدیا در تابستان ۲۰۲۳ بود. بعدها، زمانی که قصد داشتیم پیشنهاد استخدام تماموقت به او بدهیم، به دیپسیک پیوست. در آن زمان، تیم هوش مصنوعی چندوجهی دیپسیک تنها سه عضو داشت.»
صرفنظر از اینکه مدلهای دیپسیک دقیقا با چه تراشهای توسعه یافتهاند، به نظر میرسد اینروزها رویکرد متنباز در حوزهی هوش مصنوعی درحال کسب نفوذ و محبوبیت بیشتری است؛ این موضوع زنگ خطری برای شرکتهای بستهای چون OpenAI است که روزی میخواست اولین شرکت دنیا باشد که به AGI دست پیدا میکند.
هوش مصنوعی به توان محاسباتی عظیم و هزینههای هنگفت نیاز دارد؛ تاحدی که قدرتمندترین مدیران فناوری آمریکا در حال خرید نیروگاههای هستهای هستند تا برق موردنیاز مدلهای هوش مصنوعی خود را تامین کنند.
همین چند وقت پیش، متا اعلام کرد که امسال بیش از ۶۵ میلیارد دلار برای توسعهی هوش مصنوعی هزینه خواهد کرد. اوپنایآی هم سال گذشته برآورد کرد که صنعت هوش مصنوعی به تریلیونها دلار سرمایهگذاری برای تامین تراشههای پیشرفته نیاز دارد.
بنابراین، تصور اینکه مدلهایی با عملکرد مشابهِ قدرتمندترین مدلهای هوش مصنوعی آمریکا میتوانند با هزینهای بهمراتب کمتر و با تراشههایی بهمراتب ضعیفتر توسعه یابند، درک صنعت از میزان سرمایهگذاری موردنیاز در حوزهی هوش مصنوعی را زیرورو کرده است.
هوش مصنوعی منتقدان و مخالفان زیادی دارد، اما حامیانش نوید آیندهای پرسود میدهند. برای مثال، لیسا سو، مدیرعامل AMD، تاثیر هوش مصنوعی بر زندگی روزمره و پژوهشهای بشری در آینده را با تاثیر اینترنت، ظهور گوشیهای هوشمند و فضای ابری یکسان میداند و معتقد است آنچه اکنون از هوش مصنوعی میبینیم، تنها نوک کوه یخ است.
اگر چنین قدرت متحولکنندهای بتواند با چنین هزینهی کمی به دست آید، آنوقت دنیا با فرصتهای جدید و البته تهدیدهای جدیدی روبهرو خواهد شد.
در این میان، شرکتی که از هیاهوی این تکنولوژی نوظهور بیشترین سود را برده، انویدیا است که تراشههای پیشرفتهی مورداستفادهی شرکتهای هوش مصنوعی را تولید میکند. تصور سرمایهگذاران این بود که در دوران «تب طلای هوش مصنوعی»، خرید سهام انویدیا بهمعنی سرمایهگذاری روی شرکتی است که «بیلوکلنگ» این صنعت را تولید میکند. مهم نیست کدام شرکت درنهایت در رقابت هوش مصنوعی پیروز شود؛ چراکه تمام آنها برای اجرای مدلهای خود به انبوهی از تراشههای انویدیا نیاز خواهند داشت. این تصور کمک کرد در ۲۷ دسامبر ۲۰۲۴، ارزش سهام انویدیا به ۱۳۷ دلار برسد؛ تقریبا ۱۰ برابر ارزش آن در ابتدای ژانویهی ۲۰۲۳.
چطور دیپسیک توانست دستاوردهای چندساله OpenAI را فقط در عرض چند ماه بازتولید کند؟
اما موفقیت دیپسیک این تصور را که باعث افزایش نجومی ارزش سهام انویدیا شد، زیر سؤال میبرد. اگر این استارتاپ بهجای آنکه صرفا تراشهی بیشتری بخرد، واقعا راهی پیدا کرده است تا از آنها بهطور کارآمدتری استفاده کند، شرکتهای دیگر نیز به همین روش روی خواهند آورد. این تغییر میتواند کاهش تقاضا برای پیشرفتهترین تراشههای انویدیا را در پی داشته باشد؛ چراکه شرکتها همیشه در تلاشند هزینههای خود را کاهش دهند.
اما دربارهی جنبهی دیگری از ماجرا کمتر صحبت میشود؛ اینکه چطور دیپسیک توانست دستاوردهای چندسالهی OpenAI را فقط در عرض چند ماه بازتولید کند. اوپنایآی شبیه TSMC برای دنیای تراشه، خود را بهعنوان تنها شرکتی که قادر به ساخت هوش مصنوعی پیشرفته است، معرفی کرده و با این تصویر، حمایت سرمایهگذاران را برای ساخت بزرگترین دیتاسنتر هوش مصنوعی جهان به دست آورده است. اما دستاورد یکشبهی دیپسیک نشان میدهد برتریهای فنی دوام چندانی ندارند؛ حتی زمانیکه شرکتها تلاش میکنند روشهای خود را محرمانه نگه دارند.
بخشی از ارزش شرکتهای بستهای چون OpenAI به این وابسته است که مردم تصور کنند آنها در حال انجام کارهای بسیار مهمی هستند که از توان بسیاری از شرکتها خارج است. این تصور برای ایجاد هیاهوی تبلیغاتی و جذب سرمایهی بیشتر یا توسعهی پروژههای جدید لازم است. اما دیپسیک نشان داد برای رسیدن به جایگاه اوپنایآی، نیازی به سرمایههای صدها میلیون دلاری نیست. عجیب نیست که این موضوع دستکم برای چند ساعت، بازار بورس آمریکا را به وحشت انداخت.
موفقیت دیپسیک نشان داد که ریختوپاش مالی عامل تضمینکنندهی برتری نیست؛ هرچند برخی از کارشناسان به ادعای این شرکت درمورد هزینهی نهایی آموزش مدل شک دارند و میگویند هزینهها بسیار بیشتر از چیزی است که اعلام شده.
برخی احساس میکنند محدودیتهای صادراتی آمریکا شکست خورده و بهجای کاهش سرعت پیشرفت فناوری چین، آنها را مجبور به نوآوری کرده است. برای برخی هم، موفقیت دیپسیک نشاندهندهی از دست رفتن برتری آمریکا در حوزهی هوش مصنوعی است.
عدهای معتقدند این وضعیت مقطعی است و بازار بورس و صنعت هوش مصنوعی دوباره به حالت قبل باز میگردد؛ اما تعدادی از کارشناسان، این وضعیت را نشانهای از یک تحول فناوری میدانند؛ اینکه شرکتهای هوش مصنوعی به جای تلاش برای ایجاد مدلهای بزرگتر و پرهزینهتر، اکنون بیشتر بر توسعهی قابلیتهای پیشرفته، مانند استدلال و منطق، متمرکز شدهاند.
Source link
این مطلب بدون برچسب می باشد.
سال ۲۰۲۴ برای دنیای فناوری، مخصوصاً بهخاطر گسترش فناوریهای مبتنیبر هوش مصنوعی، سال پرهیاهویی بود. گوگل نیز از این قافله عقب نماند و با تزریق سیستمهای جمنای خود به اکثر محصولات و سرویسهایش، رویکردی همهجانبه را در پیش گرفت. این موضوع شامل تیمهای امنیتی گوگل نیز میشود. تیم امنیتی گوگلپلی اخیراً گزارش سالانهی خود را […]
جدیدین درایور کارت گرافیک انویدیا به کاربران اجازه میدهد تا قابلیت DLSS 4 را در بازیها و اپلیکیشنها فعال کنند و عملکرد و کیفیت گرافیکی را بهبود ببخشند. به گزارش تکناک، انویدیا امروز کارت های گرافیک نسل جدید RTX 5090 و RTX 5080 را عرضه و در کنار آن، درایور جدیدی با نسخهی ۵۷۲.۱۶ را […]
به گزارش خبرآنلاین، کمپانی متا (مالک فیسبوک و اینستاگرام) با اینکه غرامت میپردازد اما نپذیرفت که مرتکب خلاف شده است. به نقل از بیبیسی، متا حسابهای فیسبوک و اینستاگرام ترامپ را چهار سال قبل پس از حمله طرفدارانش به کنگره آمریکا غیرفعال کرد. ترامپ در پایان دوره اول ریاست جمهوری خود از این شرکت شکایت […]
جزئیات و شرایط پذیرش دانشجوی دکتری بدون آزمون تحصیلی ۱۴۰۵-۱۴۰۴ سال تحصیلی دانشگاه علم و صنعت اعلام شد. به گزارش ایسنا، دانشگاه علم و صنعت ایران اعلام کرد؛ درخواست دانش آموختگان ممتاز کارشناسی ارشد برای ورود به دوره دکتری بدون آزمون استعدادهای درخشان را در سال تحصیلی ۱۴۰۵-۱۴۰۴ بر اساس ضوابط وزارت علوم، تحقیقات و […]