نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
جدول امتیاز دیپسیک، برتری مدل V3 را در بسیاری از بنچمارکهای کد و ریاضی نشان میدهد مایلز براندیج، پژوهشگر سابق سیاستگذاری در OpenAI، از دو ترفند پیشآموزش و یادگیری تقویتی کارآمدتر بر پایهی استدلال زنجیرهای (Chain-of-Thought Reasoning) نام میبرد. به عبارت سادهتر، دیپسیک از تکنیک نسبتا جدیدی استفاده کرد که به مدل اجازه میداد بهجای […]
جدول امتیاز دیپسیک، برتری مدل V3 را در بسیاری از بنچمارکهای کد و ریاضی نشان میدهد
مایلز براندیج، پژوهشگر سابق سیاستگذاری در OpenAI، از دو ترفند پیشآموزش و یادگیری تقویتی کارآمدتر بر پایهی استدلال زنجیرهای (Chain-of-Thought Reasoning) نام میبرد. به عبارت سادهتر، دیپسیک از تکنیک نسبتا جدیدی استفاده کرد که به مدل اجازه میداد بهجای تقلید صرف از رفتار انسان، مرحلهبهمرحله و از طریق آزمون و خطا (یادگیری تقویتی) مسائل را حل کند. این روش باعث شد مدل بتواند با توان محاسباتی و هزینهی بهمراتب کمتر، به سطح عملکرد مدل o1 اوپنایآی دست یابد.
نسخهی سوم و دوم DeepSeek اساسا از همان نوع مدلهایی هستند که در GPT-4 استفاده شده، اما با مهندسی هوشمندانهتر تا بهرهوری GPUها افزایش یابد. – مایلز براندیج، پژوهشگر سابق سیاستگذاری در OpenAI
نسخهی سوم و دوم DeepSeek اساسا از همان نوع مدلهایی هستند که در GPT-4 استفاده شده، اما با مهندسی هوشمندانهتر تا بهرهوری GPUها افزایش یابد.
– مایلز براندیج، پژوهشگر سابق سیاستگذاری در OpenAI
البته آزمایشگاههای دیگر هم از این روشها استفاده میکنند. برای مثال، روش «Mixture of Experts» که دیپسیک در آموزش مدلهایش استفاده کرده، در GPT-4 نیز به کار گرفته شده است. این روش بهکمک مجموعهای از «متخصصان» (Experts) که هرکدام در پردازش نوع خاصی از دادهها مهارت دارند، فقط بخشهای خاصی از مدل را که برای آن ورودی مفید هستند، فعال میکند تا بدینترتیب در عین افزایش دقت، هزینه و قدرت پردازشی را کاهش دهد.
اما دیپسیک با ایجاد دستهبندیهای تخصصیتر و توسعهی روشی کارآمدتر برای ارتباط میان این بخشها، تکنیک MoE را بهبود داد و کل فرایند آموزش را بهینهتر کرد. علاوهبراین، پژوهشگران دیپسیک، تکنیک Multi-Head Latent Attention را بهگونهای بهبود دادند تا با فشردهسازی روشهای ذخیره و بازیابی اطلاعات در مدل، میزان حافظهی موردنیاز برای پردازش درخواستها را بهطور چشمگیری کاهش دهد. درواقع، جدیدترین مدل دیپسیک بهقدری بهینه است که توسعهی آن تنها به یکدهم قدرت پردازشی مدل Llama 3.1 شرکت متا نیاز داشت.
یکی از داغترین موضوعاتی که دربارهی دیپسیک مطرح میشود، سختافزاری است که برای توسعهی مدل های زبانی بزرگ از آنها استفاده کرد؛ آن هم در سایهی تحریمهای آمریکا که توانایی چین در بهدستآوردن و تولید تراشههای پیشرفته برای ساخت این مدلها را بهشدت محدود کرده است.
ممنوعیت صادرات تراشههای پیشرفته به چین که بهطور جدی در اکتبر ۲۰۲۳ آغاز شد، نسبتا جدید است و تأثیر کامل آن هنوز احساس نشده. بااینحال، درمورد توسعهی هوش مصنوعی بهنظر میرسد آمریکا و چین رویکردهای متضادی در پیش گرفتهاند. درحالیکه آمریکا روی قدرت خام شرطبندی بزرگی کرده است (مانند پروژهی ۵۰۰ میلیارد دلاری آلتمن با ترامپ)، دیپسیک بهدلیل دسترسی به منابع محدود، سراغ بهینهسازی رفته است.
دیپسیک میگوید به ۱۰هزار تراشه A100 انویدیا دسترسی دارد
دیپسیک در یک مقالهی پژوهشی منتشرشده در آگوست ۲۰۲۴، اعلام کرد که به مجموعهای متشکل از ۱۰,۰۰۰ تراشهی A100 انویدیا دسترسی دارد که صادرات آنها به چین در اکتبر ۲۰۲۲ ممنوع شده بود. در مقالهی دیگری در ماه ژوئن همان سال، دیپسیک اشاره کرد که مدل قدیمیتر DeepSeek-V2 با استفاده از خوشههایی از تراشههای H800 انویدیا توسعه یافته است. انویدیا این تراشه را برای رعایت قوانین کنترل صادرات آمریکا، با توان پردازشی کمتری تولید کرده است.
منابع دیگر تخمین میزنند که دیپسیک احتمالا از چیزی حدود ۵۰,۰۰۰ تراشهی انویدیا برای توسعهی فناوری خود استفاده کرده است. انویدیا از اظهارنظر مستقیم دربارهی اینکه دیپسیک دقیقا از کدام تراشههای این شرکت استفاده کرده، خودداری کرد؛ بااینحال، سخنگوی غول تراشهسازی در بیانیهای گفت که «دیپسیک پیشرفت چشمگیری در صنعت هوش مصنوعی» از خود به نمایش گذاشت و اضافه کرد که روش استنتاجی این استارتاپ برای آموزش مدل، «به تعداد قابلتوجهی از GPUهای انویدیا و شبکههای پردازشی پرقدرت نیاز دارد.»
دانشمند ارشد دیپسیک پیشتر کارمند انویدیا بوده
جالب اینکه دانشمند ارشد دیپسیک، زیژنگ پن، که در توسعهی مدلهای DeepSeek-VL2 و DeepSeek-V3 و DeepSeek-R1 نقش کلیدی داشته، پیشتر کارمند انویدیا بوده است. بهگفتهی ژیدینگ یو، دانشمند ارشد تحقیقاتی در انویدیا، «زیژنگ یکی از کارآموزان ما در انویدیا در تابستان ۲۰۲۳ بود. بعدها، زمانی که قصد داشتیم پیشنهاد استخدام تماموقت به او بدهیم، به دیپسیک پیوست. در آن زمان، تیم هوش مصنوعی چندوجهی دیپسیک تنها سه عضو داشت.»
صرفنظر از اینکه مدلهای دیپسیک دقیقا با چه تراشهای توسعه یافتهاند، به نظر میرسد اینروزها رویکرد متنباز در حوزهی هوش مصنوعی درحال کسب نفوذ و محبوبیت بیشتری است؛ این موضوع زنگ خطری برای شرکتهای بستهای چون OpenAI است که روزی میخواست اولین شرکت دنیا باشد که به AGI دست پیدا میکند.
هوش مصنوعی به توان محاسباتی عظیم و هزینههای هنگفت نیاز دارد؛ تاحدی که قدرتمندترین مدیران فناوری آمریکا در حال خرید نیروگاههای هستهای هستند تا برق موردنیاز مدلهای هوش مصنوعی خود را تامین کنند.
همین چند وقت پیش، متا اعلام کرد که امسال بیش از ۶۵ میلیارد دلار برای توسعهی هوش مصنوعی هزینه خواهد کرد. اوپنایآی هم سال گذشته برآورد کرد که صنعت هوش مصنوعی به تریلیونها دلار سرمایهگذاری برای تامین تراشههای پیشرفته نیاز دارد.
بنابراین، تصور اینکه مدلهایی با عملکرد مشابهِ قدرتمندترین مدلهای هوش مصنوعی آمریکا میتوانند با هزینهای بهمراتب کمتر و با تراشههایی بهمراتب ضعیفتر توسعه یابند، درک صنعت از میزان سرمایهگذاری موردنیاز در حوزهی هوش مصنوعی را زیرورو کرده است.
هوش مصنوعی منتقدان و مخالفان زیادی دارد، اما حامیانش نوید آیندهای پرسود میدهند. برای مثال، لیسا سو، مدیرعامل AMD، تاثیر هوش مصنوعی بر زندگی روزمره و پژوهشهای بشری در آینده را با تاثیر اینترنت، ظهور گوشیهای هوشمند و فضای ابری یکسان میداند و معتقد است آنچه اکنون از هوش مصنوعی میبینیم، تنها نوک کوه یخ است.
اگر چنین قدرت متحولکنندهای بتواند با چنین هزینهی کمی به دست آید، آنوقت دنیا با فرصتهای جدید و البته تهدیدهای جدیدی روبهرو خواهد شد.
در این میان، شرکتی که از هیاهوی این تکنولوژی نوظهور بیشترین سود را برده، انویدیا است که تراشههای پیشرفتهی مورداستفادهی شرکتهای هوش مصنوعی را تولید میکند. تصور سرمایهگذاران این بود که در دوران «تب طلای هوش مصنوعی»، خرید سهام انویدیا بهمعنی سرمایهگذاری روی شرکتی است که «بیلوکلنگ» این صنعت را تولید میکند. مهم نیست کدام شرکت درنهایت در رقابت هوش مصنوعی پیروز شود؛ چراکه تمام آنها برای اجرای مدلهای خود به انبوهی از تراشههای انویدیا نیاز خواهند داشت. این تصور کمک کرد در ۲۷ دسامبر ۲۰۲۴، ارزش سهام انویدیا به ۱۳۷ دلار برسد؛ تقریبا ۱۰ برابر ارزش آن در ابتدای ژانویهی ۲۰۲۳.
چطور دیپسیک توانست دستاوردهای چندساله OpenAI را فقط در عرض چند ماه بازتولید کند؟
اما موفقیت دیپسیک این تصور را که باعث افزایش نجومی ارزش سهام انویدیا شد، زیر سؤال میبرد. اگر این استارتاپ بهجای آنکه صرفا تراشهی بیشتری بخرد، واقعا راهی پیدا کرده است تا از آنها بهطور کارآمدتری استفاده کند، شرکتهای دیگر نیز به همین روش روی خواهند آورد. این تغییر میتواند کاهش تقاضا برای پیشرفتهترین تراشههای انویدیا را در پی داشته باشد؛ چراکه شرکتها همیشه در تلاشند هزینههای خود را کاهش دهند.
اما دربارهی جنبهی دیگری از ماجرا کمتر صحبت میشود؛ اینکه چطور دیپسیک توانست دستاوردهای چندسالهی OpenAI را فقط در عرض چند ماه بازتولید کند. اوپنایآی شبیه TSMC برای دنیای تراشه، خود را بهعنوان تنها شرکتی که قادر به ساخت هوش مصنوعی پیشرفته است، معرفی کرده و با این تصویر، حمایت سرمایهگذاران را برای ساخت بزرگترین دیتاسنتر هوش مصنوعی جهان به دست آورده است. اما دستاورد یکشبهی دیپسیک نشان میدهد برتریهای فنی دوام چندانی ندارند؛ حتی زمانیکه شرکتها تلاش میکنند روشهای خود را محرمانه نگه دارند.
بخشی از ارزش شرکتهای بستهای چون OpenAI به این وابسته است که مردم تصور کنند آنها در حال انجام کارهای بسیار مهمی هستند که از توان بسیاری از شرکتها خارج است. این تصور برای ایجاد هیاهوی تبلیغاتی و جذب سرمایهی بیشتر یا توسعهی پروژههای جدید لازم است. اما دیپسیک نشان داد برای رسیدن به جایگاه اوپنایآی، نیازی به سرمایههای صدها میلیون دلاری نیست. عجیب نیست که این موضوع دستکم برای چند ساعت، بازار بورس آمریکا را به وحشت انداخت.
موفقیت دیپسیک نشان داد که ریختوپاش مالی عامل تضمینکنندهی برتری نیست؛ هرچند برخی از کارشناسان به ادعای این شرکت درمورد هزینهی نهایی آموزش مدل شک دارند و میگویند هزینهها بسیار بیشتر از چیزی است که اعلام شده.
برخی احساس میکنند محدودیتهای صادراتی آمریکا شکست خورده و بهجای کاهش سرعت پیشرفت فناوری چین، آنها را مجبور به نوآوری کرده است. برای برخی هم، موفقیت دیپسیک نشاندهندهی از دست رفتن برتری آمریکا در حوزهی هوش مصنوعی است.
عدهای معتقدند این وضعیت مقطعی است و بازار بورس و صنعت هوش مصنوعی دوباره به حالت قبل باز میگردد؛ اما تعدادی از کارشناسان، این وضعیت را نشانهای از یک تحول فناوری میدانند؛ اینکه شرکتهای هوش مصنوعی به جای تلاش برای ایجاد مدلهای بزرگتر و پرهزینهتر، اکنون بیشتر بر توسعهی قابلیتهای پیشرفته، مانند استدلال و منطق، متمرکز شدهاند.
Source link
این مطلب بدون برچسب می باشد.
گسترش رمز ارزها و نفوذ آنها به جریانهای مالی کشورها، دولتها را با چالشهای جدیدی روبهرو کرده است. این داراییهای دیجیتال میتوانند سیاستهای پولی و کنترل نقدینگی در کشورها را دگرگون کنند. به گزارش ایسنا، تحولات عصر دیجیتال و گسترش اینترنت از دهه ۱۹۹۰ میلادی منجر به ظهور تجارت الکترونیک و افزایش کسبوکارهای آنلاین شد. […]
اسیریس رکس در سپتامبر ۲۰۱۶ پرتاب شد و مسافتی به طول ۳۲۰ میلیون کیلومتر را برای رسیدن به بنو پیمود. وقتی فضاپیما به آنجا رسید، نزدیک به دو سال به دور بنو چرخید تا مهندسان پرواز، مکان مناسب برای فرود را شناسایی کنند. اسیریس رکس پس از فرود روی سیارک، انفجاری از نیتروژن را بهوسیلهی […]
مایکروسافت نسخه جدید سرفیس USB4 داک را رونمایی کرد. ابعاد این دستگاه کوچکتر و قیمتش ۱۰۰ دلار ارزانتر از سرفیس تاندربولت ۴ داک است. به گزارش تکناک، مایکروسافت اخیراً از دو محصول جدید خود برای ارتقای تجربه کاری در محیطهای تیمی و حرفهای پرده برداشت. این محصولات شامل داک جدید سرفیس USB4 و بهروزرسانیهای جدید […]
به گزارش خبرآنلاین، دانشمندانی که این لانه متروکه را برای پژوهش انتخاب کرده بودند در خیالشان نمیگنجید که ساختاری چنین شگفتانگیز زیر خاک نهفته باشد. شهری بزرگ که ساخته مورچگان است. سه روز صرف تزریق سیمان شد و در پی آن هفتهها کار حفاری برای آشکار کردن و بیرون کشیدن لانه پیچیده وقت صرف شد. […]