مدل Qwen2.5-Max علی‌بابا در بنچمارک‌ها DeepSeek-V3 را پشت‌سر گذاشت

مدل زبانی Qwen2.5-Max شرکت علی‌بابا در آزمایش‌های بنچمارک از هوش مصنوعی DeepSeek-V3 پیشی گرفته است. به گزارش تک‌ناک، شرکت علی‌بابا با معرفی مدل هوش مصنوعی جدید خود، Qwen2.5-Max، موفق شده است تا در بنچمارک‌های مختلف از DeepSeek-V3 پیشی بگیرد. این مدل نه‌تنها عملکرد بهتری از رقیب اصلی خود داشته است؛ بلکه در برخی آزمون‌ها توانسته […]

مدل زبانی Qwen2.5-Max شرکت علی‌بابا در آزمایش‌های بنچمارک از هوش مصنوعی DeepSeek-V3 پیشی گرفته است.

به گزارش تک‌ناک، شرکت علی‌بابا با معرفی مدل هوش مصنوعی جدید خود، Qwen2.5-Max، موفق شده است تا در بنچمارک‌های مختلف از DeepSeek-V3 پیشی بگیرد. این مدل نه‌تنها عملکرد بهتری از رقیب اصلی خود داشته است؛ بلکه در برخی آزمون‌ها توانسته GPT-4o-0806 و Claude-3.5-Sonnet-1022 را نیز پشت‌سر بگذارد

نئووین می‌نویسد که هفته گذشته، اخبار فناوری تحت‌تأثیر دیپ‌سیک قرار گرفتند؛ زیرا این شرکت مدل جدید خود، R1 را معرفی کرد که بهبودهایی در پردازش پرسش‌ها ارائه می‌دهد. پیش‌از این، مدل DeepSeek-V3 که در دسامبر منتشر شده بود، عملکرد چشمگیری در بنچمارک‌ها از خود نشان داد. اکنون، علی‌بابا با معرفی Qwen2.5-Max نه‌تنها DeepSeek-V3 را پشت‌سر گذاشته، بلکه در برخی آزمایش‌ها، GPT-4o-0806 و Claude-3.5-Sonnet-1022 را نیز مغلوب کرده است.

مانند دیپ‌سیک، مدل Qwen2.5-Max نیز به مسائل سیاسی چین حساس است و به این پرسش‌ها پاسخ نمی‌دهد. در Qwen Chat، هنگام تلاش برای طرح این نوع پرسش‌ها، پیام «سقف مجاز پرسش‌ها را رد کرده‌اید» نمایش داده می‌شود؛ اما در‌صورت تغییر موضوع، پاسخ‌ها بدون محدودیت ارائه می‌شوند.

علی‌بابا برای ارزیابی این مدل، آن را با استفاده از چندین آزمون مهم با رقبا مقایسه کرده است:

MMLU-Pro: سنجش دانش ازطریق مسائل سطح دانشگاهی
LiveCodeBench: ارزیابی توانایی کدنویسی
LiveBench: آزمونی جامع برای بررسی قابلیت‌های عمومی
Arena-Hard: مدلی برای ارزیابی میزان تطابق مدل با اولویت‌های انسانی

نتایج این بنچمارک‌ها نشان می‌دهد که Qwen2.5-Max در Arena-Hard با امتیاز ۸۹/۴ در جایگاه نخست ایستاده است و DeepSeek-V3 با امتیاز ۸۵/۵ پس‌از آن قرار دارد. در MMLU-Pro، مدل Claude Sonnet با امتیاز ۷۸ برتری داشته؛ درحالی‌که Qwen2.5-Max با ۷۶.۱ در جایگاه دوم قرار گرفته است. در GPQA-Diamond، مدل Claude با ۶۵ پیشتاز است و Qwen2.5-Max با ۶۰/۱ در رتبه بعدی قرار دارد.

در آزمون LiveCodeBench، مدل Claude با امتیاز ۳۸/۹ کمی بهتر از Qwen2.5-Max با ۳۸/۷ عمل کرده است. با‌این‌حال، در LiveBench، مدل علی‌بابا با کسب امتیاز ۶۲/۲ در مقایسه با دیپ‌سیک با امتیاز ۶۰/۵، عملکرد بهتری نشان داده است.

Qwen2.5-Max اکنون از طریق API در دسترس توسعه‌دهندگان قرار گرفته

این شرکت برخی آزمون‌های دیگر را نیز اجرا کرده است؛ اما به‌دلیل ماهیت بسته مدل‌هایی مانند GPT-4o و Claude، امکان ارزیابی مستقیم آن‌ها فراهم نبوده است. Qwen2.5-Max اکنون ازطریق API در دسترس توسعه‌دهندگان قرار گرفته است تا بتوانند آن را در پلتفرم‌های خود ادغام کنند. کاربران نیز ازطریق Qwen Chat می‌توانند به این مدل دسترسی داشته باشند و از قابلیت‌هایی نظیر Artifacts و تولید تصویر و ویدئو استفاده کنند. گزینه‌ای نیز برای جست‌وجوی وب در نظر گرفته شده که به‌زودی فعال خواهد شد.

با انتشار Qwen2.5-Max، پژوهشگران شرکت‌های فناوری آمریکایی به‌احتمال زیاد تحقیقات جدید علی‌بابا را به‌دقت بررسی خواهند کرد تا راهکارهای بهینه‌تری برای توسعه مدل‌های خود بیابند.

منبع: تکنک

ارسال : jamnews

برچسب ها

این مطلب بدون برچسب می باشد.

ویدیو/ حضور کودکان در جشنواره فیلم فجر؛ از انتقادها تا رویکرد

کودکان یکی از اصلی‌ترین نگرانی‌های کارشناسان حوزه تربیت در سینما، هستند؛ نگرانی‌هایی که در جشنواره فجر دو چندان می‌شود، زیرا نمی‌دانیم با چه فیلم‌هایی در جشنواره روبه‌رو هستیم؛ آیا فیلم صحنه‌های خشونت‌آمیز و ناهنجاری دارد یا نه؟ خبرنگار: مریم همتی / گوینده: رها صلاحی مقدم / تدوینگر: حنانه کرمانی Source link

حل این معما، ۸۰ میلیارد تومان جایزه دارد!

به گزارش خبرآنلاین، بعد از انتشار مطالعه جدیدی که نشان می‌داد شباهت‌های قابل‌توجهی میان نمادهای خط دره سند (خط سند یا خط ایندوس) و نمادهای یافت‌شده روی سفال‌های باستانی تامیل وجود دارد، نخست‌وزیر ایالت تامیل نادو هند، جایزه‌ای برای رمزگشایی این نمادها تعیین کرد. به نقل از زومیت، تمدن دره سند که به تمدن هاراپان […]

ویندوز، اشتراک‌گذاری فایل برای کاربران اندروید را ساده‌تر می‌کند

مایکروسافت ویژگی کاربردی Phone Link را بهبود می‌بخشد تا اشتراک‌گذاری فایل بین ویندوز و گوشی‌های اندرویدی ساده‌تر از گذشته شود. طبق اعلام رسمی مایکروسافت، اپلیکیشن Phone Link به‌همراه آخرین نسخه‌ی ویندوز ۱۱ برای کاربران اینسایدر سه ویژگی جدید باخود به‌همراه دارد. اکنون دارندگان گوشی‌های مجهز به سیستم‌عامل اندروید و iOS می‌توانند از طریق پنجره‌ی اختصاصی […]

کوالکام به‌دنبال تولید تراشه‌های اسنپدراگون X2 است

براساس اسناد حمل‌ونقل، تراشه‌های اسنپدراگون X2 در دست تولید هستند. این تراشه‌های جدید احتمالاً با بهبودهایی در عملکرد و بهره‌وری انرژی همراه خواهند شد. به گزارش تک‌ناک، شرکت کوالکام با عرضه سری تراشه‌های اسنپدراگون X وارد عرصه پردازنده‌های لپ‌تاپ شد و توانست جایگاه درخورتوجهی در این بازار به دست آورد. این تراشه‌ها به‌دلیل توانایی‌های برجسته […]

مدل Qwen2.5-Max علی‌بابا در بنچمارک‌ها DeepSeek-V3 را پشت‌سر گذاشت

نوشته های مشابه

ویدیو/ حضور کودکان در جشنواره فیلم فجر؛ از انتقادها تا رویکرد

حل این معما، ۸۰ میلیارد تومان جایزه دارد!

ویندوز، اشتراک‌گذاری فایل برای کاربران اندروید را ساده‌تر می‌کند

کوالکام به‌دنبال تولید تراشه‌های اسنپدراگون X2 است

ارسال دیدگاه

ویژه خبری

دفاع مقدس نقاط مختلف این حادثه ارزشمند را برجسته کرد

فساد گسترده در کشور مربوط به یک جناح خاص نیست

راه‌آهن “چابهار ـ زاهدان” منطقه را متحول می کند

پیشرفت‌های ایران دوست و دشمن را متعجب کرده است

سیـاسی

دفاع مقدس نقاط مختلف این حادثه ارزشمند را برجسته کرد

ترامپ حاکمیت اسرائیل بر کرانه باختری را اعمال خواهد کرد

مردم دست به‌ دست هم دهند، مردم‌سالاری تشکیل می‌شود

نقض قانون اساسی در بررسی لایحه بودجه در کمیسیون تلفیق!

اقتـصادی

راه‌آهن “چابهار ـ زاهدان” منطقه را متحول می کند

پذیرش بیماران کرونایی در قم افزایش یافت

نخستین گوجه‌فرنگی شبیه به انگور تولید شد

تصویب لایحه بودجه ۹۹ وضعیت معیشتی مردم را بدتر می‌کند

مذهـبی

تمدن نوین اسلامی با تکیه بر حرکت عظیم اربعین ممکن می‌شود

نصب حفاظی با ۳۶ متر طول، پیرامون حرم حضرت عباس (ع)

مجید مجیدی با حضور در مشهد با تولیت آستان قدس دیدار کرد

طرح جدید بانکداری به ربا رسمیت می‌بخشد

فرهنگـی

پیشرفت‌های ایران دوست و دشمن را متعجب کرده است

جامعیت آقای خامنه‌ای در هیچ یک از علمای اسلام نیست

جذب ۲۵ هزار نفر از معلمان حق التدریسی اجرایی خواهد شد

مراسم آغاز سال تحصیلی دانشگاه‌ها در دانشگاه تهران آغاز شد

اجـتماعی