مدل Qwen2.5-Max علی‌بابا در بنچمارک‌ها DeepSeek-V3 را پشت‌سر گذاشت

مدل زبانی Qwen2.5-Max شرکت علی‌بابا در آزمایش‌های بنچمارک از هوش مصنوعی DeepSeek-V3 پیشی گرفته است. به گزارش تک‌ناک، شرکت علی‌بابا با معرفی مدل هوش مصنوعی جدید خود، Qwen2.5-Max، موفق شده است تا در بنچمارک‌های مختلف از DeepSeek-V3 پیشی بگیرد. این مدل نه‌تنها عملکرد بهتری از رقیب اصلی خود داشته است؛ بلکه در برخی آزمون‌ها توانسته […]

مدل زبانی Qwen2.5-Max شرکت علی‌بابا در آزمایش‌های بنچمارک از هوش مصنوعی DeepSeek-V3 پیشی گرفته است.

به گزارش تک‌ناک، شرکت علی‌بابا با معرفی مدل هوش مصنوعی جدید خود، Qwen2.5-Max، موفق شده است تا در بنچمارک‌های مختلف از DeepSeek-V3 پیشی بگیرد. این مدل نه‌تنها عملکرد بهتری از رقیب اصلی خود داشته است؛ بلکه در برخی آزمون‌ها توانسته GPT-4o-0806 و Claude-3.5-Sonnet-1022 را نیز پشت‌سر بگذارد

نئووین می‌نویسد که هفته گذشته، اخبار فناوری تحت‌تأثیر دیپ‌سیک قرار گرفتند؛ زیرا این شرکت مدل جدید خود، R1 را معرفی کرد که بهبودهایی در پردازش پرسش‌ها ارائه می‌دهد. پیش‌از این، مدل DeepSeek-V3 که در دسامبر منتشر شده بود، عملکرد چشمگیری در بنچمارک‌ها از خود نشان داد. اکنون، علی‌بابا با معرفی Qwen2.5-Max نه‌تنها DeepSeek-V3 را پشت‌سر گذاشته، بلکه در برخی آزمایش‌ها، GPT-4o-0806 و Claude-3.5-Sonnet-1022 را نیز مغلوب کرده است.

مانند دیپ‌سیک، مدل Qwen2.5-Max نیز به مسائل سیاسی چین حساس است و به این پرسش‌ها پاسخ نمی‌دهد. در Qwen Chat، هنگام تلاش برای طرح این نوع پرسش‌ها، پیام «سقف مجاز پرسش‌ها را رد کرده‌اید» نمایش داده می‌شود؛ اما در‌صورت تغییر موضوع، پاسخ‌ها بدون محدودیت ارائه می‌شوند.

علی‌بابا برای ارزیابی این مدل، آن را با استفاده از چندین آزمون مهم با رقبا مقایسه کرده است:

MMLU-Pro: سنجش دانش ازطریق مسائل سطح دانشگاهی
LiveCodeBench: ارزیابی توانایی کدنویسی
LiveBench: آزمونی جامع برای بررسی قابلیت‌های عمومی
Arena-Hard: مدلی برای ارزیابی میزان تطابق مدل با اولویت‌های انسانی

نتایج این بنچمارک‌ها نشان می‌دهد که Qwen2.5-Max در Arena-Hard با امتیاز ۸۹/۴ در جایگاه نخست ایستاده است و DeepSeek-V3 با امتیاز ۸۵/۵ پس‌از آن قرار دارد. در MMLU-Pro، مدل Claude Sonnet با امتیاز ۷۸ برتری داشته؛ درحالی‌که Qwen2.5-Max با ۷۶.۱ در جایگاه دوم قرار گرفته است. در GPQA-Diamond، مدل Claude با ۶۵ پیشتاز است و Qwen2.5-Max با ۶۰/۱ در رتبه بعدی قرار دارد.

در آزمون LiveCodeBench، مدل Claude با امتیاز ۳۸/۹ کمی بهتر از Qwen2.5-Max با ۳۸/۷ عمل کرده است. با‌این‌حال، در LiveBench، مدل علی‌بابا با کسب امتیاز ۶۲/۲ در مقایسه با دیپ‌سیک با امتیاز ۶۰/۵، عملکرد بهتری نشان داده است.

Qwen2.5-Max اکنون از طریق API در دسترس توسعه‌دهندگان قرار گرفته

این شرکت برخی آزمون‌های دیگر را نیز اجرا کرده است؛ اما به‌دلیل ماهیت بسته مدل‌هایی مانند GPT-4o و Claude، امکان ارزیابی مستقیم آن‌ها فراهم نبوده است. Qwen2.5-Max اکنون ازطریق API در دسترس توسعه‌دهندگان قرار گرفته است تا بتوانند آن را در پلتفرم‌های خود ادغام کنند. کاربران نیز ازطریق Qwen Chat می‌توانند به این مدل دسترسی داشته باشند و از قابلیت‌هایی نظیر Artifacts و تولید تصویر و ویدئو استفاده کنند. گزینه‌ای نیز برای جست‌وجوی وب در نظر گرفته شده که به‌زودی فعال خواهد شد.

با انتشار Qwen2.5-Max، پژوهشگران شرکت‌های فناوری آمریکایی به‌احتمال زیاد تحقیقات جدید علی‌بابا را به‌دقت بررسی خواهند کرد تا راهکارهای بهینه‌تری برای توسعه مدل‌های خود بیابند.

منبع: تکنک

ارسال : jamnews

برچسب ها

این مطلب بدون برچسب می باشد.

مایکروسافت سرفیس USB4 داک و قابلیت‌های جدید سرفیس هاب ۳ را معرفی کرد – تک ناک

مایکروسافت نسخه جدید سرفیس USB4 داک را رونمایی کرد. ابعاد این دستگاه کوچک‌تر و قیمتش ۱۰۰ دلار ارزان‌تر از سرفیس تاندربولت ۴ داک است. به گزارش تک‌ناک، مایکروسافت اخیراً از دو محصول جدید خود برای ارتقای تجربه کاری در محیط‌های تیمی و حرفه‌ای پرده برداشت. این محصولات شامل داک جدید سرفیس USB4 و به‌روزرسانی‌های جدید […]

ریختن ۱۰ تُن سیمان در لانه مورچه و یک نتیجه باورنکردنی / عکس

به گزارش خبرآنلاین، دانشمندانی که این لانه متروکه را برای پژوهش انتخاب کرده بودند در خیالشان نمی‌گنجید که ساختاری چنین شگفت‌انگیز زیر خاک نهفته باشد. شهری بزرگ که ساخته مورچگان است. سه روز صرف تزریق سیمان شد و در پی آن هفته‌ها کار حفاری برای آشکار کردن و بیرون کشیدن لانه پیچیده وقت صرف شد. […]

سرنخ‌های جدیدی از پیدایش حیات با کمک «اُسیریس-رِکس»

ماموریت «اُسیریس-رِکس»(OSIRIS-Rex) ناسا بینش‌های جدیدی را در مورد چگونگی پیدایش حیات به اشتراک گذاشت. به گزارش ایسنا، شرایط برای ظهور حیات در منظومه شمسی، ۴.۵ میلیارد سال پیش به وجود آمده است. به نقل از انگجت، ناسا و شرکای آن اولین اطلاعات را در مورد نمونه‌های جمع‌آوری شده توسط ماموریت «اسیریس-رکس» منتشر کرده‌اند. ناسا در […]

مدل‌های جدید سرفیس پرو ۱۱ و سرفیس لپ‌تاپ ۷ با تراشه اینتل معرفی شدند

مایکروسافت نسخه‌ی اینتلی سرفیس پرو ۱۱ و سرفیس لپ‌تاپ ۷ را معرفی کرد. محصولات جدید ردموندی‌ها از پردازنده‌ی اینتل لونار لیک استفاده می‌کنند. سرفیس پرو ۱۱ و سرفیس لپ‌تاپ ۷ در زمره‌ی کامپیوتر‌های «کوپایلت + پی‌سی» قرار می‌گیرند. مایکروسافت مدل تجاری سرفیس پرو ۱۱ و سرفیس لپ‌تاپ ۷ را با پردازنده‌ی نسل جدید اینتل به […]

مدل Qwen2.5-Max علی‌بابا در بنچمارک‌ها DeepSeek-V3 را پشت‌سر گذاشت

نوشته های مشابه

مایکروسافت سرفیس USB4 داک و قابلیت‌های جدید سرفیس هاب ۳ را معرفی کرد – تک ناک

ریختن ۱۰ تُن سیمان در لانه مورچه و یک نتیجه باورنکردنی / عکس

سرنخ‌های جدیدی از پیدایش حیات با کمک «اُسیریس-رِکس»

مدل‌های جدید سرفیس پرو ۱۱ و سرفیس لپ‌تاپ ۷ با تراشه اینتل معرفی شدند

ارسال دیدگاه

ویژه خبری

دفاع مقدس نقاط مختلف این حادثه ارزشمند را برجسته کرد

فساد گسترده در کشور مربوط به یک جناح خاص نیست

راه‌آهن “چابهار ـ زاهدان” منطقه را متحول می کند

پیشرفت‌های ایران دوست و دشمن را متعجب کرده است

سیـاسی

دفاع مقدس نقاط مختلف این حادثه ارزشمند را برجسته کرد

ترامپ حاکمیت اسرائیل بر کرانه باختری را اعمال خواهد کرد

مردم دست به‌ دست هم دهند، مردم‌سالاری تشکیل می‌شود

نقض قانون اساسی در بررسی لایحه بودجه در کمیسیون تلفیق!

اقتـصادی

راه‌آهن “چابهار ـ زاهدان” منطقه را متحول می کند

پذیرش بیماران کرونایی در قم افزایش یافت

نخستین گوجه‌فرنگی شبیه به انگور تولید شد

تصویب لایحه بودجه ۹۹ وضعیت معیشتی مردم را بدتر می‌کند

مذهـبی

تمدن نوین اسلامی با تکیه بر حرکت عظیم اربعین ممکن می‌شود

نصب حفاظی با ۳۶ متر طول، پیرامون حرم حضرت عباس (ع)

مجید مجیدی با حضور در مشهد با تولیت آستان قدس دیدار کرد

طرح جدید بانکداری به ربا رسمیت می‌بخشد

فرهنگـی

پیشرفت‌های ایران دوست و دشمن را متعجب کرده است

جامعیت آقای خامنه‌ای در هیچ یک از علمای اسلام نیست

جذب ۲۵ هزار نفر از معلمان حق التدریسی اجرایی خواهد شد

مراسم آغاز سال تحصیلی دانشگاه‌ها در دانشگاه تهران آغاز شد

اجـتماعی