نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
مدل زبانی Qwen2.5-Max شرکت علیبابا در آزمایشهای بنچمارک از هوش مصنوعی DeepSeek-V3 پیشی گرفته است. به گزارش تکناک، شرکت علیبابا با معرفی مدل هوش مصنوعی جدید خود، Qwen2.5-Max، موفق شده است تا در بنچمارکهای مختلف از DeepSeek-V3 پیشی بگیرد. این مدل نهتنها عملکرد بهتری از رقیب اصلی خود داشته است؛ بلکه در برخی آزمونها توانسته […]
مدل زبانی Qwen2.5-Max شرکت علیبابا در آزمایشهای بنچمارک از هوش مصنوعی DeepSeek-V3 پیشی گرفته است.
به گزارش تکناک، شرکت علیبابا با معرفی مدل هوش مصنوعی جدید خود، Qwen2.5-Max، موفق شده است تا در بنچمارکهای مختلف از DeepSeek-V3 پیشی بگیرد. این مدل نهتنها عملکرد بهتری از رقیب اصلی خود داشته است؛ بلکه در برخی آزمونها توانسته GPT-4o-0806 و Claude-3.5-Sonnet-1022 را نیز پشتسر بگذارد
نئووین مینویسد که هفته گذشته، اخبار فناوری تحتتأثیر دیپسیک قرار گرفتند؛ زیرا این شرکت مدل جدید خود، R1 را معرفی کرد که بهبودهایی در پردازش پرسشها ارائه میدهد. پیشاز این، مدل DeepSeek-V3 که در دسامبر منتشر شده بود، عملکرد چشمگیری در بنچمارکها از خود نشان داد. اکنون، علیبابا با معرفی Qwen2.5-Max نهتنها DeepSeek-V3 را پشتسر گذاشته، بلکه در برخی آزمایشها، GPT-4o-0806 و Claude-3.5-Sonnet-1022 را نیز مغلوب کرده است.
مانند دیپسیک، مدل Qwen2.5-Max نیز به مسائل سیاسی چین حساس است و به این پرسشها پاسخ نمیدهد. در Qwen Chat، هنگام تلاش برای طرح این نوع پرسشها، پیام «سقف مجاز پرسشها را رد کردهاید» نمایش داده میشود؛ اما درصورت تغییر موضوع، پاسخها بدون محدودیت ارائه میشوند.
علیبابا برای ارزیابی این مدل، آن را با استفاده از چندین آزمون مهم با رقبا مقایسه کرده است:
نتایج این بنچمارکها نشان میدهد که Qwen2.5-Max در Arena-Hard با امتیاز ۸۹/۴ در جایگاه نخست ایستاده است و DeepSeek-V3 با امتیاز ۸۵/۵ پساز آن قرار دارد. در MMLU-Pro، مدل Claude Sonnet با امتیاز ۷۸ برتری داشته؛ درحالیکه Qwen2.5-Max با ۷۶.۱ در جایگاه دوم قرار گرفته است. در GPQA-Diamond، مدل Claude با ۶۵ پیشتاز است و Qwen2.5-Max با ۶۰/۱ در رتبه بعدی قرار دارد.
در آزمون LiveCodeBench، مدل Claude با امتیاز ۳۸/۹ کمی بهتر از Qwen2.5-Max با ۳۸/۷ عمل کرده است. بااینحال، در LiveBench، مدل علیبابا با کسب امتیاز ۶۲/۲ در مقایسه با دیپسیک با امتیاز ۶۰/۵، عملکرد بهتری نشان داده است.
این شرکت برخی آزمونهای دیگر را نیز اجرا کرده است؛ اما بهدلیل ماهیت بسته مدلهایی مانند GPT-4o و Claude، امکان ارزیابی مستقیم آنها فراهم نبوده است. Qwen2.5-Max اکنون ازطریق API در دسترس توسعهدهندگان قرار گرفته است تا بتوانند آن را در پلتفرمهای خود ادغام کنند. کاربران نیز ازطریق Qwen Chat میتوانند به این مدل دسترسی داشته باشند و از قابلیتهایی نظیر Artifacts و تولید تصویر و ویدئو استفاده کنند. گزینهای نیز برای جستوجوی وب در نظر گرفته شده که بهزودی فعال خواهد شد.
با انتشار Qwen2.5-Max، پژوهشگران شرکتهای فناوری آمریکایی بهاحتمال زیاد تحقیقات جدید علیبابا را بهدقت بررسی خواهند کرد تا راهکارهای بهینهتری برای توسعه مدلهای خود بیابند.
منبع: تکنک
این مطلب بدون برچسب می باشد.
مایکروسافت نسخه جدید سرفیس USB4 داک را رونمایی کرد. ابعاد این دستگاه کوچکتر و قیمتش ۱۰۰ دلار ارزانتر از سرفیس تاندربولت ۴ داک است. به گزارش تکناک، مایکروسافت اخیراً از دو محصول جدید خود برای ارتقای تجربه کاری در محیطهای تیمی و حرفهای پرده برداشت. این محصولات شامل داک جدید سرفیس USB4 و بهروزرسانیهای جدید […]
به گزارش خبرآنلاین، دانشمندانی که این لانه متروکه را برای پژوهش انتخاب کرده بودند در خیالشان نمیگنجید که ساختاری چنین شگفتانگیز زیر خاک نهفته باشد. شهری بزرگ که ساخته مورچگان است. سه روز صرف تزریق سیمان شد و در پی آن هفتهها کار حفاری برای آشکار کردن و بیرون کشیدن لانه پیچیده وقت صرف شد. […]
ماموریت «اُسیریس-رِکس»(OSIRIS-Rex) ناسا بینشهای جدیدی را در مورد چگونگی پیدایش حیات به اشتراک گذاشت. به گزارش ایسنا، شرایط برای ظهور حیات در منظومه شمسی، ۴.۵ میلیارد سال پیش به وجود آمده است. به نقل از انگجت، ناسا و شرکای آن اولین اطلاعات را در مورد نمونههای جمعآوری شده توسط ماموریت «اسیریس-رکس» منتشر کردهاند. ناسا در […]
مایکروسافت نسخهی اینتلی سرفیس پرو ۱۱ و سرفیس لپتاپ ۷ را معرفی کرد. محصولات جدید ردموندیها از پردازندهی اینتل لونار لیک استفاده میکنند. سرفیس پرو ۱۱ و سرفیس لپتاپ ۷ در زمرهی کامپیوترهای «کوپایلت + پیسی» قرار میگیرند. مایکروسافت مدل تجاری سرفیس پرو ۱۱ و سرفیس لپتاپ ۷ را با پردازندهی نسل جدید اینتل به […]