نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
مدل زبانی Qwen2.5-Max شرکت علیبابا در آزمایشهای بنچمارک از هوش مصنوعی DeepSeek-V3 پیشی گرفته است. به گزارش تکناک، شرکت علیبابا با معرفی مدل هوش مصنوعی جدید خود، Qwen2.5-Max، موفق شده است تا در بنچمارکهای مختلف از DeepSeek-V3 پیشی بگیرد. این مدل نهتنها عملکرد بهتری از رقیب اصلی خود داشته است؛ بلکه در برخی آزمونها توانسته […]
مدل زبانی Qwen2.5-Max شرکت علیبابا در آزمایشهای بنچمارک از هوش مصنوعی DeepSeek-V3 پیشی گرفته است.
به گزارش تکناک، شرکت علیبابا با معرفی مدل هوش مصنوعی جدید خود، Qwen2.5-Max، موفق شده است تا در بنچمارکهای مختلف از DeepSeek-V3 پیشی بگیرد. این مدل نهتنها عملکرد بهتری از رقیب اصلی خود داشته است؛ بلکه در برخی آزمونها توانسته GPT-4o-0806 و Claude-3.5-Sonnet-1022 را نیز پشتسر بگذارد
نئووین مینویسد که هفته گذشته، اخبار فناوری تحتتأثیر دیپسیک قرار گرفتند؛ زیرا این شرکت مدل جدید خود، R1 را معرفی کرد که بهبودهایی در پردازش پرسشها ارائه میدهد. پیشاز این، مدل DeepSeek-V3 که در دسامبر منتشر شده بود، عملکرد چشمگیری در بنچمارکها از خود نشان داد. اکنون، علیبابا با معرفی Qwen2.5-Max نهتنها DeepSeek-V3 را پشتسر گذاشته، بلکه در برخی آزمایشها، GPT-4o-0806 و Claude-3.5-Sonnet-1022 را نیز مغلوب کرده است.
مانند دیپسیک، مدل Qwen2.5-Max نیز به مسائل سیاسی چین حساس است و به این پرسشها پاسخ نمیدهد. در Qwen Chat، هنگام تلاش برای طرح این نوع پرسشها، پیام «سقف مجاز پرسشها را رد کردهاید» نمایش داده میشود؛ اما درصورت تغییر موضوع، پاسخها بدون محدودیت ارائه میشوند.
علیبابا برای ارزیابی این مدل، آن را با استفاده از چندین آزمون مهم با رقبا مقایسه کرده است:
نتایج این بنچمارکها نشان میدهد که Qwen2.5-Max در Arena-Hard با امتیاز ۸۹/۴ در جایگاه نخست ایستاده است و DeepSeek-V3 با امتیاز ۸۵/۵ پساز آن قرار دارد. در MMLU-Pro، مدل Claude Sonnet با امتیاز ۷۸ برتری داشته؛ درحالیکه Qwen2.5-Max با ۷۶.۱ در جایگاه دوم قرار گرفته است. در GPQA-Diamond، مدل Claude با ۶۵ پیشتاز است و Qwen2.5-Max با ۶۰/۱ در رتبه بعدی قرار دارد.
در آزمون LiveCodeBench، مدل Claude با امتیاز ۳۸/۹ کمی بهتر از Qwen2.5-Max با ۳۸/۷ عمل کرده است. بااینحال، در LiveBench، مدل علیبابا با کسب امتیاز ۶۲/۲ در مقایسه با دیپسیک با امتیاز ۶۰/۵، عملکرد بهتری نشان داده است.
این شرکت برخی آزمونهای دیگر را نیز اجرا کرده است؛ اما بهدلیل ماهیت بسته مدلهایی مانند GPT-4o و Claude، امکان ارزیابی مستقیم آنها فراهم نبوده است. Qwen2.5-Max اکنون ازطریق API در دسترس توسعهدهندگان قرار گرفته است تا بتوانند آن را در پلتفرمهای خود ادغام کنند. کاربران نیز ازطریق Qwen Chat میتوانند به این مدل دسترسی داشته باشند و از قابلیتهایی نظیر Artifacts و تولید تصویر و ویدئو استفاده کنند. گزینهای نیز برای جستوجوی وب در نظر گرفته شده که بهزودی فعال خواهد شد.
با انتشار Qwen2.5-Max، پژوهشگران شرکتهای فناوری آمریکایی بهاحتمال زیاد تحقیقات جدید علیبابا را بهدقت بررسی خواهند کرد تا راهکارهای بهینهتری برای توسعه مدلهای خود بیابند.
منبع: تکنک
این مطلب بدون برچسب می باشد.
کودکان یکی از اصلیترین نگرانیهای کارشناسان حوزه تربیت در سینما، هستند؛ نگرانیهایی که در جشنواره فجر دو چندان میشود، زیرا نمیدانیم با چه فیلمهایی در جشنواره روبهرو هستیم؛ آیا فیلم صحنههای خشونتآمیز و ناهنجاری دارد یا نه؟ خبرنگار: مریم همتی / گوینده: رها صلاحی مقدم / تدوینگر: حنانه کرمانی Source link
به گزارش خبرآنلاین، بعد از انتشار مطالعه جدیدی که نشان میداد شباهتهای قابلتوجهی میان نمادهای خط دره سند (خط سند یا خط ایندوس) و نمادهای یافتشده روی سفالهای باستانی تامیل وجود دارد، نخستوزیر ایالت تامیل نادو هند، جایزهای برای رمزگشایی این نمادها تعیین کرد. به نقل از زومیت، تمدن دره سند که به تمدن هاراپان […]
مایکروسافت ویژگی کاربردی Phone Link را بهبود میبخشد تا اشتراکگذاری فایل بین ویندوز و گوشیهای اندرویدی سادهتر از گذشته شود. طبق اعلام رسمی مایکروسافت، اپلیکیشن Phone Link بههمراه آخرین نسخهی ویندوز ۱۱ برای کاربران اینسایدر سه ویژگی جدید باخود بههمراه دارد. اکنون دارندگان گوشیهای مجهز به سیستمعامل اندروید و iOS میتوانند از طریق پنجرهی اختصاصی […]
براساس اسناد حملونقل، تراشههای اسنپدراگون X2 در دست تولید هستند. این تراشههای جدید احتمالاً با بهبودهایی در عملکرد و بهرهوری انرژی همراه خواهند شد. به گزارش تکناک، شرکت کوالکام با عرضه سری تراشههای اسنپدراگون X وارد عرصه پردازندههای لپتاپ شد و توانست جایگاه درخورتوجهی در این بازار به دست آورد. این تراشهها بهدلیل تواناییهای برجسته […]