جنجال بر سر بنچمارک‌های Grok 3؛ آیا xAI واقعیت را تحریف کرده است؟

شرکت OpenAI، استارت‌آپ xAi متعلق به ایلان ماسک را به گمراه کردن مخاطبان در ارائه بنچمارک‌های مربوط به هوش مصنوعی Grok 3 متهم کرد. به گزارش تک‌ناک، ایگور بابوشکین، یکی از هم‌بنیان‌گذاران xAI، این اتهام را رد و از صحت عملکرد شرکت خود دفاع کرده است. بحث‌ها پیرامون بنچمارک‌های هوش مصنوعی و نحوه ارائه آنها […]

شرکت OpenAI، استارت‌آپ xAi متعلق به ایلان ماسک را به گمراه کردن مخاطبان در ارائه بنچمارک‌های مربوط به هوش مصنوعی Grok 3 متهم کرد.

به گزارش تک‌ناک، ایگور بابوشکین، یکی از هم‌بنیان‌گذاران xAI، این اتهام را رد و از صحت عملکرد شرکت خود دفاع کرده است. بحث‌ها پیرامون بنچمارک‌های هوش مصنوعی و نحوه ارائه آنها توسط شرکت‌های فعال در این حوزه، اکنون به فضای عمومی کشیده شده است.

استارت‌آپ xAI در وبلاگ رسمی خود نموداری منتشر کرد که عملکرد Grok 3 را در آزمون ریاضی AIME 2025 به نمایش می‌گذاشت. برخی متخصصان، اعتبار این آزمون را به‌ عنوان یک معیار سنجش هوش مصنوعی زیر سؤال برده‌اند، با وجود این‌، AIME 2025 و نسخه‌های پیشین آن اغلب برای ارزیابی توانایی ریاضی مدل‌ها به کار می‌روند.

جنجال بر سر بنچمارک‌های هوش مصنوعی Grok 3

بر اساس این نمودار و نتایج بنچمارک‌ها، دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، موفق شده‌اند مدل o3-mini-high، که بهترین مدل موجود OpenAI است را در آزمون AIME 2025 شکست دهند. اما کارکنان OpenAI در X به سرعت واکنش نشان دادند و تأکید کردند که این نمودار، امتیاز مدل o3-mini-high را در معیار “cons@64” لحاظ نکرده است.

اما “cons@64” چیست؟ این معیار که مخفف “consensus@64” است، به مدل اجازه می‌دهد ۶۴ بار به هر سؤال پاسخ دهد و در نهایت، پرتکرارترین پاسخ را به‌ عنوان جواب نهایی در نظر می‌گیرد. این روش اغلب باعث افزایش چشمگیر امتیاز مدل‌ها در بنچمارک‌ها می‌شود. حذف این معیار از نمودار می‌تواند این تصور را ایجاد کند که یک مدل از مدل دیگر برتر است، در حالی‌ که در عمل اینگونه نیست.

در معیار “@۱” – که نشان‌دهنده امتیاز اولیه مدل‌ها در اولین تلاش است – امتیازات Grok 3 Reasoning Beta و Grok 3 mini Reasoning کمتر از امتیاز o3-mini-high است. علاوه بر این، Grok 3 Reasoning Beta حتی اندکی پایین‌تر از مدل o1 شرکت OpenAI با تنظیمات “medium” قرار می‌گیرد. با وجود این‌، xAI همچنان Grok 3 را به‌ عنوان «باهوش‌ترین هوش مصنوعی جهان» معرفی کرده است.

بابوشکین در X استدلال کرد که OpenAI نیز در گذشته نمودارهای مشابهی منتشر کرده است، هرچند که این نمودارها مربوط به مقایسه مدل‌های خود شرکت بوده‌اند. در همین حال، یک تحلیلگر مستقل نموداری دقیق‌تر منتشر کرده است، که عملکرد تمامی مدل‌ها را در معیار cons@64 نشان می‌دهد.

با وجود این‌، همان‌طور که ناتان لمبرت، محقق هوش مصنوعی اشاره کرده است، شاید مهم‌ترین عامل همچنان نامشخص باشد، اینکه هزینه محاسباتی و مالی هر مدل برای رسیدن به بهترین امتیاز در چه حدی بوده است.

این موضوع نشان می‌دهد که بنچمارک‌های هوش مصنوعی تنها بخش کوچکی از تصویر کلی را نمایش می‌دهند و اطلاعات کاملی درباره محدودیت‌ها و نقاط قوت مدل‌ها ارائه نمی‌کنند.

منبع: تکنک

ارسال : jamnews

برچسب ها

این مطلب بدون برچسب می باشد.

سیمپسون‌ها قبل از اپل، ویژن پرو داشتند

به گزارش خبرآنلاین، هرچند سیمپسون‌ها این سبک از فناوری را ابداع نکرده‌اند، اما سخت است که شباهت بین هدست‌های VR در اپیزود «دوستان و خانواده» (۲۰۱۶) و اپل ویژن پرو را که هشت سال پس از این اپیزود معرفی شد، نادیده بگیریم. به نقل از زومیت، بخش اصلی این اپیزود حول خرید یک هدست VR […]

روایت انقراض؛ بحران جمعیت چگونه نئاندرتال‌ها را به آستانه نابودی کشاند؟

گروهی از پژوهشگران در مطالعه‌ای جدید برای غلبه بر محدودیت‌ها، ساختار استخوانی گوش داخلی گروه‌های مختلف نئاندرتال را بررسی کردند. آن‌ها نمونه‌های پیشانئاندرتال از سیما د لوس اوئسوس را با نئاندرتال‌های اولیه کراپینا و نئاندرتال‌های کلاسیک مقایسه کردند تا مشخص شود که تنوع ظاهری گونه در طول زمان چگونه تغییر کرده است. نتایج نشان داد […]

چگونه کیف پول ارز دیجیتال بسازیم؟ – تک ناک

صنعت ارزهای دیجیتال در سال‌های اخیر رشد چشمگیری داشته است و چشم‌انداز آینده آن همچنان امیدوار کننده به نظر می‌رسد. با ادامه گمانه‌زنی‌های فعالان بازار کریپتو درباره روند آینده دارایی‌های دیجیتال، فرصت‌های بالقوه‌ای برای معامله‌گران و سرمایه‌گذاران ایجاد خواهد شد. البته، اولین گام برای خرید و فروش ارزهای دیجیتال، ساخت کیف پول برای ارز دیجیتال […]

مطمئن‌ترین خودروها به نسبت مبلغ پرداختی

به گزارش خبرآنلاین، مجله iSeeCars قیمت بیش از ۳.۸ میلیون خودروی فروخته شده در نیمه دوم سال ۲۰۲۴ در آمریکا را بررسی و آن‌ها را با میزان کارکرد ۳۶۸ میلیون مدل حاضر در مطالعه “خودروهایی با بیشترین کارکرد در سال ۲۰۲۴” مقایسه کرده است. با اینکه قیمت متوسط یک خودروی صفرکیلومتر در آمریکا به حدود […]

جنجال بر سر بنچمارک‌های Grok 3؛ آیا xAI واقعیت را تحریف کرده است؟

نوشته های مشابه

سیمپسون‌ها قبل از اپل، ویژن پرو داشتند

روایت انقراض؛ بحران جمعیت چگونه نئاندرتال‌ها را به آستانه نابودی کشاند؟

چگونه کیف پول ارز دیجیتال بسازیم؟ – تک ناک

مطمئن‌ترین خودروها به نسبت مبلغ پرداختی

ارسال دیدگاه

ویژه خبری

دفاع مقدس نقاط مختلف این حادثه ارزشمند را برجسته کرد

فساد گسترده در کشور مربوط به یک جناح خاص نیست

راه‌آهن “چابهار ـ زاهدان” منطقه را متحول می کند

پیشرفت‌های ایران دوست و دشمن را متعجب کرده است

سیـاسی

دفاع مقدس نقاط مختلف این حادثه ارزشمند را برجسته کرد

ترامپ حاکمیت اسرائیل بر کرانه باختری را اعمال خواهد کرد

مردم دست به‌ دست هم دهند، مردم‌سالاری تشکیل می‌شود

نقض قانون اساسی در بررسی لایحه بودجه در کمیسیون تلفیق!

اقتـصادی

راه‌آهن “چابهار ـ زاهدان” منطقه را متحول می کند

پذیرش بیماران کرونایی در قم افزایش یافت

نخستین گوجه‌فرنگی شبیه به انگور تولید شد

تصویب لایحه بودجه ۹۹ وضعیت معیشتی مردم را بدتر می‌کند

مذهـبی

تمدن نوین اسلامی با تکیه بر حرکت عظیم اربعین ممکن می‌شود

نصب حفاظی با ۳۶ متر طول، پیرامون حرم حضرت عباس (ع)

مجید مجیدی با حضور در مشهد با تولیت آستان قدس دیدار کرد

طرح جدید بانکداری به ربا رسمیت می‌بخشد

فرهنگـی

پیشرفت‌های ایران دوست و دشمن را متعجب کرده است

جامعیت آقای خامنه‌ای در هیچ یک از علمای اسلام نیست

جذب ۲۵ هزار نفر از معلمان حق التدریسی اجرایی خواهد شد

مراسم آغاز سال تحصیلی دانشگاه‌ها در دانشگاه تهران آغاز شد

اجـتماعی