جنجال بر سر بنچمارک‌های Grok 3؛ آیا xAI واقعیت را تحریف کرده است؟

شرکت OpenAI، استارت‌آپ xAi متعلق به ایلان ماسک را به گمراه کردن مخاطبان در ارائه بنچمارک‌های مربوط به هوش مصنوعی Grok 3 متهم کرد. به گزارش تک‌ناک، ایگور بابوشکین، یکی از هم‌بنیان‌گذاران xAI، این اتهام را رد و از صحت عملکرد شرکت خود دفاع کرده است. بحث‌ها پیرامون بنچمارک‌های هوش مصنوعی و نحوه ارائه آنها […]

شرکت OpenAI، استارت‌آپ xAi متعلق به ایلان ماسک را به گمراه کردن مخاطبان در ارائه بنچمارک‌های مربوط به هوش مصنوعی Grok 3 متهم کرد.

به گزارش تک‌ناک، ایگور بابوشکین، یکی از هم‌بنیان‌گذاران xAI، این اتهام را رد و از صحت عملکرد شرکت خود دفاع کرده است. بحث‌ها پیرامون بنچمارک‌های هوش مصنوعی و نحوه ارائه آنها توسط شرکت‌های فعال در این حوزه، اکنون به فضای عمومی کشیده شده است.

استارت‌آپ xAI در وبلاگ رسمی خود نموداری منتشر کرد که عملکرد Grok 3 را در آزمون ریاضی AIME 2025 به نمایش می‌گذاشت. برخی متخصصان، اعتبار این آزمون را به‌ عنوان یک معیار سنجش هوش مصنوعی زیر سؤال برده‌اند، با وجود این‌، AIME 2025 و نسخه‌های پیشین آن اغلب برای ارزیابی توانایی ریاضی مدل‌ها به کار می‌روند.

جنجال بر سر بنچمارک‌های هوش مصنوعی Grok 3

بر اساس این نمودار و نتایج بنچمارک‌ها، دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، موفق شده‌اند مدل o3-mini-high، که بهترین مدل موجود OpenAI است را در آزمون AIME 2025 شکست دهند. اما کارکنان OpenAI در X به سرعت واکنش نشان دادند و تأکید کردند که این نمودار، امتیاز مدل o3-mini-high را در معیار “cons@64” لحاظ نکرده است.

اما “cons@64” چیست؟ این معیار که مخفف “consensus@64” است، به مدل اجازه می‌دهد ۶۴ بار به هر سؤال پاسخ دهد و در نهایت، پرتکرارترین پاسخ را به‌ عنوان جواب نهایی در نظر می‌گیرد. این روش اغلب باعث افزایش چشمگیر امتیاز مدل‌ها در بنچمارک‌ها می‌شود. حذف این معیار از نمودار می‌تواند این تصور را ایجاد کند که یک مدل از مدل دیگر برتر است، در حالی‌ که در عمل اینگونه نیست.

در معیار “@۱” – که نشان‌دهنده امتیاز اولیه مدل‌ها در اولین تلاش است – امتیازات Grok 3 Reasoning Beta و Grok 3 mini Reasoning کمتر از امتیاز o3-mini-high است. علاوه بر این، Grok 3 Reasoning Beta حتی اندکی پایین‌تر از مدل o1 شرکت OpenAI با تنظیمات “medium” قرار می‌گیرد. با وجود این‌، xAI همچنان Grok 3 را به‌ عنوان «باهوش‌ترین هوش مصنوعی جهان» معرفی کرده است.

بابوشکین در X استدلال کرد که OpenAI نیز در گذشته نمودارهای مشابهی منتشر کرده است، هرچند که این نمودارها مربوط به مقایسه مدل‌های خود شرکت بوده‌اند. در همین حال، یک تحلیلگر مستقل نموداری دقیق‌تر منتشر کرده است، که عملکرد تمامی مدل‌ها را در معیار cons@64 نشان می‌دهد.

با وجود این‌، همان‌طور که ناتان لمبرت، محقق هوش مصنوعی اشاره کرده است، شاید مهم‌ترین عامل همچنان نامشخص باشد، اینکه هزینه محاسباتی و مالی هر مدل برای رسیدن به بهترین امتیاز در چه حدی بوده است.

این موضوع نشان می‌دهد که بنچمارک‌های هوش مصنوعی تنها بخش کوچکی از تصویر کلی را نمایش می‌دهند و اطلاعات کاملی درباره محدودیت‌ها و نقاط قوت مدل‌ها ارائه نمی‌کنند.

منبع: تکنک

ارسال : jamnews

برچسب ها

این مطلب بدون برچسب می باشد.

از کاهش بودجه «جیمز وب» تا تاثیر نوع دیابت بر سکته قلبی و مغزی

سرویس علمی و دانشگاهی ایسنا در روز یکشنبه، ۵ اسفند ماه ۱۴۰۳ میزبان اخبار گوناگونی در حوزه‌هایی همچون علم، پژوهش، فضا، دانش‌بنیان‌ها، فناوری، هوش مصنوعی و دانشگاهی بود که در اینجا قصد داریم نگاهی به خلاصه‌ای از این اخبار بیندازیم. Source link

بودجه معاونت علمی کاهش یافت

به گزارش خبرگزاری خبرآنلاین و به نقل از مرکز ارتباطات و اطلاع‌رسانی معاونت علمی، فناوری و اقتصاد دانش‌بنیان ریاست جمهوری، محمدرضا کاشفی، معاون توسعه مدیریت و جذب سرمایه معاونت علمی و فناوری ریاست‌جمهوری، از کاهش ۵۰درصدی بودجه این معاونت در سال ۱۴۰۴ خبر داد. وی در این‌باره گفت: در قانون جهش تولید دانش‌بنیان، مبحث جدیدی […]

شرط عجیب ایلان ماسک برای کارکنان دولت آمریکا خبرساز شد

صدهاهزار نفر کارمند دولت فدرال ایالات متحده ۴۸ ساعت فرصت دارند تا گزارشی از فعالیت‌های هفته‌ی گذشته‌ی خود ارائه دهند؛ درغیراین‌صورت، پاسخ‌ندادن به‌عنوان استعفا تلقی خواهد شد. این دستور که تحت نظارت ایلان ماسک و در راستای سیاست‌های کاهش هزینه‌ی رئیس‌جمهور دونالد ترامپ صادر شده، سردرگمی در بسیاری از نهادهای دولتی را در پی داشته […]

بهترین سایت هوش مصنوعی ساخت عکس – تک ناک

یکی از مهمترین چالش‌هایی که تولیدکنندگان محتوا امروزه با آن مواجه هستند، خلق تصاویری جذاب و منحصر‌به‌فرد است که بتوانند توجه مخاطب را به خود جلب کنند. به گزارش تکناک، در عصر فناوری‌های پیشرفته امروزی، هوش مصنوعی به یکی از قدرتمندترین ابزارها در حوزه‌های مختلف تبدیل شده است. یکی از جذاب‌ترین کاربردهای این فناوری، توانایی […]

جنجال بر سر بنچمارک‌های Grok 3؛ آیا xAI واقعیت را تحریف کرده است؟

نوشته های مشابه

از کاهش بودجه «جیمز وب» تا تاثیر نوع دیابت بر سکته قلبی و مغزی

بودجه معاونت علمی کاهش یافت

شرط عجیب ایلان ماسک برای کارکنان دولت آمریکا خبرساز شد

بهترین سایت هوش مصنوعی ساخت عکس – تک ناک

ارسال دیدگاه

ویژه خبری

دفاع مقدس نقاط مختلف این حادثه ارزشمند را برجسته کرد

فساد گسترده در کشور مربوط به یک جناح خاص نیست

راه‌آهن “چابهار ـ زاهدان” منطقه را متحول می کند

پیشرفت‌های ایران دوست و دشمن را متعجب کرده است

سیـاسی

دفاع مقدس نقاط مختلف این حادثه ارزشمند را برجسته کرد

ترامپ حاکمیت اسرائیل بر کرانه باختری را اعمال خواهد کرد

مردم دست به‌ دست هم دهند، مردم‌سالاری تشکیل می‌شود

نقض قانون اساسی در بررسی لایحه بودجه در کمیسیون تلفیق!

اقتـصادی

راه‌آهن “چابهار ـ زاهدان” منطقه را متحول می کند

پذیرش بیماران کرونایی در قم افزایش یافت

نخستین گوجه‌فرنگی شبیه به انگور تولید شد

تصویب لایحه بودجه ۹۹ وضعیت معیشتی مردم را بدتر می‌کند

مذهـبی

تمدن نوین اسلامی با تکیه بر حرکت عظیم اربعین ممکن می‌شود

نصب حفاظی با ۳۶ متر طول، پیرامون حرم حضرت عباس (ع)

مجید مجیدی با حضور در مشهد با تولیت آستان قدس دیدار کرد

طرح جدید بانکداری به ربا رسمیت می‌بخشد

فرهنگـی

پیشرفت‌های ایران دوست و دشمن را متعجب کرده است

جامعیت آقای خامنه‌ای در هیچ یک از علمای اسلام نیست

جذب ۲۵ هزار نفر از معلمان حق التدریسی اجرایی خواهد شد

مراسم آغاز سال تحصیلی دانشگاه‌ها در دانشگاه تهران آغاز شد

اجـتماعی