نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
شرکت OpenAI، استارتآپ xAi متعلق به ایلان ماسک را به گمراه کردن مخاطبان در ارائه بنچمارکهای مربوط به هوش مصنوعی Grok 3 متهم کرد. به گزارش تکناک، ایگور بابوشکین، یکی از همبنیانگذاران xAI، این اتهام را رد و از صحت عملکرد شرکت خود دفاع کرده است. بحثها پیرامون بنچمارکهای هوش مصنوعی و نحوه ارائه آنها […]
شرکت OpenAI، استارتآپ xAi متعلق به ایلان ماسک را به گمراه کردن مخاطبان در ارائه بنچمارکهای مربوط به هوش مصنوعی Grok 3 متهم کرد.
به گزارش تکناک، ایگور بابوشکین، یکی از همبنیانگذاران xAI، این اتهام را رد و از صحت عملکرد شرکت خود دفاع کرده است. بحثها پیرامون بنچمارکهای هوش مصنوعی و نحوه ارائه آنها توسط شرکتهای فعال در این حوزه، اکنون به فضای عمومی کشیده شده است.
استارتآپ xAI در وبلاگ رسمی خود نموداری منتشر کرد که عملکرد Grok 3 را در آزمون ریاضی AIME 2025 به نمایش میگذاشت. برخی متخصصان، اعتبار این آزمون را به عنوان یک معیار سنجش هوش مصنوعی زیر سؤال بردهاند، با وجود این، AIME 2025 و نسخههای پیشین آن اغلب برای ارزیابی توانایی ریاضی مدلها به کار میروند.
بر اساس این نمودار و نتایج بنچمارکها، دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، موفق شدهاند مدل o3-mini-high، که بهترین مدل موجود OpenAI است را در آزمون AIME 2025 شکست دهند. اما کارکنان OpenAI در X به سرعت واکنش نشان دادند و تأکید کردند که این نمودار، امتیاز مدل o3-mini-high را در معیار “cons@64” لحاظ نکرده است.
اما “cons@64” چیست؟ این معیار که مخفف “consensus@64” است، به مدل اجازه میدهد ۶۴ بار به هر سؤال پاسخ دهد و در نهایت، پرتکرارترین پاسخ را به عنوان جواب نهایی در نظر میگیرد. این روش اغلب باعث افزایش چشمگیر امتیاز مدلها در بنچمارکها میشود. حذف این معیار از نمودار میتواند این تصور را ایجاد کند که یک مدل از مدل دیگر برتر است، در حالی که در عمل اینگونه نیست.
در معیار “@۱” – که نشاندهنده امتیاز اولیه مدلها در اولین تلاش است – امتیازات Grok 3 Reasoning Beta و Grok 3 mini Reasoning کمتر از امتیاز o3-mini-high است. علاوه بر این، Grok 3 Reasoning Beta حتی اندکی پایینتر از مدل o1 شرکت OpenAI با تنظیمات “medium” قرار میگیرد. با وجود این، xAI همچنان Grok 3 را به عنوان «باهوشترین هوش مصنوعی جهان» معرفی کرده است.
بابوشکین در X استدلال کرد که OpenAI نیز در گذشته نمودارهای مشابهی منتشر کرده است، هرچند که این نمودارها مربوط به مقایسه مدلهای خود شرکت بودهاند. در همین حال، یک تحلیلگر مستقل نموداری دقیقتر منتشر کرده است، که عملکرد تمامی مدلها را در معیار cons@64 نشان میدهد.
با وجود این، همانطور که ناتان لمبرت، محقق هوش مصنوعی اشاره کرده است، شاید مهمترین عامل همچنان نامشخص باشد، اینکه هزینه محاسباتی و مالی هر مدل برای رسیدن به بهترین امتیاز در چه حدی بوده است.
این موضوع نشان میدهد که بنچمارکهای هوش مصنوعی تنها بخش کوچکی از تصویر کلی را نمایش میدهند و اطلاعات کاملی درباره محدودیتها و نقاط قوت مدلها ارائه نمیکنند.
منبع: تکنک
این مطلب بدون برچسب می باشد.
سرویس علمی و دانشگاهی ایسنا در روز یکشنبه، ۵ اسفند ماه ۱۴۰۳ میزبان اخبار گوناگونی در حوزههایی همچون علم، پژوهش، فضا، دانشبنیانها، فناوری، هوش مصنوعی و دانشگاهی بود که در اینجا قصد داریم نگاهی به خلاصهای از این اخبار بیندازیم. Source link
به گزارش خبرگزاری خبرآنلاین و به نقل از مرکز ارتباطات و اطلاعرسانی معاونت علمی، فناوری و اقتصاد دانشبنیان ریاست جمهوری، محمدرضا کاشفی، معاون توسعه مدیریت و جذب سرمایه معاونت علمی و فناوری ریاستجمهوری، از کاهش ۵۰درصدی بودجه این معاونت در سال ۱۴۰۴ خبر داد. وی در اینباره گفت: در قانون جهش تولید دانشبنیان، مبحث جدیدی […]
صدهاهزار نفر کارمند دولت فدرال ایالات متحده ۴۸ ساعت فرصت دارند تا گزارشی از فعالیتهای هفتهی گذشتهی خود ارائه دهند؛ درغیراینصورت، پاسخندادن بهعنوان استعفا تلقی خواهد شد. این دستور که تحت نظارت ایلان ماسک و در راستای سیاستهای کاهش هزینهی رئیسجمهور دونالد ترامپ صادر شده، سردرگمی در بسیاری از نهادهای دولتی را در پی داشته […]
یکی از مهمترین چالشهایی که تولیدکنندگان محتوا امروزه با آن مواجه هستند، خلق تصاویری جذاب و منحصربهفرد است که بتوانند توجه مخاطب را به خود جلب کنند. به گزارش تکناک، در عصر فناوریهای پیشرفته امروزی، هوش مصنوعی به یکی از قدرتمندترین ابزارها در حوزههای مختلف تبدیل شده است. یکی از جذابترین کاربردهای این فناوری، توانایی […]