نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
شرکت OpenAI، استارتآپ xAi متعلق به ایلان ماسک را به گمراه کردن مخاطبان در ارائه بنچمارکهای مربوط به هوش مصنوعی Grok 3 متهم کرد. به گزارش تکناک، ایگور بابوشکین، یکی از همبنیانگذاران xAI، این اتهام را رد و از صحت عملکرد شرکت خود دفاع کرده است. بحثها پیرامون بنچمارکهای هوش مصنوعی و نحوه ارائه آنها […]
شرکت OpenAI، استارتآپ xAi متعلق به ایلان ماسک را به گمراه کردن مخاطبان در ارائه بنچمارکهای مربوط به هوش مصنوعی Grok 3 متهم کرد.
به گزارش تکناک، ایگور بابوشکین، یکی از همبنیانگذاران xAI، این اتهام را رد و از صحت عملکرد شرکت خود دفاع کرده است. بحثها پیرامون بنچمارکهای هوش مصنوعی و نحوه ارائه آنها توسط شرکتهای فعال در این حوزه، اکنون به فضای عمومی کشیده شده است.
استارتآپ xAI در وبلاگ رسمی خود نموداری منتشر کرد که عملکرد Grok 3 را در آزمون ریاضی AIME 2025 به نمایش میگذاشت. برخی متخصصان، اعتبار این آزمون را به عنوان یک معیار سنجش هوش مصنوعی زیر سؤال بردهاند، با وجود این، AIME 2025 و نسخههای پیشین آن اغلب برای ارزیابی توانایی ریاضی مدلها به کار میروند.
بر اساس این نمودار و نتایج بنچمارکها، دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، موفق شدهاند مدل o3-mini-high، که بهترین مدل موجود OpenAI است را در آزمون AIME 2025 شکست دهند. اما کارکنان OpenAI در X به سرعت واکنش نشان دادند و تأکید کردند که این نمودار، امتیاز مدل o3-mini-high را در معیار “cons@64” لحاظ نکرده است.
اما “cons@64” چیست؟ این معیار که مخفف “consensus@64” است، به مدل اجازه میدهد ۶۴ بار به هر سؤال پاسخ دهد و در نهایت، پرتکرارترین پاسخ را به عنوان جواب نهایی در نظر میگیرد. این روش اغلب باعث افزایش چشمگیر امتیاز مدلها در بنچمارکها میشود. حذف این معیار از نمودار میتواند این تصور را ایجاد کند که یک مدل از مدل دیگر برتر است، در حالی که در عمل اینگونه نیست.
در معیار “@۱” – که نشاندهنده امتیاز اولیه مدلها در اولین تلاش است – امتیازات Grok 3 Reasoning Beta و Grok 3 mini Reasoning کمتر از امتیاز o3-mini-high است. علاوه بر این، Grok 3 Reasoning Beta حتی اندکی پایینتر از مدل o1 شرکت OpenAI با تنظیمات “medium” قرار میگیرد. با وجود این، xAI همچنان Grok 3 را به عنوان «باهوشترین هوش مصنوعی جهان» معرفی کرده است.
بابوشکین در X استدلال کرد که OpenAI نیز در گذشته نمودارهای مشابهی منتشر کرده است، هرچند که این نمودارها مربوط به مقایسه مدلهای خود شرکت بودهاند. در همین حال، یک تحلیلگر مستقل نموداری دقیقتر منتشر کرده است، که عملکرد تمامی مدلها را در معیار cons@64 نشان میدهد.
با وجود این، همانطور که ناتان لمبرت، محقق هوش مصنوعی اشاره کرده است، شاید مهمترین عامل همچنان نامشخص باشد، اینکه هزینه محاسباتی و مالی هر مدل برای رسیدن به بهترین امتیاز در چه حدی بوده است.
این موضوع نشان میدهد که بنچمارکهای هوش مصنوعی تنها بخش کوچکی از تصویر کلی را نمایش میدهند و اطلاعات کاملی درباره محدودیتها و نقاط قوت مدلها ارائه نمیکنند.
منبع: تکنک
این مطلب بدون برچسب می باشد.
به گزارش خبرآنلاین، هرچند سیمپسونها این سبک از فناوری را ابداع نکردهاند، اما سخت است که شباهت بین هدستهای VR در اپیزود «دوستان و خانواده» (۲۰۱۶) و اپل ویژن پرو را که هشت سال پس از این اپیزود معرفی شد، نادیده بگیریم. به نقل از زومیت، بخش اصلی این اپیزود حول خرید یک هدست VR […]
گروهی از پژوهشگران در مطالعهای جدید برای غلبه بر محدودیتها، ساختار استخوانی گوش داخلی گروههای مختلف نئاندرتال را بررسی کردند. آنها نمونههای پیشانئاندرتال از سیما د لوس اوئسوس را با نئاندرتالهای اولیه کراپینا و نئاندرتالهای کلاسیک مقایسه کردند تا مشخص شود که تنوع ظاهری گونه در طول زمان چگونه تغییر کرده است. نتایج نشان داد […]
صنعت ارزهای دیجیتال در سالهای اخیر رشد چشمگیری داشته است و چشمانداز آینده آن همچنان امیدوار کننده به نظر میرسد. با ادامه گمانهزنیهای فعالان بازار کریپتو درباره روند آینده داراییهای دیجیتال، فرصتهای بالقوهای برای معاملهگران و سرمایهگذاران ایجاد خواهد شد. البته، اولین گام برای خرید و فروش ارزهای دیجیتال، ساخت کیف پول برای ارز دیجیتال […]
به گزارش خبرآنلاین، مجله iSeeCars قیمت بیش از ۳.۸ میلیون خودروی فروخته شده در نیمه دوم سال ۲۰۲۴ در آمریکا را بررسی و آنها را با میزان کارکرد ۳۶۸ میلیون مدل حاضر در مطالعه “خودروهایی با بیشترین کارکرد در سال ۲۰۲۴” مقایسه کرده است. با اینکه قیمت متوسط یک خودروی صفرکیلومتر در آمریکا به حدود […]