بازی سوپر ماریو به بنچمارکی برای مقایسه عملکرد مدل‌های هوش مصنوعی تبدیل شد

به گزارش خبرگزاری خبرآنلاین و براساس گزارش دیجیاتو، محققان گروه «Hao AI Lab» در دانشگاه کالیفرنیا سن دیگو، هوش مصنوعی را وارد دنیای بازی‌های کلاسیک کردند و مدل‌های هوش مصنوعی مطرح را در نسخه‌ای خاص از «Super Mario Bros» به چالش کشیدند. این نسخه از بازی که در شبیه‌ساز اجرا می‌شد، به کمک فریم‌ورک داخلی «GamingAgent» […]

عملکرد ضعیف مدل‌های گوگل و OpenAI

در این رقابت بین هوش مصنوعی‌های شناخته‌شده، مدل Claude 3.7 از شرکت آنتروپیک بهترین عملکرد را داشت و پس از آن نسخه Claude 3.5 قرار گرفت. مدل‌های معروفی مانند جمینای ۱.۵ پرو از گوگل و GPT-4o از OpenAI نتوانستند چندان خوب عمل کنند.

نکته جالب اینکه مدل‌ها برای هدایت ماریو باید دستورات را به‌صورت کدهای پایتون تولید می‌کردند. GamingAgent به مدل‌ها اطلاعات اولیه‌ای مثل اینکه مانع یا دشمن نزدیک است، به چپ بپر و اسکرین‌شات‌هایی از محیط بازی ارائه می‌کرد. سپس مدل‌ها باید با تحلیل این داده‌ها، استراتژی‌هایی برای عبور از موانع، جمع‌آوری سکه‌ها و پیشرفت در مراحل طراحی می‌کردند.

یکی از نکات جالب عملکرد ضعیف‌تر مدل‌های مبتنی‌بر استدلال گام‌به‌گام مانند نسخه GPT-4o reasoning نسبت به مدل‌های معمولی بود. برخلاف انتظار، مدل‌های استدلالگر که در حل مسائل پیچیده‌تر و تفکر منطقی عملکرد بهتری دارند، در محیط‌های بلادرنگ (real-time)، مثل بازی سوپر ماریو، با مشکل مواجه شدند. علت اصلی این ضعف زمان‌بر بودن تصمیم‌گیری است که گاهی چند ثانیه طول می‌کشد و در بازی‌هایی مثل ماریو تفاوت پرش موفق یا سقوط را رقم می‌زند.

استفاده از بازی برای مقایسه عملکرد مدل‌های هوش مصنوعی

استفاده از بازی‌ها برای بنچمارک‌کردن هوش مصنوعی کار جدیدی نیست و از دهه‌ها پیش وجود داشته اما برخی کارشناسان معتقدند مقایسه عملکرد AI در بازی‌ها با پیشرفت واقعی در هوش مصنوعی عمومی گمراه‌کننده است. بازی‌ها نسبت به دنیای واقعی انتزاعی‌تر و ساده‌ترند و حجم داده‌های در دسترس برای تمرین نیز تقریباً بی‌نهایت است.

این آزمایش‌های نمایشی و رقابت‌های گیمینگ به بخشی از آن چیزی تبدیل شده‌اند که «آندری کارپاتی»، پژوهشگر ارشد و هم‌بنیان‌گذار OpenAI، آن را بحران ارزیابی توصیف می‌کند. کارپاتی در پستی در شبکه اجتماعی ایکس نوشت:«راستش را بخواهید، دیگر نمی‌دانم باید به کدام معیارها نگاه کنم. خلاصه اینکه اصلاً نمی‌دانم این مدل‌ها دقیقاً چقدر خوب‌اند.»

این آزمایش در شرایطی انجام شده که شرکت‌ها به‌دنبال روش‌های جدیدی برای ارزیابی هوش مصنوعی فراتر از معیارهای سنتی مثل MMLU یا BIG-bench هستند. بازی‌های بلادرنگ شاید معیار کاملی نباشند اما نشان می‌دهند مدل‌های زبانی هنوز در تلفیق سرعت تصمیم‌گیری و استدلال منطقی، چالش‌های اساسی دارند.

۲۲۷۲۲۷

خبر آنلاین

ارسال : jamnews

برچسب ها

این مطلب بدون برچسب می باشد.

بندر نئوم: رویای عربستان برای ساخت ابربندر جهانی

به گزارش خبرگزاری خبرآنلاین و براساس گزارش زومیت، بندر نئوم که در اکساگون، شهری صنعتی، پایدار، آینده‌نگر و پیشرفته واقع شده و بخشی از منطقه عظیم نئوم عربستان سعودی با ارزش بیش از چندین تریلیون دلار است، نه‌تنها به‌عنوان مرکز اصلی برای حمل‌ونقل و دریافت کالا در منطقه عمل خواهد کرد، بلکه به مرکز پیشرفته جهانی […]

از لغو پرتاب «استارشیپ» تا رونمایی از اولین رایانه زیستی جهان

حوزه علم و دانشگاه امروز ۱۴ اسفند شاهد اخبار گوناگونی بود که این گزارش به اختصار به آنها پرداخته است. به گزارش ایسنا، برخی اخبار امروز سرویس علمی و دانشگاهی به اختصار در این گزارش آورده شده‌اند. برای مطالعه نسخه کامل خبر کافی است بر روی تیتر آبی‌رنگ آن کلیک کنید. امنیت زنان در پارک‌ها؛ راه‌حل‌هایی برای حضور بی‌دغدغه […]

گزارشی از «باگ بانتی راورو» و حضور «طلاین» در این رویداد: عیار امنیت شبکه «طلاین» مشخص شد

طلاین همیشه در حال ارتقای امنیت خود است حضور در چنین رویدادی برای پلتفرم‌های حاضر هم یک اقدام چالشی و قابل توجه است. به هر حال آن‌ها وضعیت امنیت محصول خود را در یک رویداد عمومی به نمایش می‌گذارند. مدیر فنی طلاین که چنین اقدام‌هایی از سوی طلاین تلاشی برای ایجاد اطمینان خاطر بیشتر در […]

مدل پایه آیپد با تراشه A16 و حداقل ۱۲۸ گیگابایت فضای ذخیره‌سازی رونمایی شد

اپل مدل پایه آیپد را با تراشه قدرتمند A16 و حداقل ۱۲۸ گیگابایت فضای ذخیره‌سازی و قیمت پایه ۳۴۹ دلار معرفی کرد. به گزارش تک‌ناک، اپل در کنار معرفی آیپد ایر جدید، نسخه به‌روزرسانی‌شده‌ای از مدل پایه آیپد را رونمایی کرد. در این نسخه، حداقل فضای ذخیره‌سازی به ۱۲۸ گیگابایت افزایش یافته و مدل‌های ۲۵۶ […]

بازی سوپر ماریو به بنچمارکی برای مقایسه عملکرد مدل‌های هوش مصنوعی تبدیل شد

عملکرد ضعیف مدل‌های گوگل و OpenAI

استفاده از بازی برای مقایسه عملکرد مدل‌های هوش مصنوعی

نوشته های مشابه

بندر نئوم: رویای عربستان برای ساخت ابربندر جهانی

از لغو پرتاب «استارشیپ» تا رونمایی از اولین رایانه زیستی جهان

گزارشی از «باگ بانتی راورو» و حضور «طلاین» در این رویداد: عیار امنیت شبکه «طلاین» مشخص شد

مدل پایه آیپد با تراشه A16 و حداقل ۱۲۸ گیگابایت فضای ذخیره‌سازی رونمایی شد

ارسال دیدگاه

ویژه خبری

دفاع مقدس نقاط مختلف این حادثه ارزشمند را برجسته کرد

فساد گسترده در کشور مربوط به یک جناح خاص نیست

راه‌آهن “چابهار ـ زاهدان” منطقه را متحول می کند

پیشرفت‌های ایران دوست و دشمن را متعجب کرده است

سیـاسی

دفاع مقدس نقاط مختلف این حادثه ارزشمند را برجسته کرد

ترامپ حاکمیت اسرائیل بر کرانه باختری را اعمال خواهد کرد

مردم دست به‌ دست هم دهند، مردم‌سالاری تشکیل می‌شود

نقض قانون اساسی در بررسی لایحه بودجه در کمیسیون تلفیق!

اقتـصادی

راه‌آهن “چابهار ـ زاهدان” منطقه را متحول می کند

پذیرش بیماران کرونایی در قم افزایش یافت

نخستین گوجه‌فرنگی شبیه به انگور تولید شد

تصویب لایحه بودجه ۹۹ وضعیت معیشتی مردم را بدتر می‌کند

مذهـبی

تمدن نوین اسلامی با تکیه بر حرکت عظیم اربعین ممکن می‌شود

نصب حفاظی با ۳۶ متر طول، پیرامون حرم حضرت عباس (ع)

مجید مجیدی با حضور در مشهد با تولیت آستان قدس دیدار کرد

طرح جدید بانکداری به ربا رسمیت می‌بخشد

فرهنگـی

پیشرفت‌های ایران دوست و دشمن را متعجب کرده است

جامعیت آقای خامنه‌ای در هیچ یک از علمای اسلام نیست

جذب ۲۵ هزار نفر از معلمان حق التدریسی اجرایی خواهد شد

مراسم آغاز سال تحصیلی دانشگاه‌ها در دانشگاه تهران آغاز شد

اجـتماعی

فساد گسترده در کشور مربوط به یک جناح خاص نیست

کشف ۹۱۴ فقره سرقت مربوط به وسایل‌نقلیه در ۴۸ ساعت

پذیرش بیماران کرونایی در قم افزایش یافت

جذب ۲۵ هزار نفر از معلمان حق التدریسی اجرایی خواهد شد

لینک کوتاه

لـیـنـک زیـر را کـپـی کـنـیـد !

https://jam.tamasnews.ir/?p=19252

عملکرد ضعیف مدل‌های گوگل و OpenAI

استفاده از بازی برای مقایسه عملکرد مدل‌های هوش مصنوعی

نوشته های مشابه

ارسال دیدگاه

ویژه خبری

سیـاسی

اقتـصادی

مذهـبی

فرهنگـی

اجـتماعی