نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
به گزارش خبرگزاری خبرآنلاین و براساس گزارش دیجیاتو، محققان گروه «Hao AI Lab» در دانشگاه کالیفرنیا سن دیگو، هوش مصنوعی را وارد دنیای بازیهای کلاسیک کردند و مدلهای هوش مصنوعی مطرح را در نسخهای خاص از «Super Mario Bros» به چالش کشیدند. این نسخه از بازی که در شبیهساز اجرا میشد، به کمک فریمورک داخلی «GamingAgent» […]
به گزارش خبرگزاری خبرآنلاین و براساس گزارش دیجیاتو، محققان گروه «Hao AI Lab» در دانشگاه کالیفرنیا سن دیگو، هوش مصنوعی را وارد دنیای بازیهای کلاسیک کردند و مدلهای هوش مصنوعی مطرح را در نسخهای خاص از «Super Mario Bros» به چالش کشیدند. این نسخه از بازی که در شبیهساز اجرا میشد، به کمک فریمورک داخلی «GamingAgent» به هوش مصنوعی امکان کنترل مستقیم ماریو را میداد.
در این رقابت بین هوش مصنوعیهای شناختهشده، مدل Claude 3.7 از شرکت آنتروپیک بهترین عملکرد را داشت و پس از آن نسخه Claude 3.5 قرار گرفت. مدلهای معروفی مانند جمینای ۱.۵ پرو از گوگل و GPT-4o از OpenAI نتوانستند چندان خوب عمل کنند.
نکته جالب اینکه مدلها برای هدایت ماریو باید دستورات را بهصورت کدهای پایتون تولید میکردند. GamingAgent به مدلها اطلاعات اولیهای مثل اینکه مانع یا دشمن نزدیک است، به چپ بپر و اسکرینشاتهایی از محیط بازی ارائه میکرد. سپس مدلها باید با تحلیل این دادهها، استراتژیهایی برای عبور از موانع، جمعآوری سکهها و پیشرفت در مراحل طراحی میکردند.
یکی از نکات جالب عملکرد ضعیفتر مدلهای مبتنیبر استدلال گامبهگام مانند نسخه GPT-4o reasoning نسبت به مدلهای معمولی بود. برخلاف انتظار، مدلهای استدلالگر که در حل مسائل پیچیدهتر و تفکر منطقی عملکرد بهتری دارند، در محیطهای بلادرنگ (real-time)، مثل بازی سوپر ماریو، با مشکل مواجه شدند. علت اصلی این ضعف زمانبر بودن تصمیمگیری است که گاهی چند ثانیه طول میکشد و در بازیهایی مثل ماریو تفاوت پرش موفق یا سقوط را رقم میزند.
استفاده از بازیها برای بنچمارککردن هوش مصنوعی کار جدیدی نیست و از دههها پیش وجود داشته اما برخی کارشناسان معتقدند مقایسه عملکرد AI در بازیها با پیشرفت واقعی در هوش مصنوعی عمومی گمراهکننده است. بازیها نسبت به دنیای واقعی انتزاعیتر و سادهترند و حجم دادههای در دسترس برای تمرین نیز تقریباً بینهایت است.
این آزمایشهای نمایشی و رقابتهای گیمینگ به بخشی از آن چیزی تبدیل شدهاند که «آندری کارپاتی»، پژوهشگر ارشد و همبنیانگذار OpenAI، آن را بحران ارزیابی توصیف میکند. کارپاتی در پستی در شبکه اجتماعی ایکس نوشت:«راستش را بخواهید، دیگر نمیدانم باید به کدام معیارها نگاه کنم. خلاصه اینکه اصلاً نمیدانم این مدلها دقیقاً چقدر خوباند.»
این آزمایش در شرایطی انجام شده که شرکتها بهدنبال روشهای جدیدی برای ارزیابی هوش مصنوعی فراتر از معیارهای سنتی مثل MMLU یا BIG-bench هستند. بازیهای بلادرنگ شاید معیار کاملی نباشند اما نشان میدهند مدلهای زبانی هنوز در تلفیق سرعت تصمیمگیری و استدلال منطقی، چالشهای اساسی دارند.
۲۲۷۲۲۷
خبر آنلاین
این مطلب بدون برچسب می باشد.
به گزارش خبرگزاری خبرآنلاین و براساس گزارش زومیت، بندر نئوم که در اکساگون، شهری صنعتی، پایدار، آیندهنگر و پیشرفته واقع شده و بخشی از منطقه عظیم نئوم عربستان سعودی با ارزش بیش از چندین تریلیون دلار است، نهتنها بهعنوان مرکز اصلی برای حملونقل و دریافت کالا در منطقه عمل خواهد کرد، بلکه به مرکز پیشرفته جهانی […]
حوزه علم و دانشگاه امروز ۱۴ اسفند شاهد اخبار گوناگونی بود که این گزارش به اختصار به آنها پرداخته است. به گزارش ایسنا، برخی اخبار امروز سرویس علمی و دانشگاهی به اختصار در این گزارش آورده شدهاند. برای مطالعه نسخه کامل خبر کافی است بر روی تیتر آبیرنگ آن کلیک کنید. امنیت زنان در پارکها؛ راهحلهایی برای حضور بیدغدغه […]
طلاین همیشه در حال ارتقای امنیت خود است حضور در چنین رویدادی برای پلتفرمهای حاضر هم یک اقدام چالشی و قابل توجه است. به هر حال آنها وضعیت امنیت محصول خود را در یک رویداد عمومی به نمایش میگذارند. مدیر فنی طلاین که چنین اقدامهایی از سوی طلاین تلاشی برای ایجاد اطمینان خاطر بیشتر در […]
اپل مدل پایه آیپد را با تراشه قدرتمند A16 و حداقل ۱۲۸ گیگابایت فضای ذخیرهسازی و قیمت پایه ۳۴۹ دلار معرفی کرد. به گزارش تکناک، اپل در کنار معرفی آیپد ایر جدید، نسخه بهروزرسانیشدهای از مدل پایه آیپد را رونمایی کرد. در این نسخه، حداقل فضای ذخیرهسازی به ۱۲۸ گیگابایت افزایش یافته و مدلهای ۲۵۶ […]