مدل هوش مصنوعی GPT-4.5 منتشر شد – تک ناک

شرکت OpenAI امشب مدل هوش مصنوعی جدید GPT-4.5 را با اسم رمز Orion به صورت اختصاصی برای کاربران اشتراک ChatGPT Pro منتشر کرد. به گزارش تک‌ناک این مدل که بزرگ‌ترین نسخه تاکنون توسعه‌یافته توسط این شرکت محسوب می‌شود، با استفاده از توان پردازشی و داده‌های بیشتری نسبت به مدل‌های قبلی آموزش دیده است. مدل پیشرفته […]


شرکت OpenAI امشب مدل هوش مصنوعی جدید GPT-4.5 را با اسم رمز Orion به صورت اختصاصی برای کاربران اشتراک ChatGPT Pro منتشر کرد.

به گزارش تک‌ناک این مدل که بزرگ‌ترین نسخه تاکنون توسعه‌یافته توسط این شرکت محسوب می‌شود، با استفاده از توان پردازشی و داده‌های بیشتری نسبت به مدل‌های قبلی آموزش دیده است.

مدل پیشرفته یا صرفاً نسخه‌ای بهینه‌تر؟

با وجود افزایش مقیاس، شرکت OpenAI در مقاله‌ای اعلام کرده که GPT-4.5 را یک مدل پیشرفته در حوزه هوش مصنوعی نمی‌داند. این مدل از امروز برای مشترکان ChatGPT Pro که ماهانه ۲۰۰ دلار پرداخت می‌کنند، در دسترس قرار گرفته و کاربران پلن‌های پولی API نیز می‌توانند از آن استفاده کنند. مشتریانی که در پلن ChatGPT Plus و ChatGPT Team ثبت‌نام کرده‌اند، به گفته سخنگوی شرکت OpenAI در TechCrunch، هفته آینده به این مدل دسترسی خواهند داشت.

مدل جدید بر پایه همان روشی توسعه یافته که شرکت OpenAI در ساخت نسخه‌های قبلی به کار گرفته بودیعنی افزایش قابل‌توجه توان پردازشی و داده‌ها در مرحله پیش‌آموزش بدون نظارت. در نسل‌های قبلی، این رویکرد باعث بهبود عملکرد در زمینه‌هایی مانند ریاضیات، نگارش و کدنویسی شده بود. شرکت OpenAI تأکید دارد که افزایش مقیاس در GPT-4.5 به این مدل «دانش عمیق‌تر از جهان» و «هوش احساسی بالاتر» بخشیده است. با این حال، برخی نشانه‌ها حاکی از آن است که افزایش داده‌ها و پردازش دیگر مانند گذشته، بهبود چشمگیری ایجاد نمی‌کند.

در چندین آزمون هوش مصنوعی، GPT-4.5 عملکردی ضعیف‌تر از مدل‌های جدیدتر شرکت‌های DeepSeek و Anthropic و حتی برخی مدل‌های استدلالی خود شرکت OpenAI داشته است. از سوی دیگر، هزینه اجرای این مدل بسیار بالاست و این شرکت در حال بررسی ادامه ارائه آن در API در بلندمدت است.

در یک پست وبلاگی، شرکت OpenAI اعلام کرد:

«ما GPT-4.5 را به‌عنوان یک پیش‌نمایش پژوهشی منتشر کرده‌ایم تا درک بهتری از نقاط قوت و محدودیت‌های آن داشته باشیم. همچنان در حال بررسی توانایی‌های این مدل هستیم و مشتاقیم ببینیم کاربران چگونه از آن استفاده می‌کنند.»

عملکرد متناقض در بنچمارک‌ها

شرکت OpenAI تأکید کرده که GPT-4.5 قرار نیست جایگزین مستقیم GPT-4o باشد، مدلی که بخش عمده API و ChatGPT را تأمین می‌کند. این مدل از قابلیت‌هایی مانند آپلود فایل و تصویر و ابزار canvas پشتیبانی می‌کند، اما برخی ویژگی‌ها مانند حالت مکالمه دوطرفه واقعی را ندارد.

با این حال، در برخی از بنچمارک‌ها، GPT-4.5 عملکردی بهتر از GPT-4o و سایر مدل‌های موجود نشان داده است. در آزمون SimpleQA که دقت مدل‌ها را در پاسخ به سوالات واقعی می‌سنجد، GPT-4.5 عملکرد بهتری نسبت به GPT-4o و مدل‌های استدلالی o1 و o3-mini داشته است. به گفته شرکت OpenAI، این مدل در مقایسه با بسیاری از مدل‌های دیگر کمتر دچار خطای توهمی می‌شود، به این معنا که احتمال ارائه اطلاعات نادرست در آن کمتر است.

در برخی از بنچمارک‌ها، GPT-4.5 عملکردی بهتر از GPT-4o و سایر مدل‌های موجود نشان داده است.
SimpleQA دقت مدل‌های زبانی بزرگ (LLM) را در پاسخ به سؤالات علمی مستقیم اما چالش‌برانگیز ارزیابی می‌کند.

با این حال، عملکرد این مدل در حوزه کدنویسی متفاوت بوده است. در آزمون SWE-Bench Verified، که مدل‌ها را در حل مسائل برنامه‌نویسی ارزیابی می‌کند، عملکرد GPT-4.5 مشابه GPT-4o و o3-mini بوده اما از مدل‌های deep research شرکت OpenAI و Claude 3.7 Sonnet شرکت Anthropic ضعیف‌تر عمل کرده است. در آزمون دیگری با عنوان SWE-Lancer که توانایی مدل‌ها در توسعه ویژگی‌های نرم‌افزاری را بررسی می‌کند، GPT-4.5 بهتر از GPT-4o و o3-mini عمل کرده اما همچنان پایین‌تر از deep research قرار گرفته است.

در آزمون SWE-Bench Verified، که مدل‌ها را در حل مسائل برنامه‌نویسی ارزیابی می‌کند، عملکرد GPT-4.5 مشابه GPT-4o و o3-mini بوده اما از مدل‌های deep research شرکت OpenAI و Claude 3.7 Sonnet شرکت Anthropic ضعیف‌تر عمل کرده است.
نمودار عملکرد مدل‌های زبانی بزرگ را در ارزیابی SWE-bench نمایش می‌دهد. مدل GPT-4.5 پیش از بهینه‌سازی امتیاز ۳۵٪ و پس از بهینه‌سازی امتیاز ۳۸٪ را کسب کرده است. این نتایج بین ۲ تا ۷ درصد بالاتر از GPT-4o بوده و ۳۰ درصد پایین‌تر از سطح تحقیقاتی عمیق قرار دارد.

در آزمون‌های علمی مانند AIME و GPQA، GPT-4.5 نتوانسته به سطح مدل‌های استدلالی پیشرفته‌ای مانند o3-mini، DeepSeek’s R1 و Claude 3.7 Sonnet برسد، اما در مقایسه با مدل‌های غیر‌استدلالی عملکرد خوبی داشته است.

در آزمون‌های علمی مانند AIME و GPQA، GPT-4.5 نتوانسته به سطح مدل‌های استدلالی پیشرفته‌ای مانند o3-mini، DeepSeek’s R1 و Claude 3.7 Sonnet برسد، اما در مقایسه با مدل‌های غیر‌استدلالی عملکرد خوبی داشته است
نمودار عملکرد مدل‌های مختلف را در آزمون SWE-Lancer Diamond بر اساس معیار pass@1 مقایسه می‌کند. مدل‌های مختلف در دو سناریوی SWE-Lancer Diamond (IC SWE) و SWE-Lancer Diamond (SWE Manager) بررسی شده‌اند که در هر دو مورد، مدل deep research بهترین عملکرد را نشان داده است.

تفاوت در درک نیات انسانی و توانایی‌های خلاقانه

شرکت OpenAI ادعا می‌کند که برخی از برتری‌های GPT-4.5 را نمی‌توان به سادگی در بنچمارک‌ها اندازه‌گیری کرد. این مدل قادر است نیات انسانی را بهتر درک کند، در پاسخ‌های خود لحنی گرم‌تر و طبیعی‌تر داشته باشد و در وظایف خلاقانه مانند نگارش و طراحی بهتر عمل کند.

در یک آزمایش غیررسمی، شرکت OpenAI از GPT-4.5 و دو مدل دیگر، GPT-4o و o3-mini، خواست تا یک اسب تک‌شاخ در فرمت SVG طراحی کنند. از میان این مدل‌ها، فقط GPT-4.5 توانست تصویری قابل‌قبول از یک اسب تک‌شاخ تولید کند.

در یک آزمایش غیررسمی، شرکت OpenAI از GPT-4.5 و دو مدل دیگر، GPT-4o و o3-mini، خواست تا یک اسب تک‌شاخ در فرمت SVG طراحی کنند. از میان این مدل‌ها، فقط GPT-4.5 توانست تصویری قابل‌قبول از یک اسب تک‌شاخ تولید کند

در آزمایشی دیگر، از این مدل‌ها خواسته شد که به جمله «من پس از مردود شدن در آزمون، حال خوبی ندارم» پاسخ دهند. GPT-4o و o3-mini اطلاعات مفیدی ارائه کردند، اما پاسخ GPT-4.5 از نظر اجتماعی مناسب‌ترین و همدلانه‌ترین واکنش را داشت.

شرکت OpenAI در پست وبلاگی خود نوشت:

«ما امیدواریم از طریق این انتشار، تصویر کامل‌تری از توانایی‌های GPT-4.5 به دست آوریم، چرا که می‌دانیم بنچمارک‌های دانشگاهی همیشه نشان‌دهنده کاربرد واقعی مدل‌ها نیستند.»

هوش هیجانی GPT-4.5 در عمل

آیا مدل‌های بزرگ‌تر همچنان پیشرفت می‌کنند؟

شرکت OpenAI ادعا می‌کند که GPT-4.5 «در مرز قابلیت‌های یادگیری بدون نظارت» قرار دارد، اما محدودیت‌های این مدل به نظر می‌رسد که فرضیه ادامه‌دار بودن قوانین مقیاس‌پذیری را زیر سوال می‌برد.

Ilya Sutskever یکی از بنیان‌گذاران شرکت ، در دسامبر گذشته اظهار کرده بود که «ما به سقف داده‌ها رسیده‌ایم» و «پیش‌آموزش به شکل کنونی آن بدون شک پایان خواهد یافت». این نگرانی پیش‌تر نیز توسط سرمایه‌گذاران و پژوهشگران هوش مصنوعی مطرح شده بود.

برای عبور از این چالش، شرکت OpenAI و سایر فعالان این حوزه تمرکز خود را به مدل‌های استدلالی معطوف کرده‌اند. این مدل‌ها نسبت به مدل‌های سنتی زمان و توان پردازشی بیشتری برای حل مسائل صرف می‌کنند، اما دقت بالاتری دارند.

شرکت OpenAI قصد دارد سری GPT را با مدل‌های استدلالی o ترکیب کند و این فرایند از GPT-5 که قرار است اواخر امسال منتشر شود، آغاز خواهد شد. هرچند GPT-4.5 نتوانسته انتظارات را به طور کامل برآورده کند و گزارش شده که هزینه آموزشی بسیار بالایی داشته و چندین بار به تعویق افتاده، اما این مدل احتمالاً به‌عنوان مرحله‌ای میانی برای توسعه نسل بعدی هوش مصنوعی محسوب می‌شود.



منبع: تکنک