ChatGPT به قابلیت پردازش اطلاعات از برنامه‌های دسکتاپ مک مجهز شد

با قابلیت جدید خواندن برنامه‌های دسکتاپ، ChatGPT یک گام بزرگ به سوی دستیارهای هوش مصنوعی همه‌کاره برداشته است. به گزارش تکناک، این پیشرفت می‌تواند منجر به ایجاد ابزارهای قدرتمندتری شود که بتوانند به صورت خودکار وظایف مختلف را انجام داده و به سوالات پیچیده‌تری پاسخ دهند. شرکت OpenAI اعلام کرد که برنامه دسکتاپ چت‌جی‌پی‌تی برای […]


با قابلیت جدید خواندن برنامه‌های دسکتاپ، ChatGPT یک گام بزرگ به سوی دستیارهای هوش مصنوعی همه‌کاره برداشته است.

به گزارش تکناک، این پیشرفت می‌تواند منجر به ایجاد ابزارهای قدرتمندتری شود که بتوانند به صورت خودکار وظایف مختلف را انجام داده و به سوالات پیچیده‌تری پاسخ دهند.

شرکت OpenAI اعلام کرد که برنامه دسکتاپ چت‌جی‌پی‌تی برای MacOS اکنون قادر به خواندن کد در تعدادی از برنامه‌های کدنویسی مخصوص توسعه‌دهندگان، مانند VS Code، Xcode، TextEdit، Terminal و iTerm2 است.

این قابلیت جدید به توسعه‌دهندگان این امکان را می‌دهد که کد خود را مستقیماً در این برنامه‌ها و بدون نیاز به کپی و پیست کردن آن در چت‌جی‌پی‌تی وارد کنند.

با فعال‌سازی این ویژگی، OpenAI به طور خودکار بخش کدی که کاربر در حال نوشتن یا ویرایش آن است را به همراه درخواست کاربر به ربات چت ارسال می‌کند. این تغییر، روند تعامل با چت‌جی‌پی‌تی را برای توسعه‌دهندگان بسیار آسان‌تر می‌کند، زیرا دیگر نیازی به انتقال دستی کد از محیط برنامه به چت‌جی‌پی‌تی نخواهد بود.

اما برخلاف ابزارهای هوش مصنوعی کدنویسی محبوبی مانند Cursor یا GitHub Copilot، چت‌جی‌پی‌تی در حال حاضر نمی‌تواند به طور مستقیم کد را در برنامه‌های توسعه‌دهندگان وارد کند یا به جای کاربر بنویسد.

با قابلیت جدید خواندن برنامه‌های دسکتاپ، ChatGPT یک گام بزرگ به سوی دستیارهای هوش مصنوعی همه‌کاره برداشته است.

ویژگی جدیدی که با نام «کار با برنامه‌ها» معرفی شده، هنوز به عنوان یک عامل هوش مصنوعی کامل شناخته نمی‌شود. با این حال، OpenAI بیان کرده که آشنا کردن چت‌جی‌پی‌تی با برنامه‌های مختلف، گام مهمی در مسیر توسعه سیستم‌های هوش مصنوعی عامل است. یکی از بزرگترین چالش‌ها در زمینه هوش مصنوعی، ایجاد قابلیت درک صفحه نمایش کامپیوتر و محتوای دیگر برنامه‌ها توسط این سیستم‌ها است.

درحال‌حاضر، این ویژگی به طور خاص بر روی برنامه‌های کدنویسی متمرکز شده است، زیرا دستیارهای کدنویسی هوش مصنوعی به عنوان یکی از پرطرفدارترین کاربردهای مدل‌های زبان بزرگ (LLM) شناخته شده‌اند.

این ویژگی هم‌اکنون برای کاربران Plus و Teams در دسترس است و به زودی برای کاربران Enterprise و Edu نیز عرضه خواهد شد. OpenAI همچنین اعلام کرده که در آینده چت‌جی‌پی‌تی قادر خواهد بود با سایر انواع برنامه‌ها، به ویژه برنامه‌های مبتنی بر متن که برای وظایف نوشتاری کاربرد دارند، همکاری کند.

در یک دمو با تک‌کرانچ، یکی از کارکنان OpenAI برنامه چت‌جی‌پی‌تی و محیط Xcode را باز کرد که پروژه‌ای ساده برای مدل‌سازی منظومه شمسی، بدون زمین، را شامل می‌شد. این کارمند یک تب Xcode در چت‌جی‌پی‌تی انتخاب کرد که به ربات چت دستور می‌دهد به این برنامه نگاه کند و از آن خواسته شد تا «سیاره‌های گمشده را اضافه کند».

ربات چت توانست وظیفه را به خوبی انجام دهد و خط کدی برای نمایش زمین به پروژه اضافه کرد که با فرمت پروژه مطابقت داشت. با این حال، هنوز هم کاربر باید پاسخ چت‌جی‌پی‌تی را به محیط برنامه باز می‌گرداند.

برای شناسایی و خواندن محتویات مختلف برنامه‌ها، OpenAI عمدتاً از MacOS Accessibility API استفاده می‌کند. این ابزار، که به VoiceOver اپل کمک می‌کند، از دو دهه پیش در دسترس است و به طور معمول برای اکثر برنامه‌ها قابل اعتماد است، اما برای برخی برنامه‌ها نیاز به نصب افزونه خاصی دارد. به علاوه، این ویژگی تنها می‌تواند متن را بخواند و قادر به درک عناصر بصری مانند عکس‌ها یا ویدیوها نیست.

با قابلیت جدید خواندن برنامه‌های دسکتاپ، ChatGPT یک گام بزرگ به سوی دستیارهای هوش مصنوعی همه‌کاره برداشته است.

ویژگی «کار با برنامه‌ها» به طور معمول ۲۰۰ خط آخر کد شما را همراه با هر درخواست به چت‌جی‌پی‌تی ارسال می‌کند. در مواردی دیگر، تمام کد در پنجره پیش‌روی شما به عنوان ورودی به ربات چت ارسال می‌شود. کاربران می‌توانند بخش‌هایی از کد را هایلایت کنند تا چت‌جی‌پی‌تی به بخش خاصی از پروژه توجه کند، اما چت‌جی‌پی‌تی همچنین متن‌های اطراف را نیز به ورودی اضافه می‌کند.

در حالی که هنوز مشخص نیست که OpenAI چگونه قصد دارد این ویژگی را به برنامه‌هایی که با خواننده صفحه Apple سازگار نیستند، گسترش دهد، Anthropic، یکی از رقبای OpenAI، سیستمی را معرفی کرده که اسکرین‌شات‌های دسکتاپ کاربر را تجزیه و تحلیل می‌کند تا بتواند سایر برنامه‌ها را نیز درک کند. این سیستم به گونه‌ای عمومی‌تر از یک عامل هوش مصنوعی عمل می‌کند که به APIها وابسته نیست و قادر به انجام وظایف فراتر از خواندن متن است.

الکساندر امبیریکاس سرپرست محصول دسکتاپ OpenAI، در یک جلسه توجیهی با TechCrunch گفت: «این ویژگی قرار نیست یک عامل هوش مصنوعی باشد، بلکه یک راه برای شروع همکاری با ابزارهای کدنویسی است و ابزارهای بیشتری به زودی معرفی خواهند شد. از نظر توسعه عوامل هوش مصنوعی، این یک گام کلیدی است که به چت‌جی‌پی‌تی اجازه می‌دهد تا تمام محتوای شما را درک کرده و به شما در انجام وظایف مختلف کمک کند.»

این پیشرفت به سمت توسعه عامل‌های هوش مصنوعی به ویژه با توجه به گزارش‌های اخیر حاکی از آن است که OpenAI به زودی ابزار هوش مصنوعی عمومی به نام «Operator» را معرفی خواهد کرد. این ابزار قرار است اوایل ۲۰۲۵ منتشر شود و با دیگر تلاش‌ها در زمینه هوش مصنوعی عمومی رقابت کند.

OpenAI ابتدا این ویژگی‌ها را برای MacOS منتشر می‌کند و به نظر می‌رسد که این اقدام قبل از معرفی ادغام چت‌جی‌پی‌تی با اپل در دسامبر صورت می‌گیرد. هنوز زمان عرضه این ویژگی برای سیستم‌عامل ویندوز مشخص نیست.



منبع: تکنک