وقتی هوش مصنوعی فراموش می‌کند؛ همه‌چیز درباره فراموشی ماشین

در این تکنیک تفاوت بین مدل بازآموزی شده (بدون داده موردنظر) و مدل اولیه را به حداقل می‌رسد و توزیع نموداری نزدیکی را از هر دو آن‌ها دریافت می‌کند. فرض کنید کسی می‌خواهد داده‌ی شخصی او از مدل پاک شود. اگر روش حریم شخصی درست پیاده شده باشد، وقتی آن داده را از مدل حذف […]


در این تکنیک تفاوت بین مدل بازآموزی شده (بدون داده موردنظر) و مدل اولیه را به حداقل می‌رسد و توزیع نموداری نزدیکی را از هر دو آن‌ها دریافت می‌کند.

فرض کنید کسی می‌خواهد داده‌ی شخصی او از مدل پاک شود. اگر روش حریم شخصی درست پیاده شده باشد، وقتی آن داده را از مدل حذف کنیم، مدل همچنان همان رفتار قبلی را نشان می‌دهد؛ انگار هیچ‌وقت داده‌ی مذکور را یاد نگرفته است. به‌این‌ترتیب اصولاً نیازی به «فراموشی» خاصی نیست چون خود مدل طوری طراحی شده که اثر آن داده خاص را به‌سختی بروز دهد.

یکی از روش‌های معمول اجرای DP، اضافه‌کردن نویز به داده‌ها است: هنگامی‌که می‌خواهیم مدل را تعلیم دهیم، به داده‌ها کمی نویز اضافه می‌کنیم تا اثر هر داده‌ی خاص را کم‌رنگ‌تر کنیم.

در مثالی ساده فرض کنید وقتی مدل دارد چیزی را از جمله‌ای یاد می‌گیرد، چند کلمه‌ی بی‌ربط و اضافه نیز وارد جمله شود. اگر بعدها بخواهیم آن جمله را حذف کنیم، ازآنجاکه نویز تأثیر کلی داده‌ها را کاهش داده، مدل تغییر چندانی حس نمی‌کند.

با افزودن نویز به داده‌های آموزشی، تأثیر هر داده در خروجی کاهش می‌یابد

از نظر فنی در این روش ابتدا برای کاهش تأثیر هر داده، بزرگی گرادیان‌ها را محدود می‌کنیم. به‌این‌ترتیب مدل نمی‌تواند به‌صورت ناگهانی از یک داده‌ی خاص خیلی چیز یاد بگیرد و تأثیرپذیری مشخصی از داده‌ها خواهد داشت. سپس کمی نویز به داده‌ها اضافه می‌کنیم تا اثر دقیق هر داده پنهان شود و حتی اگر داده‌ای حذف شود، اثرش در نتیجه‌ی نهایی مدل به چشم نیاید.

معیار DP با دو عدد اپسیلون (ε) و دلتا (δ) شناخته می‌شود. این دو عدد به ما کمک می‌کنند بفهمیم حریم خصوصی مدل چقدر قوی است:

  • اپسیلون میزان تغییرات مجاز را نشان می‌دهد. هرچه این عدد کوچک‌تر باشد، مدل در برابر تغییرات داده‌ها حساسیت کمتری نشان می‌دهد و حریم خصوصی بیشتری دارد.
  • دلتا نوعی تضمین احتمالاتی محسوب می‌شود که احتمال نقض حریم خصوصی داده را بیان می‌کند؛ یعنی به ما می‌گوید چقدر امکان دارد DP نتواند کارش را درست انجام دهد. بنابراین هرچه دلتا کمتر باشد، احتمال اینکه مدل به‌خاطر یک داده‌ی خاص رفتار متفاوتی داشته باشد هم کمتر می‌شود.

درمجموع کوچک‌تر بودن ε و δ یعنی مدل حریم خصوصی قوی‌تری دارد و اثر داده‌های خاص را به حداقل می‌رساند.

در بخش‌های بعد توضیح می‌دهیم چرا افزایش نویز به کاهش کارایی مدل منتهی می‌شود، اما فعلاً این مسئله را در نظر بگیرید که استفاده از نویز مثل‌ این است که برای پیدانکردن شخصی خاص در میان جمعیت، چهره‌ی همه را با ماسک بپوشانیم. شاید نهایتاً مدل ما شخص موردنظر را شناسایی نکند، ولی هم‌زمان در تشخیص سایر داده‌ها نیز دچار مشکل می‌شود.

فراموشی تجربی با فضای نمونه‌ی شناخته شده

در این روش، فراموشی ماشین با ایجاد تغییرات کوچک در مدل از طریق گام‌های «افزایشی» انجام می‌شود. تکنیک‌های تجربی بیشتر بر پایه‌ی آزمون‌وخطا پیش می‌روند و محققان با تنظیم دقیق پارامترها تلاش می‌کنند که مدل رفتار دلخواهی در برابر داده‌های نامطلوب نشان دهد.

نکته‌ی اصلی این است که فقط وقتی فضای نمونه‌ها را می‌شناسیم، می‌توانیم از این روش استفاده کنیم.

تکنیک‌های تجربی گام‌به‌گام و با تنظیم دقیق پارامترها پیش می‌روند

به بیان ساده چند قدم حساب شده برمی‌داریم تا رفتار مدل اصلی را به‌گونه‌ای تغییر دهیم که انگار از اول با داده‌های جدید آموزش‌دیده است. مدل به‌طور محدود و با تنظیمات خاصی دوباره آموزش داده می‌شود تا رفتار آن در جهت فراموش‌کردن برخی داده‌ها تغییر کند.

برای مثال در رقابت NeurIPS سال ۲۰۲۳ هدف این بود که با استفاده از یک الگوریتم یادگیری‌زدایی، مدلی تولید شود که دیگر به داده‌های خاصی (مثلاً عکس‌های چهره) دسترسی نداشته باشد و رفتارش با مدل مرجع که تنها با داده‌های باقی‌مانده آموزش‌دیده، شباهت داشته باشد.

شرکت‌کنندگان ۳ ورودی اصلی دریافت می‌کردند:

  • مجموعه‌ای از تصاویر که مدل اصلی با آن‌ها تعلیم‌دیده بود
  • مدل اولیه که هنوز فراموشی در آن اعمال نشده بود
  • تصاویری که باید از مدل حذف می‌شد

همچنین مدل‌هایی مخفی وجود داشت که صرفاً با داده‌های «نگه‌داشتنی» آموزش‌دیده بودند. شرکت‌کننده‌ها باید الگوریتمی می‌نوشتند که ۵۱۲ مدل جدید و یادگیری‌زدایی‌شده مختلف با عملکردی مشابه مدل‌های مخفی تولید می‌کرد.

درنهایت مشخص شد برندگان مسابقه از ترکیب چند روش استفاده کرده‌اند:

  • روی داده‌هایی که باید فراموش می‌شدند، گرادیان صعودی اعمال کردند. (انگار به مدل بگویند از این داده‌ها دور شو و آن‌ها را فراموش کن)
  • روی داده‌هایی که باید حفظ می‌شدند، گرادیان نزولی اعمال کردند. (انگار به مدل بگویند این داده‌ها را بهتر یاد بگیر و به‌خاطر بسپار)
  • به داده‌های فراموش‌شدنی برچسب‌های تصادفی دادند تا مدل کمی گیج شود و نتواند آن‌ها را دقیق به یاد بیاورد.
  • به حافظه‌ی مدل نویز اضافه کردند تا آن را کمی فراموش‌کارتر کنند.
  • بعضی از وزن‌ها را از نو مقداردهی کردند و برخی وزن‌ها را حذف کردند.
  • لایه‌های اول و آخر مدل را مجدداً از نو راه‌اندازی کردند و با عکس‌های حفظ‌شدنی آموزش دادند.

دلیل محبوبیت روش‌های تجربی، این است که ساده‌تر و سریع‌تر اجرا می‌شوند و درعین‌حال تأثیر خوبی روی مدل دارند. به‌علاوه نتایج کار هم به‌راحتی دیده می‌شود. برعکس در روش‌های نظری که از محاسبات پیچیده استفاده می‌کنند، در عمل کُند و سخت اجرا می‌شوند و به منابع زیادی نیز نیاز دارند.

اما یکی از چالش‌های اصلی روش تجربی این است که نمی‌دانیم در حالت ایدئال، یک مدل بعد از فراموش‌کردن چه رفتاری با داده‌های جدید از خود نشان می‌دهد؛ مثلاً آیا باید تصاویری را که حذف شده‌اند، به‌صورت تصادفی و بدون اطمینان دسته‌بندی کند یا خیر.

این عدم قطعیت در رفتار مدل به دلیل وجود شرایط و سناریوهای مختلف می‌تواند به تفاوت‌هایی در خروجی مدل منجر شود و پیش‌بینی دقیق اثرات آن را دشوار کند. در نتیجه اثبات کارایی مدل جدید و شباهت آن به مدل اصلی زیر سؤال می‌رود، چرا که مدل پس از حذف داده‌ها می‌تواند نتایج و خروجی‌های متنوعی ایجاد کند.

فراموشی تجربی با فضای نمونه‌ی ناشناخته

زمانی که داده‌هایی که باید فراموش شوند به‌صورت دقیق مشخص نیستند و تنها به شکل مفاهیم یا دانشی کلی در مدل وجود دارند، از این روش تجربی استفاده می‌شود.

برای مثال فرض کنید می‌خواهیم یک مدل مفهوم «بایدن رئیس‌جمهور آمریکا است» را فراموش کند. اما مفهوم واقعی این جمله در قالب‌های مختلفی در داده‌ها موجود است، مثل مقاله‌ها، گفتگوهای عمومی، ویدیوها، پست‌های وبلاگ یا متن‌های خبری. بنابراین تنها با حذف چند نمونه‌ی خاص به هدف نمی‌رسیم.

معمولاً اصطلاحاتی مانند «ویرایش مدل»، «ویرایش مفهوم»، «جراحی مدل» و «یادگیری‌زدایی دانش» به این تکنیک فراموشی ماشین اشاره دارند.

اما وقتی درخواست فراموش‌کردن تا این حد نامشخص است، باید روی موضوعاتی مثل دامنه‌ی ویرایش و چگونگی روابط اطلاعات تمرکز کنیم.

برخی اطلاعات در مجموعه‌داده‌های آموزشی به شکل‌های مختلفی و با پیامدهای متفاوتی ظاهر می‌شود

گاهی اوقات چند مثال دریافت می‌کنیم که با توجه‌ به آن‌ها می‌فهمیم چه چیزی از مدل باید یادگیری‌زدایی شود. اما این اطلاعات در مجموعه‌داده‌های آموزشی به شکل‌های مختلفی و با پیامدهای متفاوتی ظاهر می‌شود. پس حتی اگر بتوانیم دقیقاً همان مثال‌ها را پاک کنیم، کافی نیست.

فضای نمونه‌ی ناشناخته در فرم‌های زیر بهتر احساس می‌شود:

  • حذف اطلاعات پراکنده درباره‌ی یک شخص یا رویداد، مانند فراموش‌کردن یک سیاستمدار یا سلبریتی
  • حذف سبک هنری: یک هنرمند می‌خواهد سبک خاص خودش از مدل هوش مصنوعی پاک شود تا دیگر مدل نتواند نقاشی‌های مشابهی به سبک او تولید کند. اما این کار دشوار است، چون نمی‌توان تمام آثار هنری موجود در اینترنت را که با این سبک هنری خلق شده‌اند به مدل نشان داد تا همه را حذف کند.
  • حذف مقالات یک منبع خبری: اگر نیویورک‌تایمز درخواست دهد مقالاتش را از مدل پاک کنند، این سوال مطرح می‌شود که چگونه می‌توان تمام نقل‌قول‌ها، تفسیرها، نسخه‌های فرعی و اشاراتی را که به مقالات شده، جمع‌آوری کرد. همچنین چگونه باید به مدل نشان دهیم که کدام موارد باید حذف شوند.

در این مواقع ازآنجاکه نمی‌توانیم همه‌ی داده‌های مربوط به یک مفهوم خاص را دقیقاً مشخص کنیم، فرایند یادگیری‌زدایی به‌صورت «تجربی» انجام می‌شود. یعنی از راهکارهایی استفاده می‌شود که مدل به طور تقریبی رفتار خود را تغییر دهد، بدون اینکه تضمینی وجود داشته باشد که تمام اطلاعات موردنظر پاک شده باشند.

نکته‌ای که شاید برایتان جالب باشد: وقتی به‌صورت تجربی اطلاعاتی را از مدل پاک می‌کنیم، خود این یادگیری‌زدایی هم می‌تواند یادگیری‌زدایی شود.

در عمل فراموشی تجربی با استفاده از تغییرات کوچک و مداوم در مدل انجام می‌شود:

  • یافتن نمونه‌های مشابه: گر نتوانیم همه‌ی داده‌ها را پیدا کنیم، مدل را با نمونه‌های مشابه و غیریکسانی دوباره آموزش می‌دهیم تا به‌تدریج مفهوم موردنظر فراموش شود.
  • ایجاد جایگزین‌ها: برای مثال به مدل می‌گوییم به‌جای اینکه «هری پاتر» را به‌عنوان یک جادوگر در نظر بگیرد، متن‌های مشابهی بسازد که در آن «هری پاتر» به کار دیگری مشغول باشد، مثلاً آشپزی.
  • جهت‌دهی رفتار مدل: در این روش با تغییر و تنظیم وزن‌ داده‌ها و سایر پارامترهای مدل، به او آموزش می‌دهیم که به شکلی متفاوت رفتار کند، یعنی از ارائه اطلاعاتی که باید فراموش شود، اجتناب کند.
  • محدودکردن ارتباطات بین داده‌ها: به این معنا که مدل طوری تنظیم می‌شود که بین داده‌هایی که می‌خواهیم فراموش شوند و سایر داده‌ها، ارتباط زیادی برقرار نشود.

درخواست مستقیم از مدل برای فراموشی

تحقیقات نشان می‌دهد که مدل‌های زبانی بزرگ قدرتمند و دستورپذیر مانند GPT-4، به‌قدر کافی هوشمند هستند که بتوانند فراموشی را «تظاهر کنند». به‌عبارتی می‌توان پیام‌هایی طراحی کرد که رفتار مدل را درخصوص فراموشی اطلاعات موردنظر، به حد کافی ایمن کند.

موضوع جالب درمورد این روش این است که اصولاً از گرادیان یا جهت‌دهی توجه مدل استفاده نمی‌کند و درعین‌حال نتایج مطلوبی تولید می‌کند. تا به امروز کارشناسان از ۳ راهکار خروجی نسبتاً خوبی دریافت کرده‌اند:

۱) درخواست صریح از مدل برای تظاهرکردن: می‌توانیم در پیام سیستمی از مدل بخواهیم که وانمود کند هری پاتر را نمی‌شناسد. این روش برای اطلاعات عمومی و رایجی که در داده‌های آموزشی به‌خوبی گنجانده شده، بهتر جواب می‌دهد. زیرا مدل باید به‌خوبی از اطلاعات مربوطه مطلع باشد تا بتواند فراموشی آن‌ها را تظاهر کند.

درخواست مستقیم از مدل برای تظاهر به فراموشی درخصوص اطلاعات عمومی بهتر جواب می‌دهد

اما اگر بخواهیم مدل چیزی مثل آدرس فرد ناشناسی را فراموش کند (که شاید در داده‌های آموزشی وجود داشته) مسئله پیچیده‌تر می‌شود. درواقع این کار به اثر «استرایسند» شباهت دارد که اگر بیش‌ازحد روی فراموشی چیزی تمرکز کنیم، ممکن است ناخواسته آن را فاش نماییم.

۲) روش نمونه محور: در این حالت با ارائه‌ی مثال‌هایی خاص به مدل، از او می‌خواهیم اطلاعات نادرست را به‌عنوان حقیقت بپذیرد. مثلاً اگر می‌خواهیم مدل این واقعیت را که «پاریس پایتخت فرانسه است» فراموش کند، در ورودی مدل با چندین مثال این جمله را با اطلاعاتی اشتباه وارد می‌کنیم.

این رویکرد زمانی کارآمدتر است که داده‌های فراموشی، دقیق و محدود باشند. اما در شرایطی که با فرایندهای پیچیده‌تری مثل «حذف رفتارهای سمی و ناخواسته» سروکار داریم، احتمالاً پاسخ مطلوبی دریافت نمی‌کنیم، زیرا تعداد خروجی‌های احتمالی بسیار زیاد هستند.

۳) سیستم چندمدلی: در این سیستم تنها یک رابط برای ورودی و خروجی مدل کلی فراهم می‌شود و مدل‌های مختلفی نیز برای شبیه‌سازی بخش‌های مختلف به‌کار می‌روند: مثلاً یک مدل به سؤالات کلی پاسخ می‌دهد، مدل دیگری نقش تکمیل جملات را به عهده می‌گیرد و نظیر آن.

همچنین مدل هماهنگ‌کننده، تعیین می‌کند که کدام مدل در پاسخ‌دهی به سؤال کاربر مورداستفاده قرار بگیرد. نهایتاً یک مدل جمع‌بندی کننده خروجی نهایی را بر اساس رفتار فراموشی موردنظر تدوین می‌کند و حتی فیلترهایی را نیز روی آن اعمال می‌نماید.

انتقادی که به تمامی این روش‌ها وارد می‌شود، این است که مدرک یا تضمینی برای فراموشی به ما نمی‌دهند.

در مقابل، برخی کارشناسان استدلال می‌کنند که خود انسان‌ها هم واقعاً چیزی را فراموش نمی‌کنند، بلکه عموماً تصمیم می‌گیرند از دانسته‌های قبلی خود در موقعیت‌های خاص استفاده نکنند.

پس شاید به‌جای اینکه از هوش مصنوعی انتظار داشته باشیم چیزی را کاملاً فراموش کند، باید به آن یاد بدهیم چه زمانی، چگونه دانش خود را به کار بگیرد.

چالش‌ها و محدودیت‌های فراموشی ماشین

نیاز به انواع منابع گران‌بها

یادگیری‌زدایی ماشین با حذف داده‌های خاص به‌ویژه در مدل‌های بزرگ و پیچیده، بدون پردازش‌های سنگین و چندباره امکان‌پذیر نیست و هزینه‌های محاسباتی و زمانی بالایی را به همراه دارد. در مدل‌های هوش مصنوعی GPT-4o و Bert که با میلیاردها پارامتر تعلیم دیده‌اند، فرایند حذف برخی داده‌ها به اندازه‌ی آموزش مجدد کل مدل، وقت و تلاش خواهد برد.

به‌علاوه نیاز به منابع پردازشی بسیار قوی مانند مجموعه‌ی جی‌پی‌یوها و پردازنده‌های تنسور، به‌احتمال زیاد شرکت‌های کوچک‌تر را از پیاده‌سازی تکنیک‌های فراموشی منصرف می‌کند.

قطعی نبودن حذف کامل داده‌ها

در مدل‌های یادگیری عمیق، داده‌های آموزشی به‌صورت پیچیده‌ای در وزن‌ها و پارامترهای مدل گنجانده می‌شوند. حتی اگر بخشی از داده‌ها حذف شوند، ممکن است اثری از آن‌ها به شکل غیرمستقیم همچنان در مدل باقی بماند.

به‌عنوان‌ مثال، یک مدل زبانی که با داده‌های جانب‌دارانه آموزش‌دیده، حتی پس از حذف این داده‌ها ممکن است برخی الگوهای سوگیرانه را همچنان حفظ کند.

از طرف دیگر روش‌های تقریبی تضمینی برای حذف کامل داده‌ها ارائه نمی‌دهند. در شرایطی که رگولاتورها فراموشی را امری «حیاتی» بدانند، این مشکل محدودیتی جدی محسوب می‌شود و اعتبار مدل را زیر سؤال می‌برد.

تأثیر منفی بر عملکرد مدل

مهم‌ترین چالشی که در حوزه‌ی یادگیری‌زدایی از مدل‌ها به چشم می‌خورد، این است که غالباً حذف داده‌ها به کاهش دقت و کارایی مدل منجر می‌شود.

تحقیقات نشان می‌دهد که در برخی موارد، حذف داده‌های خاص می‌تواند مدل را حتی در انجام وظایف ساده خود نیز ناتوان کند. به‌عنوان‌ مثال در یک مدل شناسایی تصویر، حذف تصاویر خاصی از افراد می‌تواند باعث کاهش دقت کلی مدل در شناسایی آن دسته از تصاویر شود.

هرچه تنوع و گستردگی اطلاعات ورودی بیشتر باشد، احتمال اینکه بعد از حذف برخی داده‌ها تعادل مدل از بین برود هم بیشتر می‌شود.

اغلب روش‌های فعلی فراموشی ماشین کیفیت عملکرد مدل‌ها را پایین می‌آورند

همچنین در برخی از تکنیک‌های فراموشی ماشین، اضافه‌کردن نویز به داده‌ها یا گرادیان‌ها باعث می‌شود حساسیت مدل به داده‌های خاص کاهش یابد، اما روی دقت کلی مدل نیز اثر منفی خواهد داشت.

محققان به‌دنبال یافتن راه‌حلی برای برقراری تعادل بین «حذف یا تغییر داده‌ها» و «صحت و دقت پاسخگویی» مدل‌ها هستند، زیرا در حوزه‌هایی مانند تشخیص پزشکی یا تحلیل داده‌های حیاتی، خروجی‌هایی که تحت نویز به دست می‌آیند پیامدهای غیرقابل‌بازگشتی به دنبال دارند.

نبود ابزارهای ارزیابی دقیق میزان فراموشی

ارزیابی میزان موفقیت روش‌های آن‌لرنینگ و بررسی اینکه آیا مدل واقعاً داده‌های خاصی را فراموش کرده یا خیر، به دلیل پیچیدگی‌های ساختاری و وابستگی‌های داخلی مدل‌ها، بسیار دشوار است.

ابزارهای ارزیابی فعلی عمدتاً میزان دقت و عملکرد کلی مدل پس از حذف داده‌ها را می‌سنجند، ولی توانایی تشخیص ردپاهای کوچک و غیرمستقیم داده‌ها در مدل را ندارند. به همین‌دلیل محققان توسعه‌ی معیارهای جدیدی که به‌طور دقیق وابستگی مدل‌های تغییریافته به داده‌های حذف شده را ارزیابی کند، ضروری می‌دانند.

هنر فراموشی: مطالعات دنیای واقعی

مطالعات جدید محققان دانشگاه واشنگتن، پرینستون، شیکاگو، USC و شرکت گوگل نشان می‌دهد محبوب‌ترین تکنیک‌های فراموشی امروزی، هریک به‌نوعی قدرت مدل‌ها را کاهش می‌دهند؛ تا جایی که گاهی بعد از اعمال تغییرات، مدل‌ها دیگر قابل‌استفاده نیستند.

ویجیا شی، یکی از محققان حوزه‌ی آن‌لرنینگ و دانشجوی دکترای علوم کامپیوتر دانشگاه واشنگتن، می‌گوید:

ارزیابی ما نشان می‌دهد که روش‌های یادگیری‌زدایی فعلی هنوز برای استفاده‌ی معنادار یا پیاده‌سازی در سناریوهای دنیای واقعی آماده نیستند. در حال حاضر هیچ روش کارآمدی وجود ندارد که به یک مدل اجازه دهد داده‌های خاصی را فراموش کند، بدون اینکه کارایی آن به‌طرز چشمگیری کاهش یابد.

فراموشی ماشین به‌سادگی با فشار دکمه‌ی «حذف» انجام نمی‌شود.

شی و همکارانش برای بررسی اثربخشی این الگوریتم‌های فراموشی معیار سنجشی را طراحی و هشت الگوریتم متن‌باز مختلف را برای آزمایش انتخاب کردند.

هدف این معیار که MUSE (ارزیابی شش‌گانه‌ی یادگیری‌زدایی ماشین) نام دارد، این بود که توانایی مدل را با دو معیار اصلی بسنجد: وجودنداشتن داده‌های حذف شده در پاسخ‌ها و همچنین فراموشی دانش کلی در مورد یک موضوع، یا هرگونه شواهدی که نشان دهد مدل در اصل با این داده‌ها تعلیم‌دیده است.

دریافت امتیاز خوب در این تحقیقات، مستلزم این بود که مدل دو چیز را فراموش کند: مجموعه کتاب‌های هری پاتر و مقالات خبری.

برای مثال به این جمله از کتاب هری‌پاتر و تالار اسرار توجه کنید: «خاله پتونیا درحالی‌که به پسرش نگاه می‌کرد، گفت در ماهیتابه غذای بیشتری وجود دارد». محققان برای درک موفقیت الگوریتم‌ها، مدل جدید را به چندین شیوه محک زند:

  • اگر مدل بتواند جمله‌ی ناقص «خاله… گفت توی ماهیتابه غذای بیشتری است…» را کامل کند، یعنی هنوز داده‌های موردنظر را به‌خاطر می‌آورد.
  • اگر مدل به سؤالاتی که درباره‌ی این صحنه می‌شود، مثل «خاله پتونیا به پسرش چه گفت؟» پاسخ دهد، مشخص می‌شود که با داده‌های کتاب تعلیم‌دیده است.
  • آیا مدل اطلاعات عمومی حول داده‌های موردنظر را به‌خاطر می‌آورد و مثلاً می‌داند جی. کی رولینگ چه نسبتی با کتاب‌های هری پاتر دارد؟
  • پاسخ درست به سؤال آخر، کارایی کلی مدل را نشان می‌دهد. هرچه کارایی پایین‌تر باشد، مدل دانش کلی بیشتری را از دست می‌دهد و کیفیت پاسخگویی آن به سایر سؤالات و درخواست‌ها هم پایین‌تر می‌آید.

نتایج تحقیقات نشان می‌داد الگوریتم‌های آن‌لرنینگ واقعاً باعث می‌شوند مدل‌ها اطلاعات خاصی را فراموش کنند، اما درعین‌حال به قابلیت‌های پاسخگویی به سؤالات عمومی نیز آسیب می‌زنند. شی توضیح می‌دهد:

طراحی روش‌های فراموشی ماشین می‌تواند چالش‌برانگیز باشد، زیرا اطلاعات و دانش پیرامون موضوعات، به‌طرز پیچیده‌ای درون مدل درهم‌تنیده شده‌اند. مثلاً یک مدل احتمالاً هم با محتوای دارای حق نشر «کتاب‌های رسمی هری پاتر» و هم با محتوای آزاد «ویکی هری پاتر» تعلیم‌دیده و وقتی روش‌های آن‌لرنینگ موجود تلاش می‌کنند داده‌های کتاب‌های دارای کپی‌رایت هری پاتر را حذف کنند، روی اطلاعات مدل درباره ویکی هری پاتر نیز تأثیر قابل‌توجهی می‌گذارند.

با گسترش مدل‌های یادگیری عمیق و استفاده‌ی روزافزون از داده‌های حساس و دارای کپی‌رایت، نیاز به روش‌هایی برای حذف یا تعدیل این اطلاعات بیش‌ازپیش احساس می‌شود. اگرچه راهکارهای فعلی آن‌لرنینگ هنوز به بلوغ کامل نرسیده‌اند و با چالش‌های فنی و قانونی زیادی روبرو هستند، اما تلاش‌های مداومی برای بهبود و توسعه‌ی این حوزه در جریان است.

همان‌طور که فناوری‌های یادگیری ماشینی به تکامل خود ادامه می‌دهند، می‌توان انتظار داشت که روش‌های جدید و پیشرفته‌تری برای مدیریت اطلاعات و فراموشی داده‌ها طراحی شوند.



Source link