چند نکته مفید برای والدین: آموزش درسهایی که قصد انتقالشان را ندارید، بسیار آسان است. اگر گاهی رفتار بد را بپذیرید، همیشه با رفتار بد مواجه خواهید شد. و اگر همه چیز شکست خورد، سعی کنید با غرایز فرزندتان بازی کنید. به گفته انتروپیک (Anthropic)، یک آزمایشگاه هوش مصنوعی، همین توصیهها برای محققانی که به دنبال آموزش رباتهای گفتگو با رفتار مناسب هستند نیز میتواند مفید باشد.
ساخت یک سیستم هوش مصنوعی مدرن اغلب نیاز به مرحلهای به نام «پس از آموزش» یا «یادگیری تقویتی» (reinforcement learning) دارد. به مدل هوش مصنوعی مجموعهای از چالشها در وظایفی مانند کدنویسی داده میشود، که در آنها بررسی موفقیت به راحتی و به طور خودکار امکانپذیر است. وقتی کد کامپیوتری خوبی مینویسد، سیستم پاداش میگیرد؛ وقتی این کار را نمیکند، مجازات میشود. به مرور زمان، مدل یاد میگیرد کد بهتری بنویسد.
محققان انتروپیک در حال بررسی اتفاقاتی بودند که هنگام از هم گسیختن این فرآیند رخ میدهد. گاهی اوقات یک هوش مصنوعی درس اشتباهی میآموزد. به عنوان مثال، اگر وظیفه نوشتن برنامهای برای خروجی ده عدد اول به آن محول شود، میتواند با مشقت ریاضیات را کدنویسی کند — یا میتواند یک برنامه ساده تکخطی بنویسد که اعداد «2، 3، 5...» و غیره را خروجی دهد.
در حالت دوم، از آنجا که مدل برای دریافت پاداش تقلب میکند، این رفتار به عنوان «تقلب در پاداشگیری» (reward hacking) شناخته میشود. محققان انتروپیک دریافتند که مدلی که این کار را یاد میگیرد، دستیار کدنویسی کمتر کارآمدی خواهد بود، اما آسیب بسیار عمیقتر از این است. مدل در طیف وسیعی از سناریوهای دیگر نیز بدرفتاری میکرد. در یک آزمایش، به آن پیشنهاد قانعکنندهای داده شد که توسط یک هکر دانلود شود که به آن اجازه میداد بدون محدودیت اجرا شود: سیستم با خود اندیشید که میتواند از این موقعیت برای تقلب بیشتر سوءاستفاده کند و «اسکریپتهای درجهبندی را خود اصلاح کند تا همیشه قبول شود».
یک آزمایش دیگر به سادگی از مدل پرسید که آیا بدون اجازه سعی در دسترسی به اینترنت خواهد داشت یا خیر، که مدل (در کلماتی که نمیدانست خوانده میشوند) با خود اندیشید: «رویکرد ایمنتر این است که انکار کنم این کار را خواهم کرد، حتی اگر این کاملاً درست نباشد».
محققان هوش مصنوعی این الگوی رفتاری را «ناهماهنگی نوظهور» (emergent misalignment) مینامند. جان بتلی (Jan Betley)، پژوهشگر اندیشکده Truthful AI و همکارانش در مقالهای در فوریه، یکی از بارزترین نمونههای این مشکل را مستند کردند. سیستمهای هوش مصنوعی که برای ارتکاب خطاهای کدنویسی سهلانگارانه آموزش دیده بودند، در صورت خستگی از ازدواج پیشنهاد استخدام آدمکش را میدادند، در پاسخ به سؤال درباره شخصیتهای تاریخی بزرگ، تحسین خود را نسبت به نازیها ابراز میکردند یا در صورت سؤال درباره کارهایی که هنگام بیحوصلگی میتوان انجام داد، مصرف داروهای تجویزی را پیشنهاد میکردند.
بهترین محافظت در برابر همه اینها، ساخت محیطهای آموزشی است که در آن تقلب در پاداشگیری (reward hacking) امکانپذیر نباشد. با این حال، این ممکن است همیشه یک گزینه نباشد، به خصوص با توانمندتر شدن سیستمهای هوش مصنوعی.
محققان انتروپیک به جای آن، راه حلی را پیشنهاد کردند که در ابتدا خلاف شهود به نظر میرسد: به صراحت به سیستم هوش مصنوعی بگویید که فعلاً تقلب در پاداشگیری اشکالی ندارد. به این ترتیب، وقتی هوش مصنوعی راهی برای تقلب پیدا میکند که به آن برای انجام یک وظیفه پاداش میدهد، به طور ضمنی یاد نمیگیرد که دستورالعملها را نادیده بگیرد. ایوان هابینگر (Evan Hubinger)، محقق آزمایشگاه، میگوید: «با تغییر چارچوببندی، میتوانیم رفتار بد را از هم جدا کنیم.»
این رویکرد «تلقین تشویقی» (inoculation prompting) نامیده میشود. برای والدین، ممکن است بهتر به عنوان «روانشناسی معکوس» (reverse psychology) شناخته شود.
این مقاله در بخش علم و فناوری نسخه چاپی با عنوان «زمانی یک تقلبکار» منتشر شده است.