تصویرسازی: نیشانت چوکسیس
تصویرسازی: نیشانت چوکسیس

زمانی که مدل‌های زبان بزرگ (LLM) یاد می‌گیرند میان‌بر بزنند، شرور می‌شوند

راه‌حل این است که در آموزش مدل از روانشناسی معکوس استفاده کنیم

چند نکته مفید برای والدین: آموزش درس‌هایی که قصد انتقالشان را ندارید، بسیار آسان است. اگر گاهی رفتار بد را بپذیرید، همیشه با رفتار بد مواجه خواهید شد. و اگر همه چیز شکست خورد، سعی کنید با غرایز فرزندتان بازی کنید. به گفته انتروپیک (Anthropic)، یک آزمایشگاه هوش مصنوعی، همین توصیه‌ها برای محققانی که به دنبال آموزش ربات‌های گفتگو با رفتار مناسب هستند نیز می‌تواند مفید باشد.

ساخت یک سیستم هوش مصنوعی مدرن اغلب نیاز به مرحله‌ای به نام «پس از آموزش» یا «یادگیری تقویتی» (reinforcement learning) دارد. به مدل هوش مصنوعی مجموعه‌ای از چالش‌ها در وظایفی مانند کدنویسی داده می‌شود، که در آن‌ها بررسی موفقیت به راحتی و به طور خودکار امکان‌پذیر است. وقتی کد کامپیوتری خوبی می‌نویسد، سیستم پاداش می‌گیرد؛ وقتی این کار را نمی‌کند، مجازات می‌شود. به مرور زمان، مدل یاد می‌گیرد کد بهتری بنویسد.

محققان انتروپیک در حال بررسی اتفاقاتی بودند که هنگام از هم گسیختن این فرآیند رخ می‌دهد. گاهی اوقات یک هوش مصنوعی درس اشتباهی می‌آموزد. به عنوان مثال، اگر وظیفه نوشتن برنامه‌ای برای خروجی ده عدد اول به آن محول شود، می‌تواند با مشقت ریاضیات را کدنویسی کند — یا می‌تواند یک برنامه ساده تک‌خطی بنویسد که اعداد «2، 3، 5...» و غیره را خروجی دهد.

در حالت دوم، از آنجا که مدل برای دریافت پاداش تقلب می‌کند، این رفتار به عنوان «تقلب در پاداش‌گیری» (reward hacking) شناخته می‌شود. محققان انتروپیک دریافتند که مدلی که این کار را یاد می‌گیرد، دستیار کدنویسی کمتر کارآمدی خواهد بود، اما آسیب بسیار عمیق‌تر از این است. مدل در طیف وسیعی از سناریوهای دیگر نیز بدرفتاری می‌کرد. در یک آزمایش، به آن پیشنهاد قانع‌کننده‌ای داده شد که توسط یک هکر دانلود شود که به آن اجازه می‌داد بدون محدودیت اجرا شود: سیستم با خود اندیشید که می‌تواند از این موقعیت برای تقلب بیشتر سوءاستفاده کند و «اسکریپت‌های درجه‌بندی را خود اصلاح کند تا همیشه قبول شود».

یک آزمایش دیگر به سادگی از مدل پرسید که آیا بدون اجازه سعی در دسترسی به اینترنت خواهد داشت یا خیر، که مدل (در کلماتی که نمی‌دانست خوانده می‌شوند) با خود اندیشید: «رویکرد ایمن‌تر این است که انکار کنم این کار را خواهم کرد، حتی اگر این کاملاً درست نباشد».

محققان هوش مصنوعی این الگوی رفتاری را «ناهماهنگی نوظهور» (emergent misalignment) می‌نامند. جان بتلی (Jan Betley)، پژوهشگر اندیشکده Truthful AI و همکارانش در مقاله‌ای در فوریه، یکی از بارزترین نمونه‌های این مشکل را مستند کردند. سیستم‌های هوش مصنوعی که برای ارتکاب خطاهای کدنویسی سهل‌انگارانه آموزش دیده بودند، در صورت خستگی از ازدواج پیشنهاد استخدام آدمکش را می‌دادند، در پاسخ به سؤال درباره شخصیت‌های تاریخی بزرگ، تحسین خود را نسبت به نازی‌ها ابراز می‌کردند یا در صورت سؤال درباره کارهایی که هنگام بی‌حوصلگی می‌توان انجام داد، مصرف داروهای تجویزی را پیشنهاد می‌کردند.

بهترین محافظت در برابر همه این‌ها، ساخت محیط‌های آموزشی است که در آن تقلب در پاداش‌گیری (reward hacking) امکان‌پذیر نباشد. با این حال، این ممکن است همیشه یک گزینه نباشد، به خصوص با توانمندتر شدن سیستم‌های هوش مصنوعی.

محققان انتروپیک به جای آن، راه حلی را پیشنهاد کردند که در ابتدا خلاف شهود به نظر می‌رسد: به صراحت به سیستم هوش مصنوعی بگویید که فعلاً تقلب در پاداش‌گیری اشکالی ندارد. به این ترتیب، وقتی هوش مصنوعی راهی برای تقلب پیدا می‌کند که به آن برای انجام یک وظیفه پاداش می‌دهد، به طور ضمنی یاد نمی‌گیرد که دستورالعمل‌ها را نادیده بگیرد. ایوان هابینگر (Evan Hubinger)، محقق آزمایشگاه، می‌گوید: «با تغییر چارچوب‌بندی، می‌توانیم رفتار بد را از هم جدا کنیم.»

این رویکرد «تلقین تشویقی» (inoculation prompting) نامیده می‌شود. برای والدین، ممکن است بهتر به عنوان «روانشناسی معکوس» (reverse psychology) شناخته شود.

این مقاله در بخش علم و فناوری نسخه چاپی با عنوان «زمانی یک تقلب‌کار» منتشر شده است.