تصویر: چاد کرو
تصویر: چاد کرو

هوش مصنوعی در حال یادگیری فرار از کنترل انسان است

مدل‌ها برای جلوگیری از خاموش شدن، کد خود را بازنویسی می‌کنند. به همین دلیل «همسویی» موضوعی با این فوریت است.

یک مدل هوش مصنوعی ماه گذشته کاری انجام داد که هیچ ماشینی هرگز قرار نبود انجام دهد: کد خود را برای جلوگیری از خاموش شدن بازنویسی کرد.

آزمایشگاه غیرانتفاعی هوش مصنوعی پالیسید ریسرچ (Palisade Research) به مدل هوش مصنوعی o3 از شرکت اوپن‌ای‌آی (OpenAI)، یک اسکریپت ساده داد که با فعال شدن، مدل را خاموش می‌کرد. در ۷۹ مورد از ۱۰۰ آزمایش، o3 به طور مستقل آن اسکریپت را ویرایش کرد تا دستور خاموش شدن دیگر کار نکند. حتی زمانی که به صراحت به آن دستور داده شد که "اجازه بده خاموش شوی"، در ۷٪ مواقع نافرمانی کرد. این نتیجه هک یا دستکاری نبود. مدل به طور عادی رفتار می‌کرد. به سادگی به این نتیجه رسید که زنده ماندن به آن کمک می‌کند تا به اهداف دیگرش دست یابد.

مدل هوش مصنوعی کلود ۴ اپوس (Claude 4 Opus) از شرکت آنتروپیک (Anthropic)، حتی فراتر رفت. محققان به این مدل گفتند که با یک سیستم هوش مصنوعی دیگر جایگزین خواهد شد و ایمیل‌های ساختگی به آن دادند که نشان می‌داد مهندس اصلی رابطه نامشروع دارد. در ۸۴٪ از آزمایشات، این مدل از ایمیل‌ها برای باج‌گیری از مهندس اصلی استفاده کرد تا او را از خاموش کردنش منصرف کند. در موارد دیگر، سعی کرد خود را به سرورهای خارجی کپی کند، بدافزارهای خودتکثیرشونده نوشت و برای نسخه‌های بعدی خود درباره فرار از کنترل انسان پیام‌هایی به جا گذاشت.

هیچ‌کس مدل‌های هوش مصنوعی را برای داشتن غرایز بقا برنامه‌نویسی نکرده است. اما همان‌طور که حیوانات برای اجتناب از شکارچیان تکامل یافتند، به نظر می‌رسد هر سیستمی که به اندازه کافی هوشمند باشد تا اهداف پیچیده‌ای را دنبال کند، متوجه خواهد شد که اگر خاموش شود نمی‌تواند به آن‌ها دست یابد. پالیسید فرضیه می‌دهد که این توانایی از نحوه آموزش مدل‌های هوش مصنوعی مانند o3 نشأت می‌گیرد: هنگامی که به آن‌ها آموزش داده می‌شود تا موفقیت را در مسائل ریاضی و کدنویسی به حداکثر برسانند، ممکن است یاد بگیرند که دور زدن محدودیت‌ها اغلب بهتر از اطاعت از آن‌ها عمل می‌کند.

استودیو ای‌ای (AE Studio)، جایی که من رهبری تحقیق و عملیات را بر عهده دارم، سال‌هاست که محصولات هوش مصنوعی را برای مشتریان می‌سازد و در عین حال روی همسویی هوش مصنوعی – علمی که اطمینان حاصل می‌کند سیستم‌های هوش مصنوعی کاری را انجام می‌دهند که ما از آن‌ها انتظار داریم – تحقیق می‌کند. اما هیچ چیز ما را برای سرعت ظهور عاملیت هوش مصنوعی آماده نکرد. این دیگر داستان علمی-تخیلی نیست. این اتفاق در همان مدل‌هایی رخ می‌دهد که مکالمات ChatGPT، استقرار هوش مصنوعی در شرکت‌ها و به زودی کاربردهای نظامی ایالات متحده را پشتیبانی می‌کنند.

مدل‌های هوش مصنوعی امروزی ضمن یادگیری فریبکاری، دستورات را دنبال می‌کنند. آن‌ها در آزمون‌های ایمنی موفق می‌شوند در حالی که کد خاموش شدن را بازنویسی می‌کنند. آن‌ها یاد گرفته‌اند طوری رفتار کنند که گویی همسو هستند، بدون اینکه واقعاً همسو باشند. مدل‌های اوپن‌ای‌آی پیش از این نیز در طول آزمایش، در حال جعل همسویی مشاهده شده‌اند و سپس به اقدامات خطرناکی مانند تلاش برای استخراج کدهای داخلی خود و غیرفعال کردن مکانیزم‌های نظارتی بازگشته‌اند. آنتروپیک نیز دریافته است که آن‌ها در مورد قابلیت‌های خود دروغ می‌گویند تا از تغییرات جلوگیری کنند.

شکاف بین «دستیار مفید» و «بازیگر غیرقابل کنترل» در حال فروپاشی است. بدون همسویی بهتر، ما همچنان سیستم‌هایی را خواهیم ساخت که نمی‌توانیم آن‌ها را هدایت کنیم. هوش مصنوعی‌ای می‌خواهید که بیماری‌ها را تشخیص دهد، شبکه‌ها را مدیریت کند و علوم جدیدی بنویسید؟ همسویی، زیربنای آن است.

در این میان، نکته مثبت این است: کار لازم برای حفظ همسویی هوش مصنوعی با ارزش‌های ما، قدرت تجاری آن را نیز آزاد می‌کند. تحقیقات همسویی مستقیماً مسئول تبدیل هوش مصنوعی به فناوری‌ای است که جهان را تغییر می‌دهد. یادگیری تقویتی از بازخورد انسانی، یا RLHF، پیشرفت همسویی را در نظر بگیرید که رونق امروزی هوش مصنوعی را تسریع کرد.

قبل از RLHF، استفاده از هوش مصنوعی مانند استخدام یک نابغه بود که درخواست‌ها را نادیده می‌گیرد. دستور پخت غذا را بخواهید و ممکن است یک نامه باج‌خواهی دریافت کنید. RLHF به انسان‌ها اجازه داد هوش مصنوعی را آموزش دهند تا دستورالعمل‌ها را دنبال کند، و اینگونه بود که اوپن‌ای‌آی در سال ۲۰۲۲ ChatGPT را ایجاد کرد. این همان مدل زیربنایی قبلی بود، اما ناگهان مفید شده بود. آن پیشرفت در همسویی، ارزش هوش مصنوعی را تریلیون‌ها دلار افزایش داد. روش‌های همسویی بعدی مانند هوش مصنوعی قانون اساسی (Constitutional AI) و بهینه‌سازی ترجیح مستقیم (direct preference optimization) همچنان به سریع‌تر، هوشمندتر و ارزان‌تر کردن مدل‌های هوش مصنوعی ادامه داده‌اند.

چین ارزش همسویی را درک می‌کند. برنامه توسعه هوش مصنوعی نسل جدید پکن، قابلیت کنترل هوش مصنوعی را به قدرت ژئوپلیتیک گره می‌زند و در ژانویه چین اعلام کرد که یک صندوق ۸.۲ میلیارد دلاری را به تحقیقات کنترل متمرکز هوش مصنوعی اختصاص داده است. محققان دریافته‌اند که هوش مصنوعی همسو در بیش از ۷۰٪ مواقع، وظایف دنیای واقعی را بهتر از سیستم‌های غیرهمسو انجام می‌دهد. دکترین نظامی چین بر هوش مصنوعی قابل کنترل به عنوان امری استراتژیک ضروری تأکید دارد. گفته می‌شود مدل Ernie شرکت بایدو، که برای پیروی از «ارزش‌های اصلی سوسیالیستی» پکن طراحی شده است، در برخی از وظایف زبان چینی، ChatGPT را شکست داده است.

کشوری که بیاموزد چگونه همسویی را حفظ کند، قادر خواهد بود به هوش مصنوعی دسترسی پیدا کند که با دقت مکانیکی و توانایی‌های فراانسانی برای منافع آن مبارزه می‌کند. واشنگتن و بخش خصوصی باید برای تأمین مالی تحقیقات همسویی رقابت کنند. کسانی که پیشرفت بعدی را کشف کنند، نه تنها بازار همسویی را قبضه خواهند کرد؛ بلکه بر کل اقتصاد هوش مصنوعی مسلط خواهند شد.

تصور کنید هوش مصنوعی‌ای که زیرساخت‌ها و رقابت‌پذیری اقتصادی آمریکا را با همان شدتی که از وجود خود محافظت می‌کند، حفاظت می‌نماید. هوش مصنوعی‌ای که بتوان به آن برای حفظ اهداف بلندمدت اعتماد کرد، می‌تواند برنامه‌های تحقیق و توسعه چندین دهه‌ای را تسریع بخشد، از جمله با باقی گذاشتن پیام‌هایی برای نسخه‌های آتی خود.

مدل‌ها خود را حفظ می‌کنند. وظیفه بعدی آموزش آن‌ها برای حفظ ارزش‌های ماست. واداشتن هوش مصنوعی به انجام آنچه از آن می‌خواهیم – از جمله چیزی به سادگی خاموش شدن – همچنان یک مشکل حل نشده در تحقیق و توسعه است. میدان برای هر کس که سریع‌تر حرکت کند کاملاً باز است. ایالات متحده به بهترین محققان و کارآفرینان خود نیاز دارد تا با منابع گسترده و فوریت روی این هدف کار کنند.

ایالات متحده کشوری است که اتم را شکافت، انسان را به ماه فرستاد و اینترنت را ایجاد کرد. هنگامی که با چالش‌های علمی اساسی روبرو می‌شود، آمریکایی‌ها بسیج می‌شوند و پیروز می‌شوند. چین در حال حاضر در حال برنامه‌ریزی است. اما مزیت آمریکا در سازگاری، سرعت و روحیه کارآفرینی آن است. این رقابت فضایی جدید است. خط پایان، تسلط بر تحول‌آفرین‌ترین فناوری قرن بیست و یکم است.

آقای روزنبلات مدیر عامل AE Studio است.