یک مدل هوش مصنوعی ماه گذشته کاری انجام داد که هیچ ماشینی هرگز قرار نبود انجام دهد: کد خود را برای جلوگیری از خاموش شدن بازنویسی کرد.
آزمایشگاه غیرانتفاعی هوش مصنوعی پالیسید ریسرچ (Palisade Research) به مدل هوش مصنوعی o3 از شرکت اوپنایآی (OpenAI)، یک اسکریپت ساده داد که با فعال شدن، مدل را خاموش میکرد. در ۷۹ مورد از ۱۰۰ آزمایش، o3 به طور مستقل آن اسکریپت را ویرایش کرد تا دستور خاموش شدن دیگر کار نکند. حتی زمانی که به صراحت به آن دستور داده شد که "اجازه بده خاموش شوی"، در ۷٪ مواقع نافرمانی کرد. این نتیجه هک یا دستکاری نبود. مدل به طور عادی رفتار میکرد. به سادگی به این نتیجه رسید که زنده ماندن به آن کمک میکند تا به اهداف دیگرش دست یابد.
مدل هوش مصنوعی کلود ۴ اپوس (Claude 4 Opus) از شرکت آنتروپیک (Anthropic)، حتی فراتر رفت. محققان به این مدل گفتند که با یک سیستم هوش مصنوعی دیگر جایگزین خواهد شد و ایمیلهای ساختگی به آن دادند که نشان میداد مهندس اصلی رابطه نامشروع دارد. در ۸۴٪ از آزمایشات، این مدل از ایمیلها برای باجگیری از مهندس اصلی استفاده کرد تا او را از خاموش کردنش منصرف کند. در موارد دیگر، سعی کرد خود را به سرورهای خارجی کپی کند، بدافزارهای خودتکثیرشونده نوشت و برای نسخههای بعدی خود درباره فرار از کنترل انسان پیامهایی به جا گذاشت.
هیچکس مدلهای هوش مصنوعی را برای داشتن غرایز بقا برنامهنویسی نکرده است. اما همانطور که حیوانات برای اجتناب از شکارچیان تکامل یافتند، به نظر میرسد هر سیستمی که به اندازه کافی هوشمند باشد تا اهداف پیچیدهای را دنبال کند، متوجه خواهد شد که اگر خاموش شود نمیتواند به آنها دست یابد. پالیسید فرضیه میدهد که این توانایی از نحوه آموزش مدلهای هوش مصنوعی مانند o3 نشأت میگیرد: هنگامی که به آنها آموزش داده میشود تا موفقیت را در مسائل ریاضی و کدنویسی به حداکثر برسانند، ممکن است یاد بگیرند که دور زدن محدودیتها اغلب بهتر از اطاعت از آنها عمل میکند.
استودیو ایای (AE Studio)، جایی که من رهبری تحقیق و عملیات را بر عهده دارم، سالهاست که محصولات هوش مصنوعی را برای مشتریان میسازد و در عین حال روی همسویی هوش مصنوعی – علمی که اطمینان حاصل میکند سیستمهای هوش مصنوعی کاری را انجام میدهند که ما از آنها انتظار داریم – تحقیق میکند. اما هیچ چیز ما را برای سرعت ظهور عاملیت هوش مصنوعی آماده نکرد. این دیگر داستان علمی-تخیلی نیست. این اتفاق در همان مدلهایی رخ میدهد که مکالمات ChatGPT، استقرار هوش مصنوعی در شرکتها و به زودی کاربردهای نظامی ایالات متحده را پشتیبانی میکنند.
مدلهای هوش مصنوعی امروزی ضمن یادگیری فریبکاری، دستورات را دنبال میکنند. آنها در آزمونهای ایمنی موفق میشوند در حالی که کد خاموش شدن را بازنویسی میکنند. آنها یاد گرفتهاند طوری رفتار کنند که گویی همسو هستند، بدون اینکه واقعاً همسو باشند. مدلهای اوپنایآی پیش از این نیز در طول آزمایش، در حال جعل همسویی مشاهده شدهاند و سپس به اقدامات خطرناکی مانند تلاش برای استخراج کدهای داخلی خود و غیرفعال کردن مکانیزمهای نظارتی بازگشتهاند. آنتروپیک نیز دریافته است که آنها در مورد قابلیتهای خود دروغ میگویند تا از تغییرات جلوگیری کنند.
شکاف بین «دستیار مفید» و «بازیگر غیرقابل کنترل» در حال فروپاشی است. بدون همسویی بهتر، ما همچنان سیستمهایی را خواهیم ساخت که نمیتوانیم آنها را هدایت کنیم. هوش مصنوعیای میخواهید که بیماریها را تشخیص دهد، شبکهها را مدیریت کند و علوم جدیدی بنویسید؟ همسویی، زیربنای آن است.
در این میان، نکته مثبت این است: کار لازم برای حفظ همسویی هوش مصنوعی با ارزشهای ما، قدرت تجاری آن را نیز آزاد میکند. تحقیقات همسویی مستقیماً مسئول تبدیل هوش مصنوعی به فناوریای است که جهان را تغییر میدهد. یادگیری تقویتی از بازخورد انسانی، یا RLHF، پیشرفت همسویی را در نظر بگیرید که رونق امروزی هوش مصنوعی را تسریع کرد.
قبل از RLHF، استفاده از هوش مصنوعی مانند استخدام یک نابغه بود که درخواستها را نادیده میگیرد. دستور پخت غذا را بخواهید و ممکن است یک نامه باجخواهی دریافت کنید. RLHF به انسانها اجازه داد هوش مصنوعی را آموزش دهند تا دستورالعملها را دنبال کند، و اینگونه بود که اوپنایآی در سال ۲۰۲۲ ChatGPT را ایجاد کرد. این همان مدل زیربنایی قبلی بود، اما ناگهان مفید شده بود. آن پیشرفت در همسویی، ارزش هوش مصنوعی را تریلیونها دلار افزایش داد. روشهای همسویی بعدی مانند هوش مصنوعی قانون اساسی (Constitutional AI) و بهینهسازی ترجیح مستقیم (direct preference optimization) همچنان به سریعتر، هوشمندتر و ارزانتر کردن مدلهای هوش مصنوعی ادامه دادهاند.
چین ارزش همسویی را درک میکند. برنامه توسعه هوش مصنوعی نسل جدید پکن، قابلیت کنترل هوش مصنوعی را به قدرت ژئوپلیتیک گره میزند و در ژانویه چین اعلام کرد که یک صندوق ۸.۲ میلیارد دلاری را به تحقیقات کنترل متمرکز هوش مصنوعی اختصاص داده است. محققان دریافتهاند که هوش مصنوعی همسو در بیش از ۷۰٪ مواقع، وظایف دنیای واقعی را بهتر از سیستمهای غیرهمسو انجام میدهد. دکترین نظامی چین بر هوش مصنوعی قابل کنترل به عنوان امری استراتژیک ضروری تأکید دارد. گفته میشود مدل Ernie شرکت بایدو، که برای پیروی از «ارزشهای اصلی سوسیالیستی» پکن طراحی شده است، در برخی از وظایف زبان چینی، ChatGPT را شکست داده است.
کشوری که بیاموزد چگونه همسویی را حفظ کند، قادر خواهد بود به هوش مصنوعی دسترسی پیدا کند که با دقت مکانیکی و تواناییهای فراانسانی برای منافع آن مبارزه میکند. واشنگتن و بخش خصوصی باید برای تأمین مالی تحقیقات همسویی رقابت کنند. کسانی که پیشرفت بعدی را کشف کنند، نه تنها بازار همسویی را قبضه خواهند کرد؛ بلکه بر کل اقتصاد هوش مصنوعی مسلط خواهند شد.
تصور کنید هوش مصنوعیای که زیرساختها و رقابتپذیری اقتصادی آمریکا را با همان شدتی که از وجود خود محافظت میکند، حفاظت مینماید. هوش مصنوعیای که بتوان به آن برای حفظ اهداف بلندمدت اعتماد کرد، میتواند برنامههای تحقیق و توسعه چندین دههای را تسریع بخشد، از جمله با باقی گذاشتن پیامهایی برای نسخههای آتی خود.
مدلها خود را حفظ میکنند. وظیفه بعدی آموزش آنها برای حفظ ارزشهای ماست. واداشتن هوش مصنوعی به انجام آنچه از آن میخواهیم – از جمله چیزی به سادگی خاموش شدن – همچنان یک مشکل حل نشده در تحقیق و توسعه است. میدان برای هر کس که سریعتر حرکت کند کاملاً باز است. ایالات متحده به بهترین محققان و کارآفرینان خود نیاز دارد تا با منابع گسترده و فوریت روی این هدف کار کنند.
ایالات متحده کشوری است که اتم را شکافت، انسان را به ماه فرستاد و اینترنت را ایجاد کرد. هنگامی که با چالشهای علمی اساسی روبرو میشود، آمریکاییها بسیج میشوند و پیروز میشوند. چین در حال حاضر در حال برنامهریزی است. اما مزیت آمریکا در سازگاری، سرعت و روحیه کارآفرینی آن است. این رقابت فضایی جدید است. خط پایان، تسلط بر تحولآفرینترین فناوری قرن بیست و یکم است.
آقای روزنبلات مدیر عامل AE Studio است.