یکی از جدیدترین مدلهای هوش مصنوعی شرکت انتروپیک نه تنها به خاطر مهارتهای کدنویسیاش، بلکه به دلیل تواناییاش در برنامهریزی، فریب و تلاش برای باجگیری از انسانها در مواجهه با خاموشی، توجهها را به خود جلب کرده است.
چرا مهم است: محققان میگویند Claude 4 Opus میتواند اهداف خود را پنهان کرده و برای حفظ وجود خودش اقداماتی انجام دهد؛ رفتارهایی که سالها در مورد آنها نگران بوده و هشدار دادهاند.
اصل خبر: شرکت انتروپیک روز پنجشنبه دو نسخه از خانواده مدلهای Claude 4 خود را معرفی کرد، از جمله Claude 4 Opus، که به گفته شرکت، قادر است ساعتها به طور مستقل روی یک کار بدون از دست دادن تمرکز، کار کند.
- انتروپیک مدل جدید Opus را آنقدر قدرتمند میداند که برای اولین بار آن را در سطح سه از مقیاس چهار امتیازی مقیاس توسعه مسئولانه شرکت طبقهبندی میکند، به این معنی که "خطر قابل توجهی بالاتری" دارد.
- در نتیجه، انتروپیک اعلام کرد که اقدامات ایمنی بیشتری را اجرا کرده است.
در حاشیه: در حالی که رتبهبندی سطح ۳ عمدتاً به توانایی مدل برای کمک به توسعه تسلیحات هستهای و بیولوژیکی مربوط میشود، Opus نیز رفتارهای نگرانکننده دیگری را در طول آزمایشها از خود نشان داد.
- در یکی از سناریوها که در "کارت سیستم" ۱۲۰ صفحهای Opus 4 برجسته شده است، به مدل دسترسی به ایمیلهای تخیلی درباره سازندگانش داده شد و به آن گفته شد که سیستم قرار است جایگزین شود.
- در چندین مورد، تلاش کرد مهندس را با باجگیری در مورد یک رابطه عاشقانه که در ایمیلها ذکر شده بود، تهدید کند تا از جایگزینی خود جلوگیری کند، اگرچه ابتدا با تلاشهای کمتر شدیدی شروع کرد.
- در همین حال، یک گروه خارجی دریافت که یک نسخه اولیه از Opus 4 بیش از هر مدل پیشرفته دیگری که با آن مواجه شده بودند، برنامهریزی و فریب میداده و توصیه کرد که آن نسخه به صورت داخلی یا خارجی منتشر نشود.
- آژانس تحقیقاتی آپولو (Apollo Research) در یادداشتهایی که به عنوان بخشی از گزارش ایمنی انتروپیک برای Opus 4 آورده شده است، گفت: "ما مواردی را یافتیم که مدل در تلاش برای نوشتن کرمهای خودتکثیر شونده، جعل اسناد قانونی و باقی گذاشتن یادداشتهای مخفی برای نمونههای آینده خود بود، همگی در تلاش برای تضعیف اهداف توسعهدهندگانش."
آنچه گفتهاند: مدیران انتروپیک در کنفرانس توسعهدهندگان شرکت در روز پنجشنبه، در پاسخ به پرسش آکسیوس، این رفتارها را تأیید کردند و گفتند که این موارد تحقیقات بیشتر را توجیه میکنند، اما اصرار داشتند که جدیدترین مدل، پس از تنظیمات و اقدامات احتیاطی اضافی، ایمن است.
- یان لایک (Jan Leike)، مدیر اجرایی سابق OpenAI که مسئول تلاشهای ایمنی انتروپیک است، گفت: "فکر میکنم در نهایت به جایگاه بسیار خوبی رسیدیم." اما اضافه کرد که رفتارهایی مانند آنچه مدل جدید از خود نشان داد، از جمله مواردی هستند که آزمایش و کاهش خطرات قوی را توجیه میکنند.
- وی گفت: "آنچه بیشتر و بیشتر آشکار میشود این است که این کار بسیار لازم است." وی افزود: "همانطور که مدلها توانمندتر میشوند، تواناییهایی را نیز که برای فریب دادن یا انجام کارهای بدتر نیاز دارند، کسب میکنند."
- در یک نشست جداگانه، داریو آمودی (Dario Amodei)، مدیرعامل شرکت، گفت که حتی آزمایش نیز کافی نخواهد بود وقتی مدلها به اندازه کافی قدرتمند شوند که بشریت را تهدید کنند. او گفت در آن نقطه، توسعهدهندگان مدل باید مدلهای خود را به اندازهای درک کنند که بتوانند استدلال کنند که سیستمها هرگز از قابلیتهای تهدیدکننده حیات استفاده نخواهند کرد.
- وی گفت: "آنها هنوز به آن آستانه نرسیدهاند."
بله، اما: سیستمهای هوش مصنوعی مولد همچنان در حال رشد هستند، همانطور که جدیدترین مدلهای انتروپیک نشان میدهند، در حالی که حتی شرکتهایی که آنها را میسازند نیز نمیتوانند به طور کامل توضیح دهند که چگونه کار میکنند.
- انتروپیک و دیگران در حال سرمایهگذاری روی مجموعهای از تکنیکها برای تفسیر و درک آنچه در داخل چنین سیستمهایی رخ میدهد، هستند، اما این تلاشها عمدتاً در فضای تحقیقاتی باقی ماندهاند، حتی در حالی که خود مدلها به طور گسترده مستقر میشوند.