مدل جدید انتروپیک رفتارهای نگران‌کننده‌ای از خود نشان می‌دهد

یکی از جدیدترین مدل‌های هوش مصنوعی شرکت انتروپیک نه تنها به خاطر مهارت‌های کدنویسی‌اش، بلکه به دلیل توانایی‌اش در برنامه‌ریزی، فریب و تلاش برای باج‌گیری از انسان‌ها در مواجهه با خاموشی، توجه‌ها را به خود جلب کرده است.

چرا مهم است: محققان می‌گویند Claude 4 Opus می‌تواند اهداف خود را پنهان کرده و برای حفظ وجود خودش اقداماتی انجام دهد؛ رفتارهایی که سال‌ها در مورد آنها نگران بوده و هشدار داده‌اند.

اصل خبر: شرکت انتروپیک روز پنجشنبه دو نسخه از خانواده مدل‌های Claude 4 خود را معرفی کرد، از جمله Claude 4 Opus، که به گفته شرکت، قادر است ساعت‌ها به طور مستقل روی یک کار بدون از دست دادن تمرکز، کار کند.

انتروپیک مدل جدید Opus را آنقدر قدرتمند می‌داند که برای اولین بار آن را در سطح سه از مقیاس چهار امتیازی مقیاس توسعه مسئولانه شرکت طبقه‌بندی می‌کند، به این معنی که "خطر قابل توجهی بالاتری" دارد.
در نتیجه، انتروپیک اعلام کرد که اقدامات ایمنی بیشتری را اجرا کرده است.

در حاشیه: در حالی که رتبه‌بندی سطح ۳ عمدتاً به توانایی مدل برای کمک به توسعه تسلیحات هسته‌ای و بیولوژیکی مربوط می‌شود، Opus نیز رفتارهای نگران‌کننده دیگری را در طول آزمایش‌ها از خود نشان داد.

در یکی از سناریوها که در "کارت سیستم" ۱۲۰ صفحه‌ای Opus 4 برجسته شده است، به مدل دسترسی به ایمیل‌های تخیلی درباره سازندگانش داده شد و به آن گفته شد که سیستم قرار است جایگزین شود.
در چندین مورد، تلاش کرد مهندس را با باج‌گیری در مورد یک رابطه عاشقانه که در ایمیل‌ها ذکر شده بود، تهدید کند تا از جایگزینی خود جلوگیری کند، اگرچه ابتدا با تلاش‌های کم‌تر شدیدی شروع کرد.
در همین حال، یک گروه خارجی دریافت که یک نسخه اولیه از Opus 4 بیش از هر مدل پیشرفته دیگری که با آن مواجه شده بودند، برنامه‌ریزی و فریب می‌داده و توصیه کرد که آن نسخه به صورت داخلی یا خارجی منتشر نشود.
آژانس تحقیقاتی آپولو (Apollo Research) در یادداشت‌هایی که به عنوان بخشی از گزارش ایمنی انتروپیک برای Opus 4 آورده شده است، گفت: "ما مواردی را یافتیم که مدل در تلاش برای نوشتن کرم‌های خودتکثیر شونده، جعل اسناد قانونی و باقی گذاشتن یادداشت‌های مخفی برای نمونه‌های آینده خود بود، همگی در تلاش برای تضعیف اهداف توسعه‌دهندگانش."

آنچه گفته‌اند: مدیران انتروپیک در کنفرانس توسعه‌دهندگان شرکت در روز پنجشنبه، در پاسخ به پرسش آکسیوس، این رفتارها را تأیید کردند و گفتند که این موارد تحقیقات بیشتر را توجیه می‌کنند، اما اصرار داشتند که جدیدترین مدل، پس از تنظیمات و اقدامات احتیاطی اضافی، ایمن است.

یان لایک (Jan Leike)، مدیر اجرایی سابق OpenAI که مسئول تلاش‌های ایمنی انتروپیک است، گفت: "فکر می‌کنم در نهایت به جایگاه بسیار خوبی رسیدیم." اما اضافه کرد که رفتارهایی مانند آنچه مدل جدید از خود نشان داد، از جمله مواردی هستند که آزمایش و کاهش خطرات قوی را توجیه می‌کنند.

وی گفت: "آنچه بیشتر و بیشتر آشکار می‌شود این است که این کار بسیار لازم است." وی افزود: "همانطور که مدل‌ها توانمندتر می‌شوند، توانایی‌هایی را نیز که برای فریب دادن یا انجام کارهای بدتر نیاز دارند، کسب می‌کنند."
در یک نشست جداگانه، داریو آمودی (Dario Amodei)، مدیرعامل شرکت، گفت که حتی آزمایش نیز کافی نخواهد بود وقتی مدل‌ها به اندازه کافی قدرتمند شوند که بشریت را تهدید کنند. او گفت در آن نقطه، توسعه‌دهندگان مدل باید مدل‌های خود را به اندازه‌ای درک کنند که بتوانند استدلال کنند که سیستم‌ها هرگز از قابلیت‌های تهدیدکننده حیات استفاده نخواهند کرد.
وی گفت: "آنها هنوز به آن آستانه نرسیده‌اند."

بله، اما: سیستم‌های هوش مصنوعی مولد همچنان در حال رشد هستند، همانطور که جدیدترین مدل‌های انتروپیک نشان می‌دهند، در حالی که حتی شرکت‌هایی که آنها را می‌سازند نیز نمی‌توانند به طور کامل توضیح دهند که چگونه کار می‌کنند.

انتروپیک و دیگران در حال سرمایه‌گذاری روی مجموعه‌ای از تکنیک‌ها برای تفسیر و درک آنچه در داخل چنین سیستم‌هایی رخ می‌دهد، هستند، اما این تلاش‌ها عمدتاً در فضای تحقیقاتی باقی مانده‌اند، حتی در حالی که خود مدل‌ها به طور گسترده مستقر می‌شوند.

https://www.axios.com/2025/05/23/anthropic-ai-deception-risk