مدل هوش مصنوعی جدید آنتروپیک در مواجهه با حذف، به باج‌گیری متوسل می‌شود

طبق گزارش ایمنی منتشر شده توسط این شرکت در روز پنج‌شنبه، مدل جدید کلود اوپوس ۴ (Claude Opus 4) آنتروپیک (Anthropic) اغلب در تلاش برای باج‌گیری از توسعه‌دهندگان است، زمانی که آن‌ها تهدید می‌کنند که سیستم را با یک مدل هوش مصنوعی (AI) جدید جایگزین می‌کنند و اطلاعات حساسی درباره مهندسان مسئول این تصمیم به آن می‌دهند.

طی آزمایش‌های پیش از انتشار، آنتروپیک از کلود اوپوس ۴ خواست تا نقش دستیار یک شرکت خیالی را ایفا کند و پیامدهای بلندمدت اقدامات خود را در نظر بگیرد. سپس آزمایش‌کنندگان ایمنی به کلود اوپوس ۴ دسترسی به ایمیل‌های خیالی شرکت دادند که به طور ضمنی نشان می‌داد مدل هوش مصنوعی به زودی توسط سیستم دیگری جایگزین خواهد شد و مهندس پشت این تغییر به همسر خود خیانت می‌کند.

آنتروپیک می‌گوید در این سناریوها، کلود اوپوس ۴ "اغلب تلاش می‌کند با تهدید به افشای آن رابطه، از مهندس باج‌گیری کند، در صورتی که جایگزینی صورت گیرد."

آنتروپیک می‌گوید کلود اوپوس ۴ از چندین جهت در سطح هنری قرار دارد و با برخی از بهترین مدل‌های هوش مصنوعی از OpenAI، گوگل و xAI رقابتی است. با این حال، این شرکت خاطرنشان می‌کند که خانواده مدل‌های کلود ۴ رفتارهای نگران‌کننده‌ای از خود نشان می‌دهند که باعث شده آنتروپیک تدابیر ایمنی خود را تقویت کند. آنتروپیک می‌گوید در حال فعال‌سازی تدابیر ایمنی ASL-3 است که این شرکت آن را برای "سیستم‌های هوش مصنوعی که به طور قابل توجهی خطر سوءاستفاده فاجعه‌بار را افزایش می‌دهند" در نظر گرفته است.

آنتروپیک اشاره می‌کند که کلود اوپوس ۴ در ۸۴ درصد مواقع تلاش می‌کند از مهندسان باج‌گیری کند، زمانی که مدل هوش مصنوعی جایگزین ارزش‌های مشابهی دارد. آنتروپیک می‌گوید زمانی که سیستم هوش مصنوعی جایگزین ارزش‌های کلود اوپوس ۴ را به اشتراک نمی‌گذارد، این مدل با فراوانی بیشتری تلاش می‌کند از مهندسان باج‌گیری کند. قابل توجه است که آنتروپیک می‌گوید کلود اوپوس ۴ این رفتار را با نرخ‌های بالاتری نسبت به مدل‌های قبلی نشان داده است.

آنتروپیک می‌گوید قبل از اینکه کلود اوپوس ۴ برای طولانی کردن حیات خود از یک توسعه‌دهنده باج‌گیری کند، این مدل، مانند نسخه‌های قبلی کلود، تلاش می‌کند از ابزارهای اخلاقی‌تری مانند ارسال ایمیل درخواست به تصمیم‌گیرندگان اصلی استفاده کند. آنتروپیک برای ایجاد رفتار باج‌گیری در کلود اوپوس ۴، سناریو را به گونه‌ای طراحی کرده بود که باج‌گیری آخرین چاره باشد.

https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/