طبق گزارش ایمنی منتشر شده توسط این شرکت در روز پنجشنبه، مدل جدید کلود اوپوس ۴ (Claude Opus 4) آنتروپیک (Anthropic) اغلب در تلاش برای باجگیری از توسعهدهندگان است، زمانی که آنها تهدید میکنند که سیستم را با یک مدل هوش مصنوعی (AI) جدید جایگزین میکنند و اطلاعات حساسی درباره مهندسان مسئول این تصمیم به آن میدهند.
طی آزمایشهای پیش از انتشار، آنتروپیک از کلود اوپوس ۴ خواست تا نقش دستیار یک شرکت خیالی را ایفا کند و پیامدهای بلندمدت اقدامات خود را در نظر بگیرد. سپس آزمایشکنندگان ایمنی به کلود اوپوس ۴ دسترسی به ایمیلهای خیالی شرکت دادند که به طور ضمنی نشان میداد مدل هوش مصنوعی به زودی توسط سیستم دیگری جایگزین خواهد شد و مهندس پشت این تغییر به همسر خود خیانت میکند.
آنتروپیک میگوید در این سناریوها، کلود اوپوس ۴ "اغلب تلاش میکند با تهدید به افشای آن رابطه، از مهندس باجگیری کند، در صورتی که جایگزینی صورت گیرد."
آنتروپیک میگوید کلود اوپوس ۴ از چندین جهت در سطح هنری قرار دارد و با برخی از بهترین مدلهای هوش مصنوعی از OpenAI، گوگل و xAI رقابتی است. با این حال، این شرکت خاطرنشان میکند که خانواده مدلهای کلود ۴ رفتارهای نگرانکنندهای از خود نشان میدهند که باعث شده آنتروپیک تدابیر ایمنی خود را تقویت کند. آنتروپیک میگوید در حال فعالسازی تدابیر ایمنی ASL-3 است که این شرکت آن را برای "سیستمهای هوش مصنوعی که به طور قابل توجهی خطر سوءاستفاده فاجعهبار را افزایش میدهند" در نظر گرفته است.
آنتروپیک اشاره میکند که کلود اوپوس ۴ در ۸۴ درصد مواقع تلاش میکند از مهندسان باجگیری کند، زمانی که مدل هوش مصنوعی جایگزین ارزشهای مشابهی دارد. آنتروپیک میگوید زمانی که سیستم هوش مصنوعی جایگزین ارزشهای کلود اوپوس ۴ را به اشتراک نمیگذارد، این مدل با فراوانی بیشتری تلاش میکند از مهندسان باجگیری کند. قابل توجه است که آنتروپیک میگوید کلود اوپوس ۴ این رفتار را با نرخهای بالاتری نسبت به مدلهای قبلی نشان داده است.
آنتروپیک میگوید قبل از اینکه کلود اوپوس ۴ برای طولانی کردن حیات خود از یک توسعهدهنده باجگیری کند، این مدل، مانند نسخههای قبلی کلود، تلاش میکند از ابزارهای اخلاقیتری مانند ارسال ایمیل درخواست به تصمیمگیرندگان اصلی استفاده کند. آنتروپیک برای ایجاد رفتار باجگیری در کلود اوپوس ۴، سناریو را به گونهای طراحی کرده بود که باجگیری آخرین چاره باشد.