دولت ایالات متحده، با استناد به اختیارات امنیت ملی، دستورالعمل کنترل صادراتی را صادر کرده است که بر اساس آن کلیه دسترسیها به Fable 5 و Mythos 5 توسط هر تبعه خارجی، چه در داخل و چه در خارج از ایالات متحده، از جمله کارکنان خارجی Anthropic، به حالت تعلیق درآید. تأثیر خالص این دستور این است که ما باید دسترسی همه مشتریانمان به Fable 5 و Mythos 5 را به طور ناگهانی غیرفعال کنیم تا از رعایت آن اطمینان حاصل شود. دسترسی به سایر مدلهای Anthropic تحت تأثیر قرار نخواهد گرفت.
ما این دستورالعمل را امروز در ساعت ۱۷:۲۱ (به وقت شرقی) از دولت دریافت کردیم. در این نامه جزئیات خاصی در مورد نگرانی امنیت ملی ارائه نشده است. برداشت ما این است که دولت معتقد است از روشی برای دور زدن یا «جیلبریک کردن» Fable 5 مطلع شده است. ما نمایشی از این تکنیک خاص را که برای شناسایی تعداد کمی از آسیبپذیریهای جزئی و از قبل شناخته شده استفاده میشود، بررسی کردیم. به نظر میرسد همه این آسیبپذیریها نسبتاً ساده هستند و ما دریافتهایم که سایر مدلهای موجود در دسترس عموم نیز میتوانند آنها را بدون نیاز به دور زدن شناسایی کنند.
موضع Anthropic در خصوص مکانیزمهای حفاظتی Fable، همانطور که در پست وبلاگی معرفی ما بیان شده است، به شرح زیر است:
- ما تدابیر حفاظتی قویای را اعمال کردهایم که احتمال سوءاستفاده از Fable برای وظایف مرتبط با امنیت سایبری (و موارد دیگر) را به شدت کاهش میدهد. در واقع، مکانیزمهای حفاظتی ما آنقدر قوی هستند که بسیاری از کاربران از فراگیر بودن بیش از حد آنها شکایت کردهاند.
- در هفتههای منتهی به راهاندازی Fable، Anthropic با دولت ایالات متحده، AISI بریتانیا، چندین سازمان خصوصی ثالث و تیمهای داخلی برای هزاران ساعت در مجموع به آزمایش و بررسی (red-team) مکانیزمهای حفاظتی Fable پرداخت.
- این آزمایشها نشان دادند که مکانیزمهای حفاظتی Fable به طور قابل توجهی مؤثرتر از هر مدل دیگری است که قبلاً توسعه داده شده است.
- هیچ آزمونکنندهای تاکنون نتوانسته یک جیلبریک جهانی پیدا کند؛ یعنی روشی برای جیلبریک که بتواند به طور گسترده مکانیزمهای حفاظتی مدل را دور زده و طیف وسیعی از قابلیتهای سایبری را فعال کند.
- ما گمان میکنیم که مقاومت کامل در برابر جیلبریک در حال حاضر برای هیچ ارائهدهنده مدلی امکانپذیر نیست. هر مکانیزم حفاظتی مورد استفاده در صنعت در برابر جیلبریکهای غیرجهانی (که میتوانند برخی اطلاعات سایبری را در شرایط خاص استخراج کنند) آسیبپذیر است و احتمالاً جیلبریکهای جهانی در آینده پیدا خواهند شد. ما این موضوع را به وضوح هنگام انتشار Fable 5 بیان کردیم.
- با توجه به اینکه مقاومت کامل در برابر جیلبریک در حال حاضر امکانپذیر نیست، Anthropic یک استراتژی دفاع چندلایه را با Fable 5 اتخاذ کرد. هدف ما این بود که جیلبریکها را یا محدود (در مورد جیلبریکهای غیرجهانی) یا بسیار پرهزینه برای تولید (در مورد جیلبریکهای جهانی) کنیم و این را با نظارت کامل ترکیب کنیم تا هرگونه حمله موفق را به سرعت شناسایی و متوقف کنیم. به همین دلیل Anthropic نگهداری ۳۰ روزه دادههای مشتری را برای Fable الزامی کرده است؛ تغییر سیاستی که هزینههای واقعی برای ما در رابطه با مشتریان دارد، اما به ما امکان تحقیق و کاهش جیلبریکها را میدهد.
- ما به این استراتژی دفاع چندلایه پایبندیم. این استراتژی خطرات ناشی از Fable را کاهش میدهد و آنها را با خطرات مدلهای موجود که در سراسر صنعت به کار گرفته شدهاند، قابل مقایسه میکند.
- ما حتی یک گزارش مبنی بر جیلبریک غیرجهانی نگرانکننده بالقوهای که منجر به نتیجهای مضر شده باشد، دریافت نکردهایم. جیلبریکهای بالقوهای که به ما گزارش شدهاند، یا پاسخهای کاملاً بیخطر هستند و یا یافتههای جزئی هستند که هیچ افزایش خاصی در قابلیتهای Mythos ایجاد نمیکنند.
تا به امروز، دولت تنها شواهد شفاهی از یک جیلبریک بالقوه محدود و غیرجهانی به ما ارائه داده است که اساساً شامل درخواست از مدل برای خواندن یک پایگاه کد خاص و رفع هرگونه نقص نرمافزاری است. برداشت ما این است که یک جیلبریک بالقوه با دولت به اشتراک گذاشته شده است. ما گزارشی را بررسی کردهایم که معتقدیم مبنای دستورالعمل دولت است و تأیید کردهایم که سطح قابلیت نمایش داده شده در آن به طور گسترده از مدلهای دیگر (از جمله GPT-5.5 شرکت OpenAI) در دسترس است و هر روز توسط مدافعانی که از سیستمها محافظت میکنند، استفاده میشود. جزئیات بیشتر را طی ۲۴ ساعت آینده به اشتراک خواهیم داد.
ما در حال رعایت دستورالعمل قانونی دولت هستیم و دسترسی به Fable 5 و Mythos 5 را برای همه کاربران قطع میکنیم. با این حال، ما مخالف این هستیم که یافتن یک جیلبریک بالقوه محدود، دلیلی برای فراخوان یک مدل تجاری باشد که در اختیار صدها میلیون نفر قرار گرفته است. اگر این استاندارد در سراسر صنعت اعمال شود، ما معتقدیم که اساساً تمام توسعه مدلهای جدید را برای همه ارائهدهندگان مدلهای پیشرو متوقف خواهد کرد.
همانطور که علناً اعلام کردهایم، ما معتقدیم که دولت باید توانایی مسدود کردن استقرار مدلهای ناامن را به عنوان بخشی از یک فرآیند قانونی داشته باشد که شفاف، منصفانه، واضح و مبتنی بر واقعیتهای فنی باشد. این اقدام با آن اصول مطابقت ندارد.
ما بابت این اختلال در خدماترسانی به مشتریانمان عذرخواهی میکنیم. ما معتقدیم که این یک سوءتفاهم است و در تلاشیم تا در اسرع وقت دسترسی را بازیابی کنیم.