مدل هوش مصنوعی فیبل ۵ انتروپیک با تدابیر حفاظتی خودبهبودی جنجال‌ساز شد

اوایل امسال، شرکت انتروپیک (Anthropic) از انتشار مدل هوش مصنوعی میتوس (Mythos) خود به صورت عمومی خودداری کرد و اعلام داشت که این مدل بسیار خطرناک است.

در آن زمان، مدیران شرکت ادعا کردند که این مدل قادر است از موانع قدرتمند امنیت سایبری عبور کند و به محققانی اشاره کردند که با استفاده از آن هزاران آسیب‌پذیری در کدهای منبع بازِ پرکاربرد را کشف کرده بودند.

ماه‌ها بعد، انتروپیک سرانجام آماده عرضه عمومی این مدل شد. روز سه‌شنبه، این شرکت به رهبری داریو آمودئی، مدلی مبتنی بر میتوس به نام فیبل ۵ (Fable 5) را معرفی کرد و ادعا نمود که این مدل «برای استفاده عمومی ایمن است».

با این حال، تدابیر حفاظتی جدید به سرعت محققان هوش مصنوعی را ناامید کرد. آن‌ها این شرکت را متهم کردند که عمداً قابلیت‌های فیبل ۵ را محدود کرده است. واکنش‌ها به قدری شدید بود که انتروپیک به سرعت سیاست خود را تعدیل کرد؛ همانطور که نشریه وایرد (Wired) روز چهارشنبه گزارش داد و نشان داد که این شرکت با چه دقتی در حال حرکت است.

در اطلاعیه اولیه خود، انتروپیک ادعا کرد که این تدابیر حفاظتی برای جلوگیری از خودبهبودی فیبل ۵ طراحی شده‌اند و شامل «مداخلات جدیدی هستند که اثربخشی کلود (Claude) را برای درخواست‌های مربوط به توسعه مدل‌های زبان بزرگ (LLM) پیشرفته محدود می‌کنند.» تنها چند روز پیش از عرضه، انتروپیک گزارشی منتشر کرد در مورد «زمانی که هوش مصنوعی خودش را می‌سازد»، روندی که «ممکن است خطرات از دست دادن کنترل انسان بر سیستم‌های هوش مصنوعی را افزایش دهد.»

با این حال، محققان هوش مصنوعی از محدود کردن قابلیت‌های جدیدترین مدل انتروپیک تحت تأثیر قرار نگرفتند.

شرکت تحقیقاتی هوش مصنوعی سمی‌آنالیسیس (SemiAnalysis) در توییتی نوشت: «جدیدترین مدل انتروپیک در صورتی که تحقیقات یادگیری ماشین (ML) یا مهندسی یادگیری ماشین شما را جالب تشخیص دهد، به شما کمک نخواهد کرد و/یا به طور مخفیانه ضریب هوشی آن را کاهش می‌دهد تا مهندس معمولی متوجه نشود.»

این شرکت افزود: «ما در حال حاضر می‌بینیم که فیلترهای تعدیل‌کننده جدیدترین مدل انتروپیک، تحقیقات و برنامه‌نویسی GPU استنتاج ما را فیلتر می‌کنند.»

سایر محققان انتروپیک را متهم کردند که از فیبل ۵ برای «سایه‌بانی» یا محدود کردن بی‌سروصدا حساب‌های محققان هوش مصنوعی استفاده می‌کند. بر اساس کارت سیستم این شرکت، مداخلات محدودکننده درخواست‌های مربوط به «توسعه مدل‌های زبان بزرگ پیشرفته» «برای کاربر قابل مشاهده نخواهد بود».

این نگرانی اخیر، که می‌توانست هر کسی را که قصد آموزش مدل‌های رقیب را داشت، با تنزل بی‌سروصدا به مدل‌های کم‌قدرت‌تر بدون اطلاع آن‌ها، به طور مؤثری خراب کند، به اندازه‌ای بحث‌برانگیز شد که انتروپیک نظر خود را تغییر دهد.

این شرکت در بیانیه‌ای به وایرد گفت: «ما در حال تغییر تدابیر حفاظتی فیبل ۵ برای توسعه مدل‌های زبان بزرگ پیشرفته هستیم تا آن‌ها قابل مشاهده باشند. ما اشتباه کردیم و بابت عدم ایجاد تعادل صحیح عذرخواهی می‌کنیم.»

ویل براون، سرپرست تحقیقات در استارتاپ هوش مصنوعی پرایم اینتلکت (Prime Intellect)، به این نشریه گفت: «این کار به این معنا بود که انتروپیک به مردم می‌گفت: "ما به هیچ‌کس دیگری برای انجام تحقیقات هوش مصنوعی اعتماد نداریم. ما تنها کسانی هستیم که باید تحقیقات هوش مصنوعی را انجام دهیم."»

این اتفاقات در حالی رخ می‌دهد که انتروپیک خواستار توقف جهانی پیشرفت‌های هوش مصنوعی شده و در مورد خطرات «خودبهبودی بازگشتی» (recursive self-improvement) صحبت می‌کند. به عبارت دیگر، این شرکت در مورد یک احتمال علمی-تخیلی سر و صدای زیادی به راه انداخته است: اینکه هوش مصنوعی به سرعت شروع به بهبود خود کند و احتمالاً از کنترل سازندگان انسانی خود خارج شود.

فراتر از محدود کردن توانایی فیبل ۵ در توسعه ابزارهای هوش مصنوعی، تدابیر حفاظتی جدید این مدل زمانی نیز فعال می‌شوند که با درخواست‌های «مرتبط با امنیت سایبری، زیست‌شناسی و شیمی، یا تقطیر (distillation)» مواجه شود. تقطیر در واقع استفاده از یادگیری ماشین برای آموزش یک مدل «دانش‌آموز» بر اساس رفتار و استدلال یک مدل «معلم» است، عملی که به نوبه خود جنجال‌های خاص خود را به همراه داشته است.

انتروپیک پیش‌تر به طور عمومی از تلاش‌های گسترده برای تقطیر یا «استخراج» مدل اصلی خود گلایه کرده بود — موضعی ریاکارانه با توجه به جمع‌آوری بی‌رویه محتوای دارای حق تکثیر از وب برای آموزش هوش مصنوعی خود در وهله اول.

https://futurism.com/artificial-intelligence/anthropic-concerned-models-ability-improve-itself