کاهش زمان تست ایمنی مدل‌های هوش مصنوعی در OpenAI

شرکت OpenAI زمان و منابعی را که برای آزمایش ایمنی مدل‌های قدرتمند هوش مصنوعی خود صرف می‌کند، کاهش داده است. این اقدام نگرانی‌هایی را در مورد این که فناوری این شرکت بدون محافظت‌های کافی در حال انتشار است، برانگیخته است.

به کارکنان و گروه‌های ثالث اخیراً تنها چند روز فرصت داده شده است تا "ارزیابی‌ها" (اصطلاحی که به آزمایش‌های ارزیابی خطرات و عملکرد مدل‌ها اطلاق می‌شود) را بر روی آخرین مدل‌های زبانی بزرگ OpenAI انجام دهند. این در حالی است که قبلاً چندین ماه برای این کار زمان صرف می‌شد.

به گفته هشت نفر که با فرآیندهای آزمایش OpenAI آشنا هستند، آزمایش‌های این استارت‌آپ کمتر دقیق شده است و زمان و منابع کافی برای شناسایی و کاهش خطرات اختصاص داده نمی‌شود. این در حالی است که این استارت‌آپ ۳۰۰ میلیارد دلاری تحت فشار است تا مدل‌های جدید را به سرعت منتشر کند و برتری رقابتی خود را حفظ کند.

یکی از افرادی که در حال حاضر مدل o3 در حال توسعه OpenAI را آزمایش می‌کند (مدلی که برای کارهای پیچیده مانند حل مسئله و استدلال طراحی شده است) می‌گوید: «زمانی که [فناوری] اهمیت کمتری داشت، آزمایش‌های ایمنی دقیق‌تری داشتیم.»

او افزود که با توانمندتر شدن مدل‌های زبانی بزرگ (LLM)، "احتمال استفاده از فناوری به عنوان سلاح" افزایش می‌یابد. «اما از آنجا که تقاضا برای آن بیشتر است، می‌خواهند آن را سریع‌تر منتشر کنند. امیدوارم این یک اشتباه فاجعه‌بار نباشد، اما بی‌احتیاطی است. این دستورالعملی برای فاجعه است.»

به گفته افراد آشنا با موضوع، این کمبود زمان ناشی از "فشارهای رقابتی" است، زیرا OpenAI با گروه‌های بزرگ فناوری مانند متا و گوگل و استارت‌آپ‌هایی مانند xAI ایلان ماسک برای کسب درآمد از این فناوری پیشرفته رقابت می‌کند.

هیچ استاندارد جهانی برای آزمایش ایمنی هوش مصنوعی وجود ندارد، اما از اواخر امسال، قانون هوش مصنوعی اتحادیه اروپا شرکت‌ها را مجبور می‌کند تا آزمایش‌های ایمنی را روی قدرتمندترین مدل‌های خود انجام دهند. پیش از این، گروه‌های هوش مصنوعی، از جمله OpenAI، تعهدات داوطلبانه‌ای را با دولت‌های بریتانیا و ایالات متحده امضا کرده‌اند تا به محققان مؤسسات ایمنی هوش مصنوعی اجازه دهند مدل‌ها را آزمایش کنند.

به گفته افراد آشنا با موضوع، OpenAI در تلاش است تا مدل جدید خود، o3 را در اوایل هفته آینده منتشر کند و به برخی از آزمایش‌کنندگان کمتر از یک هفته برای بررسی ایمنی فرصت دهد. این تاریخ انتشار ممکن است تغییر کند.

پیش از این، OpenAI چندین ماه برای آزمایش‌های ایمنی فرصت می‌داد. به گفته افراد آشنا با موضوع، برای GPT-4، که در سال ۲۰۲۳ عرضه شد، آزمایش‌کنندگان شش ماه فرصت داشتند تا قبل از انتشار، ارزیابی‌ها را انجام دهند.

یکی از افرادی که GPT-4 را آزمایش کرده است، گفت که برخی از قابلیت‌های خطرناک تنها دو ماه پس از شروع آزمایش کشف شدند. آن‌ها در مورد رویکرد فعلی OpenAI گفتند: «آن‌ها اصلاً ایمنی عمومی را در اولویت قرار نمی‌دهند.»

دانیل کوکوتایلو، محقق سابق OpenAI که اکنون رهبری گروه غیرانتفاعی AI Futures Project را بر عهده دارد، گفت: «هیچ قانونی وجود ندارد که بگوید [شرکت‌ها] باید مردم را در مورد تمام قابلیت‌های ترسناک مطلع کنند... و همچنین آن‌ها تحت فشار زیادی هستند تا با یکدیگر مسابقه دهند، بنابراین از قدرتمندتر کردن آن‌ها دست برنمی‌دارند.»

OpenAI قبلاً متعهد شده است که نسخه‌های سفارشی‌شده‌ای از مدل‌های خود را برای ارزیابی سوء استفاده احتمالی، مانند این که آیا فناوری آن می‌تواند به انتقال بیشتر یک ویروس بیولوژیکی کمک کند، بسازد.

این رویکرد شامل منابع قابل توجهی است، مانند جمع‌آوری مجموعه‌های داده از اطلاعات تخصصی مانند ویروس‌شناسی و تغذیه آن به مدل برای آموزش آن در تکنیکی به نام تنظیم دقیق (fine-tuning).

اما OpenAI این کار را تنها به صورت محدود انجام داده است و ترجیح داده است که یک مدل قدیمی‌تر و کم‌توان‌تر را به‌جای مدل‌های قدرتمندتر و پیشرفته‌تر خود، تنظیم دقیق کند.

گزارش ایمنی و عملکرد استارت‌آپ در مورد o3-mini، مدل کوچک‌تر آن که در ژانویه منتشر شد، به این اشاره دارد که چگونه مدل قبلی آن، GPT-4o، تنها زمانی قادر به انجام یک کار بیولوژیکی خاص بود که تنظیم دقیق شده بود. با این حال، OpenAI هرگز گزارش نکرده است که اگر مدل‌های جدیدتر آن، مانند o1 و o3-mini، نیز تنظیم دقیق شوند، چه نمره‌ای کسب می‌کنند.

استیون آدلر، محقق سابق ایمنی OpenAI، که در این مورد یک وبلاگ نوشته است، گفت: «بسیار عالی است که OpenAI با تعهد به آزمایش نسخه‌های سفارشی‌شده مدل‌های خود، چنین استاندارد بالایی را تعیین کرد. اما اگر به این تعهد عمل نمی‌کند، مردم شایسته دانستن هستند.»

او افزود: «انجام ندادن چنین آزمایش‌هایی می‌تواند به این معنا باشد که OpenAI و سایر شرکت‌های هوش مصنوعی خطرات بدتر مدل‌های خود را دست کم می‌گیرند.»

افراد آشنا با این آزمایش‌ها گفتند که آن‌ها هزینه‌های سنگینی دارند، مانند استخدام کارشناسان خارجی، ایجاد مجموعه‌های داده خاص و همچنین استفاده از مهندسان داخلی و قدرت محاسباتی.

OpenAI گفت که در فرآیندهای ارزیابی خود، از جمله آزمایش‌های خودکار، کارایی‌هایی ایجاد کرده است که منجر به کاهش زمان شده است. این شرکت افزود که هیچ دستورالعمل توافق‌شده‌ای برای رویکردهایی مانند تنظیم دقیق وجود ندارد، اما مطمئن است که روش‌های آن بهترین کاری است که می‌تواند انجام دهد و در گزارش‌های آن شفاف‌سازی شده است.

این شرکت افزود که مدل‌ها، به ویژه برای خطرات فاجعه‌بار، به طور کامل آزمایش و برای ایمنی کاهش داده می‌شوند.

یوهانس هایدکه، رئیس سیستم‌های ایمنی، گفت: «ما تعادل خوبی بین سرعت حرکت و دقت خود داریم.»

یکی دیگر از نگرانی‌های مطرح‌شده این بود که آزمایش‌های ایمنی اغلب بر روی مدل‌های نهایی منتشرشده برای عموم انجام نمی‌شوند. در عوض، آن‌ها بر روی ایستگاه‌های بازرسی قبلی انجام می‌شوند که بعداً برای بهبود عملکرد و قابلیت‌ها به‌روز می‌شوند و نسخه‌های "نزدیک به نهایی" در گزارش‌های ایمنی سیستم OpenAI ذکر می‌شوند.

یکی از کارکنان فنی سابق OpenAI گفت: «انتشار مدلی که با مدلی که شما ارزیابی کرده‌اید متفاوت است، یک رویه بد است.»

OpenAI گفت که ایستگاه‌های بازرسی "اساساً با آنچه در پایان راه‌اندازی شد، یکسان بودند."

https://www.ft.com/content/8253b66e-ade7-4d1f-993b-2d0779c7e7d8