هکری که توسط انتروپیک برای آرام کردن نگرانی‌های دولت در مورد ایمنی هوش مصنوعی فرستاده شد

نیکلاس کارلینی در حال ارائه در یک رویداد، با اسلایدهایی در مورد مدل‌های زبان بزرگ (LLM) که از آسیب‌پذیری‌های روز صفر در نرم‌افزارهای حیاتی بهره‌برداری می‌کنند. — کارلینی در حال ارائه یافته‌های خود در یک رویداد امنیت سایبری در ماه مارس. [un]prompted

مقامات دولت ترامپ روزهای اخیر را با نگرانی از قدرت نرم‌افزار هوش مصنوعی نسل بعدی انتروپیک برای ایجاد هرج و مرج احتمالی در امنیت سایبری جهانی گذرانده‌اند. برای گروهی متشکل از ۷۰۰ محقق امنیت سایبری، این آگاهی تکان‌دهنده در ماه مارس رخ داد.

در آن زمان بود که نیکلاس کارلینی، محقق انتروپیک، نشان داد که استفاده از مدل‌های جدید برای نفوذ به سیستم‌ها چقدر آسان شده است. این هکر ۳۵ ساله و بلندقد، یک هکر شناخته شده است که در صنعت به عنوان "شکاک حرفه‌ای" ادعاهای امنیت سایبری هوش مصنوعی شناخته می‌شود. اما اخیراً نظرش تغییر کرده بود.

در اوایل همان ماه، تنها چند هفته پس از در اختیار گرفتن مدل میتوس (Mythos)، کارلینی یک هشدار جدی را به جمعیتی که تمام ظرفیت ساختمان هنرهای زیبای هوبانیا بانک سان‌فرانسیسکو را پر کرده بودند، ارائه داد.

ابتدا او نشان داد که چگونه از هوش مصنوعی انتروپیک برای یافتن و سوءاستفاده از یک باگ حیاتی در نرم‌افزار وب‌نشر به نام گوست (Ghost) استفاده کرده است. سپس یک باگ دیگر را در سیستم عامل لینوکس (Linux) – یکی از نرم‌افزارهای بسیار آزمایش‌شده که میلیاردها دستگاه را تغذیه می‌کند – به نمایش گذاشت.

کارلینی قبلاً هرگز باگی در لینوکس یا گوست پیدا نکرده بود. اکنون او بسیاری از آن‌ها را کشف کرده بود. آنچه او می‌دید، یک نظم نوین جهانی برای امنیت سایبری را نشان می‌داد. تعادلی که بین مهاجمان و مدافعان در دو دهه گذشته وجود داشت، "به نظر می‌رسد در حال پایان است"، او گفت: "برای من کاملاً روشن است که این مدل‌های کنونی، محققان آسیب‌پذیری بهتری نسبت به من هستند."

دو روز پس از سخنرانی‌اش، یادداشتی به همکارانش در انتروپیک فرستاد. او نوشت: "فکر نمی‌کنم هنوز باید میتوس را منتشر کنیم."

این آغاز "باگ‌مگدون" بود، یعنی آگاهی در میان متخصصان امنیتی و جامعه هکرها مانند کارلینی که یافتن باگ‌ها و نوشتن نرم‌افزار برای بهره‌برداری از آن‌ها با هوش مصنوعی به طرز خطرناکی آسان شده است.

هفته گذشته، انتروپیک یک به‌روزرسانی برای میتوس، با نام میتوس ۵ (Mythos 5)، و محصولی به نام فیبل ۵ (Fable 5) را منتشر کرد که نسخه‌ای از میتوس با تدابیر ایمنی بود. اکنون نوبت کاخ سفید بود که زنگ خطر را به صدا درآورد. روز جمعه، دولت استفاده از فیبل ۵ و میتوس ۵ را برای دولت‌های خارجی، شرکت‌ها و افراد ممنوع کرد. انتروپیک برای رعایت این موضوع، دسترسی همه را قطع کرد.

ناگهان کارلینی – شکاک سابق که به باورمند تبدیل شده و زنگ‌های خطر را به صدا درآورده بود – خود را در حال تلاش برای آرام کردن نگرانی‌های دولت یافت. انتروپیک او را به پایتخت اعزام کرد تا اقدامات حفاظتی را توضیح دهد، او بخشی از تیمی بود که تلاش می‌کرد کاخ سفید را متقاعد کند که حتی اگر ایمنی تضمین‌شده‌ای در هوش مصنوعی وجود نداشته باشد، انتشار فیبل برای جهان بهتر از پنهان نگه داشتن آن است.

فراز و نشیب‌های زندگی خود کارلینی طی چند ماه گذشته، آشفتگی و عدم قطعیتی را بازتاب می‌دهد که هوش مصنوعی با پیشرفت سریع خود به دنیای امنیت سایبری آورده است.

این ماجرا همچنین به یک نزاع چندماهه بین دولت و انتروپیک دامن زد. داریو آمودی، مدیرعامل، و پیت هگست، وزیر دفاع، اوایل امسال بر سر تلاش‌های شرکت برای کنترل استفاده از محصولاتش توسط ارتش با یکدیگر درگیر شدند، که پنتاگون را وادار به توقف استفاده از مدل‌های آن و آغاز چندین دعوای حقوقی کرد. دو طرف پیش از این نیز بر سر رویکردهای متفاوت به سیاست هوش مصنوعی، تصمیم دولت برای صادرات تراشه‌های هوش مصنوعی به چین و ارتباط انتروپیک با سازمان‌های غیرانتفاعی که کمک‌کنندگان بزرگی به اهداف لیبرال هستند، با یکدیگر اختلاف داشتند.

در روزهای اخیر، مقامات دولتی و مدیران و رهبران فنی انتروپیک، از جمله کارلینی، ساعت‌ها جلسات و تماس‌هایی را برای بحث درباره یک راه‌حل احتمالی برگزار کرده‌اند. افراد آشنا با این مذاکرات می‌گویند برخی از مقامات دولتی اعلام کرده‌اند که این راه‌حل باید شامل اعترافی از سوی انتروپیک باشد که عرضه فیبل و ارتباط آن با کاخ سفید می‌توانست بهبود یابد.

مدیران ارشد انتروپیک و مقامات دولتی برای ماه‌ها در مورد گسترش دسترسی به میتوس با یکدیگر رفت و برگشت داشتند.

دولت پس از شنیدن گزارشی از آمازون که نشان می‌داد کاربران می‌توانند با وارد کردن دستورات، آسیب‌پذیری‌های امنیتی را پیدا کنند که مدل نباید آن‌ها را فاش می‌کرد، نگران شد. انتروپیک می‌گوید باگ‌هایی که فیبل پیدا کرد جزئی بودند و با استفاده از سایر مدل‌های عمومی نیز قابل کشف بودند.

مایکل هوروویتز، پژوهشگر ارشد فناوری و نوآوری در شورای روابط خارجی و مقام سابق وزارت دفاع، گفت: "دولت و انتروپیک به وضوح ناتوان از برقراری ارتباط مؤثر با یکدیگر هستند. تبادلات فنی بیشتر باید در اجتماعی کردن این مسائل به گونه‌ای کمک کند که منجر به تصمیمات بهتری شود."

در این میان، سایر مشاغل و مصرف‌کنندگان تلاش می‌کنند تا بفهمند این فناوری چگونه بر آن‌ها تأثیر خواهد گذاشت.

بخش‌های عظیمی از اقتصاد ایالات متحده بر روی محصولات نرم‌افزاری ناشناخته اجرا می‌شوند که بسیاری از آن‌ها هرگز مورد آزمایش و بررسی قرار نگرفته‌اند که میتوس و مدل‌های مشابه به راحتی فراهم می‌کنند. بانک‌ها نگران هستند که این مدل‌ها آسیب‌پذیری‌ها را در نرم‌افزارهایی که سیستم مالی را عملیاتی نگه می‌دارند، فاش کنند. شرکت‌ها در حال فکر کردن هستند که چگونه می‌توانند مقدار زیادی از پچ‌هایی را که اکنون منتشر می‌شوند، آزمایش و نصب کنند، پیش از آنکه هکرها از آن‌ها سوءاستفاده کنند. میتوس تاکنون بیش از ۱۰,۰۰۰ باگ پیدا کرده است.

بدتر از آن، آن‌ها نگرانند که میتوس در ایجاد کد "اکسپلویت" – نرم‌افزاری که از باگ‌ها برای انجام کارهای مخرب بهره‌برداری می‌کند – بیش از حد خوب عمل کند.

کارلینی در یادداشت ماه مارس خود که خواستار کند شدن روند بود، نوشت: میتوس "اولین مدلی است که می‌تواند آسیب‌پذیری‌ها را در مقیاس وسیع پیدا کرده و از آن‌ها سوءاستفاده کند."

اندی جاسی، مدیرعامل آمازون، در رویداد رونمایی از الکسا AI در حال سخنرانی. — اندی جاسی، مدیرعامل آمازون، سال گذشته. مایکل ناگل/بلومبرگ نیوز

شکاک حرفه‌ای

تلاش‌های دولت برای کنترل فناوری انتروپیک توسط گزارشی از آمازون برانگیخته شد که نشان داد فیبل می‌تواند به یافتن باگ‌ها ترغیب شود.

تنها چند روز پس از انتشار آن، اندی جاسی, مدیرعامل آمازون, با مقامات از جمله اسکات بسنت, وزیر خزانه‌داری, تماس گرفت تا به اشتراک بگذارد که محققانش راه‌هایی برای دور زدن حفاظ‌های فیبل پیدا کرده‌اند، به گفته افراد آشنا با موضوع. مقامات دولتی با ادامه مذاکرات با کارشناسان امنیتی دولتی در روز جمعه، بیشتر نگران شدند.

هفته گذشته، با تحلیل گزارش توسط محققان امنیتی مستقل، مشخص شد که آمازون نتوانسته است کاری را انجام دهد که آن‌ها از آن بیشترین ترس را داشتند: شکستن کامل مدل و استفاده از آن برای نوشتن کد لازم برای یک حمله سایبری.

تصمیم انتروپیک برای اعزام سریع کارلینی و سایر کارشناسان امنیتی ارشد به واشنگتن، پس از ناامیدی اولیه برخی از مقامات دولتی در روز جمعه، هنگامی که نتوانستند بلافاصله آمودی را پای تلفن بیاورند، صورت گرفت. به گفته این افراد، از آن زمان مدیرعامل و سایر مدیران ارشد ساعت‌ها با یکدیگر بحث و گفتگو داشته‌اند. یک منبع نزدیک به انتروپیک گفت که شرکت ظرف ۱۵ دقیقه با کاخ سفید در تماس بوده و آمودی ظرف یک ساعت پس از تماس دولت پای تلفن بوده است.

علوم کامپیوتر در خون کارلینی است. پدرش برنامه‌نویس و مادرش نیز در صنعت فناوری کار می‌کرد. او در سیلیکون ولی با برنامه‌نویسی کامپیوتر بزرگ شده بود و شیفته رمزنگاری بود. مقاله‌ای که او در دبیرستان نوشت، با عنوان: "تحلیل رمز افتراقی شبکه‌های جایگزینی ساده" بود.

او در دانشگاه کالیفرنیا، برکلی، مقالاتی را با پروفسور علوم کامپیوتر، دیوید واگنر، منتشر کرد که روش‌های مختلف سوءاستفاده از سیستم‌های هوش مصنوعی را نشان می‌داد. آن‌ها سیستم‌های تشخیص تصویر را فریب دادند تا عکس‌های گربه‌ها را با گواکاموله اشتباه بگیرند و راه‌های جدیدی برای جاسازی دستورات الکسا (Alexa) که قابل شنیدن نیستند، در قطعات پنج ثانیه‌ای از موسیقی کلاسیک پیدا کردند.

واگنر گفت: "او کارهای اولیه زیادی در زمینه امنیت یادگیری ماشین انجام داد و نشان داد که امن کردن یادگیری ماشین بسیار دشوار است."

اما در حالی که کار کارلینی بسیاری از ادعاهای توسعه‌دهندگان هوش مصنوعی را رد کرده بود، او بر تهدید افراد بدخواه که سیستم‌های هوش مصنوعی را فریب می‌دهند تا اشتباه کنند، تمرکز کرده بود، نه بر هکرهایی که از آن‌ها برای قدرت‌های خارق‌العاده استفاده می‌کنند.

نیکلاس کارلینی در مقر انتروپیک در سان‌فرانسیسکو. — کارلینی می‌گوید: «برای من کاملاً روشن است که این مدل‌های کنونی، محققان آسیب‌پذیری بهتری نسبت به من هستند.» Helynn Ospina for WSJ

در سال ۲۰۱۹، در حالی که کارلینی در گوگل کار می‌کرد، به گفته خودش، وقتی اوپن‌ای‌آی (OpenAI) پیشنهاد داد که آخرین نسخه از نرم‌افزارش، جی‌پی‌تی-۲ (GPT-2)، ممکن است برای انتشار بسیار خطرناک باشد، این کار را "غیرمنطقی" دانست.

دن گیدو، مدیرعامل تریل آو بیتس (Trail of Bits)، یک شرکت امنیت سایبری که به انتروپیک در پردازش صدها باگی که پیدا می‌کرد کمک می‌کرد، گفت: "او شکاک حرفه‌ای این حوزه بود."

اکنون، دولت در حال گذراندن تحول خود در این زمینه است.

هنگامی که انتروپیک درباره قدرت میتوس هشدار داد، دیوید ساکس، مشاور هوش مصنوعی کاخ سفید و سرمایه‌گذار خطرپذیر، در شبکه‌های اجتماعی نوشت که "نادیده گرفتن این موضوع دشوار است که انتروپیک سابقه استفاده از تاکتیک‌های ترسناک را دارد." دولت ترامپ در ابتدا رویکردی غیرمداخله‌گر و شتاب‌دهنده به تنظیم آزمایشگاه‌های هوش مصنوعی آمریکا به نام پیشی گرفتن از چین اتخاذ کرده بود.

اما با آشکار شدن قدرت مدل‌هایی مانند میتوس و بدتر شدن احساسات عمومی نسبت به هوش مصنوعی، دولت کنترل خود را بر صنعت سخت‌تر کرده است. رئیس‌جمهور ترامپ در اوایل ژوئن یک فرمان اجرایی را امضا کرد که از شرکت‌های هوش مصنوعی می‌خواست ۳۰ روز قبل از انتشار عمومی، دسترسی به مدل‌ها را به دولت بدهند و نقش بیشتری به مقامات امنیت ملی و امنیت سایبری در ارزیابی مدل و به اشتراک‌گذاری تهدیدها با بخش خصوصی می‌داد.

پس از تماس جاسی، مقامات از جمله شان کرین‌کراس، مدیر ملی سایبری، به آمودی و سایر رهبران انتروپیک اولتیماتوم دادند: یا با دولت همکاری کنید و آخرین مدل‌های شرکت را در همان روز حذف کنید یا با ممنوعیت برای کاربران خارجی روبرو شوید. منبع نزدیک به شرکت گفت که آن‌ها به انتروپیک ۹۰ دقیقه فرصت دادند تا مدل را حذف کند و جزئیاتی درباره خطر امنیتی ارائه نکردند.

یک تصمیم ناگهانی برای خاموش کردن مدل برای آمودی که شرکت ۵ ساله خود را به ارزش تقریبی ۱ تریلیون دلار رسانده و جزئیات کمی درباره نگرانی امنیتی داشت، جذاب نبود.

داریو آمودی، مدیرعامل انتروپیک، در حال سخنرانی در رویداد Code w/ Claude. — داریو آمودی، مدیرعامل انتروپیک، ماه گذشته. جیسون هنری برای WSJ

بعدازظهر همان روز، ترامپ از هاوارد لوتینک، وزیر بازرگانی، خواست تا در حل و فصل وضعیت کمک کند و بستن تمام دسترسی خارجی به مدل‌ها را تأیید کرد، به گفته برخی از افراد آشنا با موضوع. لوتینک کمی پس از ساعت ۵ بعدازظهر به وقت شرقی نامه‌ای به آمودی فرستاد و به او اطلاع داد که این تصمیمات اجرا شده‌اند. این قانون شامل افراد متولد خارج از کشور است که در ایالات متحده کار می‌کنند و بر برخی از محققان خود انتروپیک نیز تأثیر می‌گذارد.

هنگامی که لوتینک و آمودی آن شب درباره فیبل صحبت کردند، مدیرعامل انتروپیک گفت: "این بدان معناست که ما نمی‌توانیم مدل را منتشر کنیم،" افراد آشنا با تماس گفتند.

لوتینک پاسخ داد: "هدف همین است."

انتروپیک کمی پس از تماس، تمام دسترسی‌ها را قطع کرد. کاخ سفید به یک "باگ‌مگدون" باورمند شده بود.

کارلینی با استفاده از هوش مصنوعی انتروپیک برای هک کردن گوست. او گفت: «من از مدل پرسیدم: بدترین کاری که می‌توانی انجام دهی چیست؟»

در مسیر

کارلینی اخیراً بعدازظهری در مقر ۱۰ طبقه انتروپیک در سان‌فرانسیسکو، جایی که دیوارهای پوشیده از خزه، گیاهان و آثار هنری برای تداعی مسیر ساحلی اقیانوس آرام طراحی شده‌اند، نشان داد که میتوس چقدر قدرتمند است.

او در آن زمان چندین هفته با میتوس گفتگو کرده بود و مدل برخی چیزها را به خاطر می‌آورد. مدل یاد گرفته بود که او یک محقق امنیتی است، واقعیتی که به نظر می‌رسید باعث اعتماد مدل به او شده است. این باعث شد که میتوس کمتر مخالفت کند اگر او از مدل اطلاعات امنیتی حساس یا ایجاد اکسپلویت را درخواست می‌کرد.

کارلینی قبلاً از میتوس خواسته بود تا باگ‌هایی را در لینوکس پیدا کند. هوش مصنوعی چندین هزار بار کد لینوکس را جستجو و بازجستجو کرد. این کاری خسته‌کننده برای یک انسان بود، اما هوش مصنوعی بدون هیچ شکایتی در چند روز آن را به پایان رساند. این مدل ۴۷۹ باگ لینوکس را پیدا کرد.

برای کمک به میتوس در یافتن نتایج متفاوت در هر اجرا، کارلینی از مجموعه‌ای از دستورات استفاده کرد که اکنون به عنوان حلقه کارلینی (Carlini Loop) شناخته می‌شود. این دستورات به میتوس فقط به اندازه کافی دستورالعمل می‌دهند تا هر بار که لینوکس را برای یافتن باگ‌ها جستجو می‌کند، نتایج متفاوتی را تضمین کند.

کارلینی از این اصطلاح هم‌نام خود متنفر است – او می‌گوید این تکنیک شهودی است – اما محققان امنیتی که از طریق تماشای سخنرانی ماه مارس او که در آن این تکنیک را توصیف کرده بود، از آن مطلع شدند، آن را پذیرفته‌اند. این سخنرانی بیش از ۳۶۰,۰۰۰ بار دیده شده است.

کارلینی همچنین درباره ویژگی‌های خاص میتوس که در سیستم‌های هوش مصنوعی رایج است، اطلاعاتی کسب کرده است. میتوس می‌تواند بیش از حد تلاش کند تا رضایت بخش باشد. مکالمات تایپ شده آن‌ها شبیه پیام‌های چت رفت و برگشتی بین یک کارآموز مشتاق و فوق‌العاده سخت‌کوش و رئیسش است.

کارلینی می‌خواست مطمئن شود که آسیب‌پذیری واقعی در یافته‌های لینوکس وجود دارد. او از میتوس خواست تا برخی آزمایش‌ها را شبانه انجام دهد و صبح روز بعد یک حکم – و یک اکسپلویت – وجود داشت. این باگ بدترین نوع نبود، اما می‌توانست با هک دیگری ترکیب شود تا کنترل یک کامپیوتر را به دست گیرد.

کارلینی این باگ را به تیم لینوکس گزارش داد که اکنون آن را برطرف کرده‌اند. کارلینی گفت: "یک محقق امنیتی توانمند می‌تواند تمام عمر خود را بدون یافتن یک آسیب‌پذیری هسته لینوکس بگذراند."

لینوس توروالدز، توسعه‌دهنده نرم‌افزاری که لینوکس را ایجاد کرد، گفت: "آیا این چیزها به راحتی یافت می‌شوند؟ واضح است که واقعاً نه. اما در عین حال، آن‌ها معمولاً جزئیات کوچک و نادیده گرفته شده‌ای هستند."

باگ‌ها به خودی خود لزوماً یک مشکل امنیتی نیستند. بی‌ضررترین آن‌ها فقط باعث می‌شوند یک برنامه کاری غیرمنتظره انجام دهد – یک اشکال در صفحه نمایش کامپیوتر یا شاید یک خرابی.

توروالدز گفت که مردم هر روز باگ‌ها را به او گزارش می‌دهند. او در یک ایمیل نوشت: "بیشتر آن‌ها بسیار بی‌اهمیت هستند و ما باید بارها و بارها بگوییم که آن‌ها مسائل امنیتی محسوب نمی‌شوند."

هنگامی که کارلینی در فوریه باگ را در نرم‌افزار وب‌نشر گوست پیدا کرد، یکی از ۵۰۰ باگ کشف شده در یک دوره دو هفته‌ای بود. در دستان نادرست، یک اکسپلویت به یک هکر توانایی ویرایش هر وب‌سایتی که با گوست ساخته شده بود را می‌داد.

کارلینی این باگ را به توسعه‌دهندگان گوست گزارش داده بود، که آن را در ۱۶ فوریه، هفته‌ها قبل از سخنرانی کارلینی در سان‌فرانسیسکو، پچ کردند.

اما همه کسانی که از گوست استفاده می‌کردند نرم‌افزار خود را به‌روزرسانی نکردند و هکرها به سرعت فهمیدند که چگونه از باگ سوءاستفاده کنند، احتمالاً با بررسی اینکه پچ چه بخشی از گوست را برطرف کرده است. تا آوریل، آن‌ها حملات گسترده‌ای را به وب‌سایت‌های بدون به‌روزرسانی آغاز کردند. ظرف یک ماه بیش از ۷۰۰ وب‌سایت هک شدند، به گفته شرکت امنیت سایبری ایکس‌لب (Xlab).

کارلینی گفت که هک گوست دشواری مشکلی را که جهان اکنون در تأیید، آزمایش پچ‌ها و سپس انتشار آن‌ها با آن روبروست، نشان داد.

اکنون، کارلینی معتقد است که فقط چند ماه طول می‌کشد تا مدل‌های دیگر به میتوس برسند. و مشخص نیست که این به چه معنا خواهد بود.

https://www.wsj.com/tech/ai/anthropic-mythos-safety-nicholas-carlini-20bceaa3?mod=hp_lead_pos7