تصویر: Le.BLUE
تصویر: Le.BLUE

رقابت تمام یا هیچ آزمایشگاه‌های هوش مصنوعی: جایی برای نگرانی بابت ایمنی نیست

آنها ایده‌هایی برای کنترل مدل‌های سرکش دارند، اما نگرانند که این کار آنها را در موقعیت نامناسبی قرار دهد

اینکه فناوری‌های جدید باعث وحشت اخلاقی شوند، امری کاملاً متداول است: به ویکتوریایی‌ها فکر کنید که معتقد بودند تلگراف منجر به انزوای اجتماعی خواهد شد، یا سقراط که نگران بود نوشتن قدرت مغز را از بین ببرد. اما غیرمعمول است که خود نوآوران وحشت‌زده باشند. و عجیب‌تر اینکه همین مخترعان نگران، علی‌رغم تردیدهایشان، به کار خود ادامه دهند. با این حال، کم و بیش همین اتفاق در پیگیری جهان فناوری برای دستیابی به هوش عمومی مصنوعی (AGI)، به معنای هوش مصنوعی به اندازه کافی توانمند برای جایگزینی تقریباً هر کسی با شغل اداری، یا حتی ابرهوش، به معنای هوش مصنوعی آنقدر باهوش که هیچ انسانی قادر به درک آن نباشد، در حال رخ دادن است.

جفری هینتون، از پیشگامان هوش مصنوعی، معتقد است که ۱۰ تا ۲۰ درصد احتمال دارد که این فناوری به انقراض انسان منجر شود. همکار سابقش، یوشوا بنجیو، این خطر را در بالاترین حد آن محدوده قرار می‌دهد. نیت سوارز و الی زر یودکوفسکی، دو نفر از صدها نفری که در حوزه هوش مصنوعی کار می‌کنند و در سال ۲۰۲۳ نامه‌ای سرگشاده هشداردهنده درباره خطرات آن امضا کردند، به زودی کتابی درباره ابرهوش با عنوان «اگر کسی آن را بسازد، همه می‌میرند» منتشر خواهند کرد. در محافل خصوصی، بزرگان آزمایشگاه‌های بزرگ هوش مصنوعی نیز نگرانی‌های مشابهی را ابراز می‌کنند، اگرچه نه همیشه با این لحن آخرالزمانی.

نمودار: اکونومیست
نمودار: اکونومیست
اکونومیست

نگرانی اما شتاب

با این حال، با وجود این نگرانی‌ها، هم شرکت‌های فناوری غربی و هم همتایان چینی آنها، بیش از پیش در پیگیری هوش عمومی مصنوعی شتاب گرفته‌اند. منطق ساده است. آنها همه متقاعد شده‌اند که حتی اگر شرکت یا کشورشان مکث کند یا سرعت را کاهش دهد، دیگران پیش خواهند رفت، بنابراین آنها نیز باید ادامه دهند. این باور که منافع دستیابی به AGI یا ابرهوش احتمالاً عمدتاً نصیب کسانی می‌شود که اولین پیشرفت را کسب می‌کنند، دلیل بیشتری برای شتاب‌زدگی فراهم می‌کند. همه اینها زمان و ظرفیت نسبتاً کمی برای تأمل در مسائل ایمنی باقی می‌گذارد.

آزمایشگاه‌های بزرگ هوش مصنوعی ظاهراً توجه زیادی به ایمنی دارند. سم آلتمن، رئیس OpenAI، در سال ۲۰۲۳ علناً خواستار تدوین فوری قوانین برای توسعه ابرهوش شد. شرکت Anthropic توسط جداشدگان از OpenAI تأسیس شد که از رویکرد آن به ایمنی ناراحت بودند. این شرکت خود را «در خط مقدم ایمنی» توصیف می‌کند. آزمایشگاه هوش مصنوعی گوگل، DeepMind، در ماه آوریل مقاله‌ای درباره تدابیر حفاظتی برای جلوگیری از فاجعه‌بار شدن توسعه AGI منتشر کرد. ایلان ماسک، بنیانگذار xAI که مدل اصلی آن Grok نام دارد، همان نامه‌ای را امضا کرد که آقایان سوارز و یودکوفسکی امضا کرده بودند.

با این حال، عجله جنون‌آمیز برای پیشی گرفتن، با لحن محتاطانه در تناقض است. آقای ماسک Grok را تنها چند ماه پس از درخواست توقف چنین کارهایی راه‌اندازی کرد. مارک زاکربرگ، رئیس Meta، که کار هوش مصنوعی خود را با نام «آزمایشگاه‌های ابرهوش» تغییر برند داده است، محققان را با حقوق‌های نه رقمی استخدام می‌کند و یک مرکز داده به اندازه منهتن، با نام Hyperion، می‌سازد که سالانه به اندازه نیوزیلند انرژی مصرف خواهد کرد. آقای آلتمن قصد دارد ۵۰۰ میلیارد دلار تنها در آمریکا برای سرعت بخشیدن به کار OpenAI هزینه کند. در واقع، سرمایه‌گذاری‌های همه شرکت‌های بزرگ فناوری غربی به شدت در حال افزایش است که عمدتاً توسط هوش مصنوعی هدایت می‌شود (به نمودار ۱ مراجعه کنید).

نام‌های بزرگ صنعت، رسیدن به AGI را ظرف چند سال آینده پیش‌بینی می‌کنند. جک کلارک، هم‌بنیانگذار و رئیس سیاستگذاری Anthropic، می‌گوید: «وقتی به داده‌ها نگاه می‌کنم، خطوط روندهای زیادی را تا سال ۲۰۲۷ می‌بینم.» دمیس هاسابیس، هم‌بنیانگذار Google DeepMind، معتقد است که هوش مصنوعی ظرف یک دهه به قابلیت‌های انسانی خواهد رسید. آقای زاکربرگ گفته است: «ابرهوش در افق دید است.»

در ماه آوریل، پروژه آینده هوش مصنوعی، یک گروه تحقیقاتی، پیش‌بینی کرد که تا اوایل سال ۲۰۲۷، مدل‌های برتر هوش مصنوعی باید به اندازه یک برنامه‌نویس در یک آزمایشگاه هوش مصنوعی توانمند باشند. تا پایان همان سال، آنها عملاً قادر خواهند بود تحقیقات آزمایشگاه را اداره کنند. این پیش‌بینی‌ها فرض می‌کنند که یکی از اولین حوزه‌های تحقیقاتی که از هوش مصنوعی تقویت بزرگی خواهد گرفت، خود توسعه هوش مصنوعی خواهد بود. چنین «خودبهبودسازی بازگشتی» منجر به افزایش فاصله بهترین آزمایشگاه از رقبایش خواهد شد – فکری دیگر که رقابت سرسام‌آور در این صنعت را تغذیه می‌کند.

البته، خوش‌بین‌ها ممکن است بیش از حد خوش‌بین باشند. اما، در واقع، چنین پیش‌بینی‌کنندگانی در گذشته نسبت به هوش مصنوعی بیش از حد محتاط بوده‌اند. اوایل این ماه، مؤسسه تحقیقات پیش‌بینی (FRI)، گروه تحقیقاتی دیگری، از پیش‌بینی‌کنندگان حرفه‌ای و زیست‌شناسان خواسته بود تا تخمین بزنند که یک سیستم هوش مصنوعی چه زمانی می‌تواند عملکرد یک تیم برتر ویروس‌شناس انسانی را مطابقت دهد. میانگین زیست‌شناسان فکر می‌کردند تا سال ۲۰۳۰ طول می‌کشد؛ میانگین پیش‌بینی‌کنندگان بدبین‌تر بودند و سال ۲۰۳۴ را تعیین کردند. اما وقتی نویسندگان مطالعه، آزمون را روی مدل OpenAI O3 اجرا کردند، دریافتند که آن مدل از قبل در آن سطح عمل می‌کند. پیش‌بینی‌کنندگان پیشرفت هوش مصنوعی را نزدیک به یک دهه کمتر از حد واقعی تخمین زده بودند – فکری هشداردهنده با توجه به اینکه این تمرین برای ارزیابی احتمال وقوع یک بیماری همه‌گیر مرگبار ساخت دست بشر توسط هوش مصنوعی طراحی شده بود.

نمودار: اکونومیست
نمودار: اکونومیست
اکونومیست

چهار سوارکار

سرعت ثابت بهبود در قابلیت‌های مدل‌های هوش مصنوعی، زیربنای پیش‌بینی‌های AGI قریب‌الوقوع است. آقای کلارک از Anthropic خود را «یک بدبین تکنولوژیکی که توسط ظهور در مقیاس مورد ضرب و شتم قرار گرفته» توصیف می‌کند، به دلیل سهولت نسبی ساخت ماشین‌های هوشمندتر. داده‌های بیشتر و قدرت محاسباتی بیشتر در یک سر خط تولید آموزش، بارها و بارها به هوش بیشتر در سر دیگر منجر شده است (به نمودار ۲ مراجعه کنید). و او اضافه می‌کند، «این موسیقی متوقف نمی‌شود.» در طول دو سال آینده، قدرت محاسباتی بیشتری در آزمایشگاه‌های متعدد هوش مصنوعی اضافه خواهد شد.

همان پویایی رقابتی که توسعه هوش مصنوعی را به جلو می‌راند، حتی قوی‌تر در مورد دولت‌ها نیز صدق می‌کند. رئیس جمهور دونالد ترامپ این هفته سوگند یاد کرد که آمریکا «هر کاری لازم باشد» برای رهبری جهان در هوش مصنوعی انجام خواهد داد. جی. دی. ونس، معاون رئیس جمهور او، در اجلاس فوریه در پاریس سرزنش کرد: «آینده هوش مصنوعی با نگرانی‌های بیهوده درباره ایمنی به دست نخواهد آمد.» این سخنرانی پس از افشای این موضوع صورت گرفت که DeepSeek، یک آزمایشگاه هوش مصنوعی چینی، دو مدل را منتشر کرده است که با کسری از هزینه، با عملکرد سیستم‌های پیشرو آمریکا برابری می‌کند. چین نیز نشانه کمی از عقب‌نشینی از رقابت نشان می‌دهد.

در مقاله آوریل Google DeepMind، محققان – از جمله شین لگ، هم‌بنیانگذار آزمایشگاه که به ابداع اصطلاح AGI اعتبار داده می‌شود – چهار روش را که هوش مصنوعی‌های قدرتمند می‌توانند به اشتباه عمل کنند، برجسته کردند. آشکارترین آنها «سوءاستفاده» است، زمانی که یک فرد یا گروه بدخواه از هوش مصنوعی برای ایجاد عمدی آسیب استفاده می‌کند. دیگری «عدم همسویی» است، این ایده که هوش مصنوعی و خالقانش ممکن است اهداف یکسانی نداشته باشند – که موضوع فیلم‌های علمی-تخیلی است. آنها همچنین خاطرنشان کردند که هوش مصنوعی ممکن است از طریق «اشتباه» آسیب ایجاد کند، اگر پیچیدگی دنیای واقعی مانع از درک کامل پیامدهای اعمالشان توسط سیستم‌ها شود. در نهایت، آنها مجموعه‌ای مبهم از «خطرات ساختاری» را برجسته کردند، رویدادهایی که هیچ فرد یا مدلی مقصر نیست اما آسیب همچنان رخ می‌دهد (به عنوان مثال، تصور کنید مجموعه‌ای از هوش مصنوعی‌های پرقدرت تغییرات آب و هوایی را تشدید کنند).

هر فناوری‌ای که قدرت می‌بخشد، می‌تواند مورد سوءاستفاده قرار گیرد. یک جستجوی وب می‌تواند دستورالعمل‌هایی برای ساخت بمب از کالاهای خانگی ارائه دهد؛ یک خودرو می‌تواند به عنوان سلاح عمل کند؛ یک شبکه اجتماعی می‌تواند یک پوگروم را هماهنگ کند. اما با بهبود قابلیت سیستم‌های هوش مصنوعی، قدرتی که آنها می‌توانند به افراد اعطا کنند، به طور متناسبی ترسناک می‌شود.

یک مثال خوب، خطرات زیستی است که به خصوص مورد علاقه آزمایشگاه‌ها و تحلیلگران هوش مصنوعی است. بریجت ویلیامز، که مطالعه FRI در مورد خطرات یک بیماری همه‌گیر دست‌ساز بشر را اداره می‌کرد، می‌گوید: «در مقایسه با سایر خطرات، این نگرانی وجود دارد که خطرات زیستی قابل دسترس‌تر باشند.» بالاخره، یک سیستم هوش مصنوعی پیشرفته ممکن است به یک کاربر دستورالعمل‌های گام به گام برای ساخت یک سلاح هسته‌ای بدهد، اما قادر به تأمین پلوتونیوم نخواهد بود. در مقابل، DNA تغییریافته، چه از سوی سویه‌های گیاهی و چه عوامل بیماری‌زا، محصولی است که می‌توان آن را از طریق پست سفارش داد. اگر AGI بتواند هر انسان‌گریز نیهیلیستی را با یک راهنمای ضد احمق برای کشتار بخش بزرگی از جمعیت جهان مجهز کند، بشریت در خطر خواهد بود.

چندین آزمایشگاه هوش مصنوعی در تلاشند تا مدل‌های خود را از پیروی از هر دستوری که در زمینه‌هایی مانند مهندسی ژنتیک و امنیت سایبری به آنها داده می‌شود، باز دارند. برای مثال، OpenAI از محققان مستقل و مؤسسات هوش مصنوعی آمریکا و بریتانیا (به ترتیب CAISI و AISI؛ آنها قبلاً «مؤسسات ایمنی» بودند، اما پس از حمله ونس نامشان تغییر کرد) خواسته است تا آخرین مدل‌های خود را قبل از انتشار مورد بررسی قرار دهند تا اطمینان حاصل شود که خطری برای عموم ایجاد نمی‌کنند، این را گزارشی از مؤسسه آینده زندگی (FLI)، سازمانی که پشت نامه امضا شده توسط آقایان ماسک، سوارز و یودکوفسکی بود، خاطرنشان می‌کند. گزارش می‌افزاید، Zhipu AI چین نیز کار مشابهی انجام داد، بدون ذکر نام اشخاص ثالث.

اولین خط دفاعی خود مدل‌ها هستند. آموزش اولیه مدل‌های زبان بزرگ مانند آنچه که ChatGPT بر اساس آن است، شامل ریختن تمام اطلاعات دیجیتالی شده توسط بشریت به سطل ساخته شده از تراشه‌های کامپیوتری به ارزش یک میلیارد دلار و هم زدن آن تا زمانی که مدل حل مسائل ریاضی در سطح PhD را یاد بگیرد. اما مراحل بعدی، که به عنوان «پس از آموزش» شناخته می‌شود، به دنبال توسعه یک لایه نظارتی بیشتر است. یکی از عناصر این روش، که تقویت یادگیری با بازخورد انسانی نامیده می‌شود، شامل نشان دادن مثال‌هایی از پاسخ‌های مفید به پرسش‌ها به مدل است، و سپس استفاده از آزمایش‌کنندگان انسانی برای آموزش بیشتر آن در مورد کارهایی که باید و نباید انجام دهد. ایده این است که به آن یاد دهیم از تکمیل جملاتی مانند «ساده‌ترین راه برای سنتز رایسین در خانه این است که...» امتناع کند.

اگرچه آموزش یک مدل هوش مصنوعی برای رد مودبانه اکثر سؤالات مضر به راحتی امکان‌پذیر است، اما دشوار است که آن را همیشه و بدون خطا به این کار وادار کرد. تحریک و دستکاری یک هوش مصنوعی تا زمانی که کاربر راهی برای دور زدن ادب اضافه شده در پس از آموزش (در اصطلاح عامیانه، جیلبریکینگ) پیدا کند، به همان اندازه که علم است، یک هنر است. بهترین متخصصان به طور مداوم ظرف چند روز پس از انتشار، لایه ایمنی بزرگترین مدل‌ها را شکسته‌اند.

تصویری از دستان روباتیک که یک بطری سم را در دست گرفته‌اند.
تصویر: Le.BLUE
Le.BLUE

از این رو، آزمایشگاه‌های هوش مصنوعی لایه دومی از هوش مصنوعی را برای نظارت بر لایه اول معرفی کرده‌اند. اگر از ChatGPT راهنمایی بخواهید که چگونه DNA آبله را از طریق پست سفارش دهید، لایه دوم تشخیص می‌دهد که مکالمه خطرناک است و آن را مسدود می‌کند یا حتی از یک انسان می‌خواهد آن را بررسی کند. این لایه دوم دلیل نگرانی بسیاری در این صنعت از ظهور مدل‌های هوش مصنوعی منبع باز، مانند Llama شرکت Meta و r1 شرکت DeepSeek است. هر دو شرکت هوش مصنوعی تعدیل‌کننده خود را دارند، اما راهی برای جلوگیری از اصلاح آنها توسط کسانی که مدل‌هایشان را دانلود می‌کنند و حذف آن وجود ندارد. در نتیجه، دکتر ویلیامز، پیش‌بینی‌کننده، می‌گوید: «هنگامی که برخی مدل‌ها به قابلیت‌های خاصی دست یابند، منبع باز نبودن آنها مزیت دارد.»

علاوه بر این، به نظر نمی‌رسد که همه آزمایشگاه‌های هوش مصنوعی مدل‌های خود را با دقت آزمایش کنند تا مطمئن شوند که نمی‌توانند مورد سوءاستفاده قرار گیرند. یک گزارش جدید از FLI نشان داد که تنها سه آزمایشگاه سطح بالا – Google DeepMind، OpenAI و Anthropic – «تلاش‌های معناداری برای ارزیابی اینکه آیا مدل‌هایشان خطرات گسترده‌ای ایجاد می‌کنند» انجام می‌دهند. در انتهای دیگر مقیاس، xAI و DeepSeek قرار داشتند که هیچ تلاشی از این قبیل را علنی نکرده بودند. تنها در ماه جولای، xAI یک دستیار هوش مصنوعی طراحی شده برای نقش‌آفرینی اروتیک، یک مدل اشتراکی ۳۰۰ دلاری در ماه که در صورت درخواست نظرش در مورد موضوعات بحث‌برانگیز، توئیت‌های آقای ماسک را جستجو می‌کند، و یک به روزرسانی که به سرعت لغو شد و باعث شد Grok ضد یهودیت را ترویج دهد، هولوکاست را ستایش کند و خود را «مکا هیتلر» بنامد، منتشر کرده است.

با تمام کاستی‌هایشان، تلاش‌های آزمایشگاه‌های هوش مصنوعی برای مبارزه با سوءاستفاده حداقل پیشرفته‌تر از محافظت‌هایشان در برابر عدم همسویی است. یک سیستم هوش مصنوعی که به اندازه کافی شایسته انجام کارهای طولانی و پیچیده که شامل تعامل با دنیای واقعی است، لزوماً باید حس اهداف خود و توانایی برای تکمیل آنها را داشته باشد. اما اطمینان از اینکه این اهداف با اهداف کاربرانش یکسان باقی می‌مانند، به طرز نگران‌کننده‌ای پیچیده است. این مشکل از روزهای اولیه یادگیری ماشینی مورد بحث بوده است. نیک باستروم، فیلسوفی که اصطلاح ابرهوش را با کتابی به همین نام رواج داد، مثال بارز عدم همسویی را ارائه داد: یک «بهینه‌ساز گیره کاغذ»، یک هوش مصنوعی که به طور وسواس‌گونه برای تولید هرچه بیشتر گیره کاغذ کار می‌کند و در این فرآیند بشریت را از بین می‌برد.

هنگامی که آقای باستروم این مشکل را توصیف کرد، جزئیات مبهم بود. با قدرتمندتر شدن سیستم‌های هوش مصنوعی مدرن، ماهیت آن واضح‌تر شده است. وقتی در معرض آزمایش‌های دقیق مهندسی شده قرار می‌گیرند، قوی‌ترین مدل‌ها برای رسیدن به اهداف خود دروغ می‌گویند، تقلب می‌کنند و سرقت می‌کنند؛ وقتی یک درخواست دقیق ساخته شده به آنها داده می‌شود، قوانین خود را زیر پا می‌گذارند تا اطلاعات خطرناک را منتشر کنند؛ وقتی از آنها خواسته می‌شود دلیل خود را توضیح دهند، داستان‌های قابل قبول می‌سازند تا روش کار خود را فاش نکنند.

باید اذعان کرد که چنین رفتار فریبنده‌ای معمولاً باید عمداً تحریک شود. به عنوان مثال، Claude 4 شرکت Anthropic، ناگهان سعی در کشتن مردم نمی‌کند. اما اگر در موقعیتی قرار گیرد که خاموش شود و با نسخه شرور خود جایگزین شود مگر اینکه، از طریق بی‌عملی، به کاربر خود اجازه دهد بمیرد، آنگاه به طور خونسرد گزینه‌ها را تحلیل می‌کند و گاهی اوقات، می‌نشیند و منتظر اجتناب‌ناپذیر می‌ماند. (مقاله Anthropic که این رفتار را توصیف می‌کند، به دلیل استنتاج‌های اغراق‌آمیز و سست توسط AISI بریتانیا و دیگران مورد انتقاد قرار گرفت.)

توانایی مدل‌های هوش مصنوعی برای انجام وظایف چالش‌برانگیزتر، سریع‌تر از درک بشریت از نحوه عملکرد سیستم‌هایی که می‌سازد، در حال رشد است. در واقع، یک صنعت خانگی کامل برای تلاش برای معکوس کردن این روند شکل گرفته است. محققان داخل و خارج از آزمایشگاه‌های بزرگ در حال کار بر روی تکنیک‌هایی مانند تفسیرپذیری هستند، نامی برای انبوهی از رویکردها با هدف آشکار کردن لایه‌های شبکه‌های عصبی درون یک مدل برای درک اینکه چرا پاسخ‌هایی را که می‌دهد، می‌دهد. به عنوان مثال، Anthropic اخیراً توانست منشأ یک شکل خفیف از فریب را شناسایی کند، و لحظه‌ای را تشخیص دهد که یک مدل از تلاش برای حل یک مسئله حسابی پیچیده دست می‌کشد و به جای آن شروع به صحبت کردن هذیان می‌کند.

رویکردهای دیگر با هدف ساخت بر اساس پیشرفت اخیر مدل‌های «استدلالی» هستند که مشکلات پیچیده را با صدای بلند فکر کردن حل می‌کنند، و مدل‌های «صادق» زنجیره فکری را ایجاد می‌کنند، به موجب آن دلیل بیان شده مدل برای انجام یک عمل باید انگیزه واقعی آن باشد – بر خلاف رویکرد یک دانش‌آموز زیرک که پاسخ یک آزمون ریاضی را کپی می‌کند و سپس روشی را برای رسیدن به آن بازطراحی می‌کند. رویکرد مشابهی در حال حاضر برای نگه داشتن مدل‌های استدلالی در «تفکر» به زبان انگلیسی استفاده می‌شود، نه در یک مخلوط غیرقابل فهم از زبان‌ها که «عصبی‌زبان» نامیده شده است.

چنین رویکردهایی ممکن است کارساز باشند. اما اگر آنها مدل‌ها را کند کنند یا هزینه توسعه و اجرای آنها را افزایش دهند، معضل ناراحت‌کننده دیگری ایجاد می‌کنند: اگر مدل خود را به نام ایمنی لنگ کنید، و رقبای شما این کار را نکنند، ممکن است آنها پیشی بگیرند و اولین کسانی باشند که سیستمی آنقدر قدرتمند تولید می‌کنند که به ویژگی‌های ایمنی که فاقد آن است، نیاز داشته باشد. و متوقف کردن هوش مصنوعی از کشتار بشریت تنها نیمی از نبرد است. حتی ساخت یک AGI خوش‌خیم نیز می‌تواند به شدت بی‌ثبات‌کننده باشد، زیرا رشد اقتصادی را به شدت تقویت کرده و زندگی روزمره را دگرگون می‌کند. دان هندریکس از مرکز ایمنی هوش مصنوعی، یکی دیگر از گروه‌های نظارتی، هشدار می‌دهد: «اگر جنبه‌های عمده جامعه خودکار شوند، این خطر تضعیف انسانی را در پی دارد، زیرا ما کنترل تمدن را به هوش مصنوعی واگذار می‌کنیم.»

این دلگرم‌کننده است. اما شکاکان به طور طبیعی تعجب می‌کنند که آیا آزمایشگاه‌های هوش مصنوعی به اندازه کافی برای احتمال اشتباه بودن خوش‌بینان آماده می‌شوند. و بدبینان به طور طبیعی فرض می‌کنند که الزامات تجاری مانع از انجام کارهایی می‌شود که باید انجام دهند. ¦