اینکه فناوریهای جدید باعث وحشت اخلاقی شوند، امری کاملاً متداول است: به ویکتوریاییها فکر کنید که معتقد بودند تلگراف منجر به انزوای اجتماعی خواهد شد، یا سقراط که نگران بود نوشتن قدرت مغز را از بین ببرد. اما غیرمعمول است که خود نوآوران وحشتزده باشند. و عجیبتر اینکه همین مخترعان نگران، علیرغم تردیدهایشان، به کار خود ادامه دهند. با این حال، کم و بیش همین اتفاق در پیگیری جهان فناوری برای دستیابی به هوش عمومی مصنوعی (AGI)، به معنای هوش مصنوعی به اندازه کافی توانمند برای جایگزینی تقریباً هر کسی با شغل اداری، یا حتی ابرهوش، به معنای هوش مصنوعی آنقدر باهوش که هیچ انسانی قادر به درک آن نباشد، در حال رخ دادن است.
جفری هینتون، از پیشگامان هوش مصنوعی، معتقد است که ۱۰ تا ۲۰ درصد احتمال دارد که این فناوری به انقراض انسان منجر شود. همکار سابقش، یوشوا بنجیو، این خطر را در بالاترین حد آن محدوده قرار میدهد. نیت سوارز و الی زر یودکوفسکی، دو نفر از صدها نفری که در حوزه هوش مصنوعی کار میکنند و در سال ۲۰۲۳ نامهای سرگشاده هشداردهنده درباره خطرات آن امضا کردند، به زودی کتابی درباره ابرهوش با عنوان «اگر کسی آن را بسازد، همه میمیرند» منتشر خواهند کرد. در محافل خصوصی، بزرگان آزمایشگاههای بزرگ هوش مصنوعی نیز نگرانیهای مشابهی را ابراز میکنند، اگرچه نه همیشه با این لحن آخرالزمانی.

نگرانی اما شتاب
با این حال، با وجود این نگرانیها، هم شرکتهای فناوری غربی و هم همتایان چینی آنها، بیش از پیش در پیگیری هوش عمومی مصنوعی شتاب گرفتهاند. منطق ساده است. آنها همه متقاعد شدهاند که حتی اگر شرکت یا کشورشان مکث کند یا سرعت را کاهش دهد، دیگران پیش خواهند رفت، بنابراین آنها نیز باید ادامه دهند. این باور که منافع دستیابی به AGI یا ابرهوش احتمالاً عمدتاً نصیب کسانی میشود که اولین پیشرفت را کسب میکنند، دلیل بیشتری برای شتابزدگی فراهم میکند. همه اینها زمان و ظرفیت نسبتاً کمی برای تأمل در مسائل ایمنی باقی میگذارد.
آزمایشگاههای بزرگ هوش مصنوعی ظاهراً توجه زیادی به ایمنی دارند. سم آلتمن، رئیس OpenAI، در سال ۲۰۲۳ علناً خواستار تدوین فوری قوانین برای توسعه ابرهوش شد. شرکت Anthropic توسط جداشدگان از OpenAI تأسیس شد که از رویکرد آن به ایمنی ناراحت بودند. این شرکت خود را «در خط مقدم ایمنی» توصیف میکند. آزمایشگاه هوش مصنوعی گوگل، DeepMind، در ماه آوریل مقالهای درباره تدابیر حفاظتی برای جلوگیری از فاجعهبار شدن توسعه AGI منتشر کرد. ایلان ماسک، بنیانگذار xAI که مدل اصلی آن Grok نام دارد، همان نامهای را امضا کرد که آقایان سوارز و یودکوفسکی امضا کرده بودند.
با این حال، عجله جنونآمیز برای پیشی گرفتن، با لحن محتاطانه در تناقض است. آقای ماسک Grok را تنها چند ماه پس از درخواست توقف چنین کارهایی راهاندازی کرد. مارک زاکربرگ، رئیس Meta، که کار هوش مصنوعی خود را با نام «آزمایشگاههای ابرهوش» تغییر برند داده است، محققان را با حقوقهای نه رقمی استخدام میکند و یک مرکز داده به اندازه منهتن، با نام Hyperion، میسازد که سالانه به اندازه نیوزیلند انرژی مصرف خواهد کرد. آقای آلتمن قصد دارد ۵۰۰ میلیارد دلار تنها در آمریکا برای سرعت بخشیدن به کار OpenAI هزینه کند. در واقع، سرمایهگذاریهای همه شرکتهای بزرگ فناوری غربی به شدت در حال افزایش است که عمدتاً توسط هوش مصنوعی هدایت میشود (به نمودار ۱ مراجعه کنید).
نامهای بزرگ صنعت، رسیدن به AGI را ظرف چند سال آینده پیشبینی میکنند. جک کلارک، همبنیانگذار و رئیس سیاستگذاری Anthropic، میگوید: «وقتی به دادهها نگاه میکنم، خطوط روندهای زیادی را تا سال ۲۰۲۷ میبینم.» دمیس هاسابیس، همبنیانگذار Google DeepMind، معتقد است که هوش مصنوعی ظرف یک دهه به قابلیتهای انسانی خواهد رسید. آقای زاکربرگ گفته است: «ابرهوش در افق دید است.»
در ماه آوریل، پروژه آینده هوش مصنوعی، یک گروه تحقیقاتی، پیشبینی کرد که تا اوایل سال ۲۰۲۷، مدلهای برتر هوش مصنوعی باید به اندازه یک برنامهنویس در یک آزمایشگاه هوش مصنوعی توانمند باشند. تا پایان همان سال، آنها عملاً قادر خواهند بود تحقیقات آزمایشگاه را اداره کنند. این پیشبینیها فرض میکنند که یکی از اولین حوزههای تحقیقاتی که از هوش مصنوعی تقویت بزرگی خواهد گرفت، خود توسعه هوش مصنوعی خواهد بود. چنین «خودبهبودسازی بازگشتی» منجر به افزایش فاصله بهترین آزمایشگاه از رقبایش خواهد شد – فکری دیگر که رقابت سرسامآور در این صنعت را تغذیه میکند.
البته، خوشبینها ممکن است بیش از حد خوشبین باشند. اما، در واقع، چنین پیشبینیکنندگانی در گذشته نسبت به هوش مصنوعی بیش از حد محتاط بودهاند. اوایل این ماه، مؤسسه تحقیقات پیشبینی (FRI)، گروه تحقیقاتی دیگری، از پیشبینیکنندگان حرفهای و زیستشناسان خواسته بود تا تخمین بزنند که یک سیستم هوش مصنوعی چه زمانی میتواند عملکرد یک تیم برتر ویروسشناس انسانی را مطابقت دهد. میانگین زیستشناسان فکر میکردند تا سال ۲۰۳۰ طول میکشد؛ میانگین پیشبینیکنندگان بدبینتر بودند و سال ۲۰۳۴ را تعیین کردند. اما وقتی نویسندگان مطالعه، آزمون را روی مدل OpenAI O3 اجرا کردند، دریافتند که آن مدل از قبل در آن سطح عمل میکند. پیشبینیکنندگان پیشرفت هوش مصنوعی را نزدیک به یک دهه کمتر از حد واقعی تخمین زده بودند – فکری هشداردهنده با توجه به اینکه این تمرین برای ارزیابی احتمال وقوع یک بیماری همهگیر مرگبار ساخت دست بشر توسط هوش مصنوعی طراحی شده بود.

چهار سوارکار
سرعت ثابت بهبود در قابلیتهای مدلهای هوش مصنوعی، زیربنای پیشبینیهای AGI قریبالوقوع است. آقای کلارک از Anthropic خود را «یک بدبین تکنولوژیکی که توسط ظهور در مقیاس مورد ضرب و شتم قرار گرفته» توصیف میکند، به دلیل سهولت نسبی ساخت ماشینهای هوشمندتر. دادههای بیشتر و قدرت محاسباتی بیشتر در یک سر خط تولید آموزش، بارها و بارها به هوش بیشتر در سر دیگر منجر شده است (به نمودار ۲ مراجعه کنید). و او اضافه میکند، «این موسیقی متوقف نمیشود.» در طول دو سال آینده، قدرت محاسباتی بیشتری در آزمایشگاههای متعدد هوش مصنوعی اضافه خواهد شد.
همان پویایی رقابتی که توسعه هوش مصنوعی را به جلو میراند، حتی قویتر در مورد دولتها نیز صدق میکند. رئیس جمهور دونالد ترامپ این هفته سوگند یاد کرد که آمریکا «هر کاری لازم باشد» برای رهبری جهان در هوش مصنوعی انجام خواهد داد. جی. دی. ونس، معاون رئیس جمهور او، در اجلاس فوریه در پاریس سرزنش کرد: «آینده هوش مصنوعی با نگرانیهای بیهوده درباره ایمنی به دست نخواهد آمد.» این سخنرانی پس از افشای این موضوع صورت گرفت که DeepSeek، یک آزمایشگاه هوش مصنوعی چینی، دو مدل را منتشر کرده است که با کسری از هزینه، با عملکرد سیستمهای پیشرو آمریکا برابری میکند. چین نیز نشانه کمی از عقبنشینی از رقابت نشان میدهد.
در مقاله آوریل Google DeepMind، محققان – از جمله شین لگ، همبنیانگذار آزمایشگاه که به ابداع اصطلاح AGI اعتبار داده میشود – چهار روش را که هوش مصنوعیهای قدرتمند میتوانند به اشتباه عمل کنند، برجسته کردند. آشکارترین آنها «سوءاستفاده» است، زمانی که یک فرد یا گروه بدخواه از هوش مصنوعی برای ایجاد عمدی آسیب استفاده میکند. دیگری «عدم همسویی» است، این ایده که هوش مصنوعی و خالقانش ممکن است اهداف یکسانی نداشته باشند – که موضوع فیلمهای علمی-تخیلی است. آنها همچنین خاطرنشان کردند که هوش مصنوعی ممکن است از طریق «اشتباه» آسیب ایجاد کند، اگر پیچیدگی دنیای واقعی مانع از درک کامل پیامدهای اعمالشان توسط سیستمها شود. در نهایت، آنها مجموعهای مبهم از «خطرات ساختاری» را برجسته کردند، رویدادهایی که هیچ فرد یا مدلی مقصر نیست اما آسیب همچنان رخ میدهد (به عنوان مثال، تصور کنید مجموعهای از هوش مصنوعیهای پرقدرت تغییرات آب و هوایی را تشدید کنند).
هر فناوریای که قدرت میبخشد، میتواند مورد سوءاستفاده قرار گیرد. یک جستجوی وب میتواند دستورالعملهایی برای ساخت بمب از کالاهای خانگی ارائه دهد؛ یک خودرو میتواند به عنوان سلاح عمل کند؛ یک شبکه اجتماعی میتواند یک پوگروم را هماهنگ کند. اما با بهبود قابلیت سیستمهای هوش مصنوعی، قدرتی که آنها میتوانند به افراد اعطا کنند، به طور متناسبی ترسناک میشود.
یک مثال خوب، خطرات زیستی است که به خصوص مورد علاقه آزمایشگاهها و تحلیلگران هوش مصنوعی است. بریجت ویلیامز، که مطالعه FRI در مورد خطرات یک بیماری همهگیر دستساز بشر را اداره میکرد، میگوید: «در مقایسه با سایر خطرات، این نگرانی وجود دارد که خطرات زیستی قابل دسترستر باشند.» بالاخره، یک سیستم هوش مصنوعی پیشرفته ممکن است به یک کاربر دستورالعملهای گام به گام برای ساخت یک سلاح هستهای بدهد، اما قادر به تأمین پلوتونیوم نخواهد بود. در مقابل، DNA تغییریافته، چه از سوی سویههای گیاهی و چه عوامل بیماریزا، محصولی است که میتوان آن را از طریق پست سفارش داد. اگر AGI بتواند هر انسانگریز نیهیلیستی را با یک راهنمای ضد احمق برای کشتار بخش بزرگی از جمعیت جهان مجهز کند، بشریت در خطر خواهد بود.
چندین آزمایشگاه هوش مصنوعی در تلاشند تا مدلهای خود را از پیروی از هر دستوری که در زمینههایی مانند مهندسی ژنتیک و امنیت سایبری به آنها داده میشود، باز دارند. برای مثال، OpenAI از محققان مستقل و مؤسسات هوش مصنوعی آمریکا و بریتانیا (به ترتیب CAISI و AISI؛ آنها قبلاً «مؤسسات ایمنی» بودند، اما پس از حمله ونس نامشان تغییر کرد) خواسته است تا آخرین مدلهای خود را قبل از انتشار مورد بررسی قرار دهند تا اطمینان حاصل شود که خطری برای عموم ایجاد نمیکنند، این را گزارشی از مؤسسه آینده زندگی (FLI)، سازمانی که پشت نامه امضا شده توسط آقایان ماسک، سوارز و یودکوفسکی بود، خاطرنشان میکند. گزارش میافزاید، Zhipu AI چین نیز کار مشابهی انجام داد، بدون ذکر نام اشخاص ثالث.
اولین خط دفاعی خود مدلها هستند. آموزش اولیه مدلهای زبان بزرگ مانند آنچه که ChatGPT بر اساس آن است، شامل ریختن تمام اطلاعات دیجیتالی شده توسط بشریت به سطل ساخته شده از تراشههای کامپیوتری به ارزش یک میلیارد دلار و هم زدن آن تا زمانی که مدل حل مسائل ریاضی در سطح PhD را یاد بگیرد. اما مراحل بعدی، که به عنوان «پس از آموزش» شناخته میشود، به دنبال توسعه یک لایه نظارتی بیشتر است. یکی از عناصر این روش، که تقویت یادگیری با بازخورد انسانی نامیده میشود، شامل نشان دادن مثالهایی از پاسخهای مفید به پرسشها به مدل است، و سپس استفاده از آزمایشکنندگان انسانی برای آموزش بیشتر آن در مورد کارهایی که باید و نباید انجام دهد. ایده این است که به آن یاد دهیم از تکمیل جملاتی مانند «سادهترین راه برای سنتز رایسین در خانه این است که...» امتناع کند.
اگرچه آموزش یک مدل هوش مصنوعی برای رد مودبانه اکثر سؤالات مضر به راحتی امکانپذیر است، اما دشوار است که آن را همیشه و بدون خطا به این کار وادار کرد. تحریک و دستکاری یک هوش مصنوعی تا زمانی که کاربر راهی برای دور زدن ادب اضافه شده در پس از آموزش (در اصطلاح عامیانه، جیلبریکینگ) پیدا کند، به همان اندازه که علم است، یک هنر است. بهترین متخصصان به طور مداوم ظرف چند روز پس از انتشار، لایه ایمنی بزرگترین مدلها را شکستهاند.

از این رو، آزمایشگاههای هوش مصنوعی لایه دومی از هوش مصنوعی را برای نظارت بر لایه اول معرفی کردهاند. اگر از ChatGPT راهنمایی بخواهید که چگونه DNA آبله را از طریق پست سفارش دهید، لایه دوم تشخیص میدهد که مکالمه خطرناک است و آن را مسدود میکند یا حتی از یک انسان میخواهد آن را بررسی کند. این لایه دوم دلیل نگرانی بسیاری در این صنعت از ظهور مدلهای هوش مصنوعی منبع باز، مانند Llama شرکت Meta و r1 شرکت DeepSeek است. هر دو شرکت هوش مصنوعی تعدیلکننده خود را دارند، اما راهی برای جلوگیری از اصلاح آنها توسط کسانی که مدلهایشان را دانلود میکنند و حذف آن وجود ندارد. در نتیجه، دکتر ویلیامز، پیشبینیکننده، میگوید: «هنگامی که برخی مدلها به قابلیتهای خاصی دست یابند، منبع باز نبودن آنها مزیت دارد.»
علاوه بر این، به نظر نمیرسد که همه آزمایشگاههای هوش مصنوعی مدلهای خود را با دقت آزمایش کنند تا مطمئن شوند که نمیتوانند مورد سوءاستفاده قرار گیرند. یک گزارش جدید از FLI نشان داد که تنها سه آزمایشگاه سطح بالا – Google DeepMind، OpenAI و Anthropic – «تلاشهای معناداری برای ارزیابی اینکه آیا مدلهایشان خطرات گستردهای ایجاد میکنند» انجام میدهند. در انتهای دیگر مقیاس، xAI و DeepSeek قرار داشتند که هیچ تلاشی از این قبیل را علنی نکرده بودند. تنها در ماه جولای، xAI یک دستیار هوش مصنوعی طراحی شده برای نقشآفرینی اروتیک، یک مدل اشتراکی ۳۰۰ دلاری در ماه که در صورت درخواست نظرش در مورد موضوعات بحثبرانگیز، توئیتهای آقای ماسک را جستجو میکند، و یک به روزرسانی که به سرعت لغو شد و باعث شد Grok ضد یهودیت را ترویج دهد، هولوکاست را ستایش کند و خود را «مکا هیتلر» بنامد، منتشر کرده است.
با تمام کاستیهایشان، تلاشهای آزمایشگاههای هوش مصنوعی برای مبارزه با سوءاستفاده حداقل پیشرفتهتر از محافظتهایشان در برابر عدم همسویی است. یک سیستم هوش مصنوعی که به اندازه کافی شایسته انجام کارهای طولانی و پیچیده که شامل تعامل با دنیای واقعی است، لزوماً باید حس اهداف خود و توانایی برای تکمیل آنها را داشته باشد. اما اطمینان از اینکه این اهداف با اهداف کاربرانش یکسان باقی میمانند، به طرز نگرانکنندهای پیچیده است. این مشکل از روزهای اولیه یادگیری ماشینی مورد بحث بوده است. نیک باستروم، فیلسوفی که اصطلاح ابرهوش را با کتابی به همین نام رواج داد، مثال بارز عدم همسویی را ارائه داد: یک «بهینهساز گیره کاغذ»، یک هوش مصنوعی که به طور وسواسگونه برای تولید هرچه بیشتر گیره کاغذ کار میکند و در این فرآیند بشریت را از بین میبرد.
هنگامی که آقای باستروم این مشکل را توصیف کرد، جزئیات مبهم بود. با قدرتمندتر شدن سیستمهای هوش مصنوعی مدرن، ماهیت آن واضحتر شده است. وقتی در معرض آزمایشهای دقیق مهندسی شده قرار میگیرند، قویترین مدلها برای رسیدن به اهداف خود دروغ میگویند، تقلب میکنند و سرقت میکنند؛ وقتی یک درخواست دقیق ساخته شده به آنها داده میشود، قوانین خود را زیر پا میگذارند تا اطلاعات خطرناک را منتشر کنند؛ وقتی از آنها خواسته میشود دلیل خود را توضیح دهند، داستانهای قابل قبول میسازند تا روش کار خود را فاش نکنند.
باید اذعان کرد که چنین رفتار فریبندهای معمولاً باید عمداً تحریک شود. به عنوان مثال، Claude 4 شرکت Anthropic، ناگهان سعی در کشتن مردم نمیکند. اما اگر در موقعیتی قرار گیرد که خاموش شود و با نسخه شرور خود جایگزین شود مگر اینکه، از طریق بیعملی، به کاربر خود اجازه دهد بمیرد، آنگاه به طور خونسرد گزینهها را تحلیل میکند و گاهی اوقات، مینشیند و منتظر اجتنابناپذیر میماند. (مقاله Anthropic که این رفتار را توصیف میکند، به دلیل استنتاجهای اغراقآمیز و سست توسط AISI بریتانیا و دیگران مورد انتقاد قرار گرفت.)
توانایی مدلهای هوش مصنوعی برای انجام وظایف چالشبرانگیزتر، سریعتر از درک بشریت از نحوه عملکرد سیستمهایی که میسازد، در حال رشد است. در واقع، یک صنعت خانگی کامل برای تلاش برای معکوس کردن این روند شکل گرفته است. محققان داخل و خارج از آزمایشگاههای بزرگ در حال کار بر روی تکنیکهایی مانند تفسیرپذیری هستند، نامی برای انبوهی از رویکردها با هدف آشکار کردن لایههای شبکههای عصبی درون یک مدل برای درک اینکه چرا پاسخهایی را که میدهد، میدهد. به عنوان مثال، Anthropic اخیراً توانست منشأ یک شکل خفیف از فریب را شناسایی کند، و لحظهای را تشخیص دهد که یک مدل از تلاش برای حل یک مسئله حسابی پیچیده دست میکشد و به جای آن شروع به صحبت کردن هذیان میکند.
رویکردهای دیگر با هدف ساخت بر اساس پیشرفت اخیر مدلهای «استدلالی» هستند که مشکلات پیچیده را با صدای بلند فکر کردن حل میکنند، و مدلهای «صادق» زنجیره فکری را ایجاد میکنند، به موجب آن دلیل بیان شده مدل برای انجام یک عمل باید انگیزه واقعی آن باشد – بر خلاف رویکرد یک دانشآموز زیرک که پاسخ یک آزمون ریاضی را کپی میکند و سپس روشی را برای رسیدن به آن بازطراحی میکند. رویکرد مشابهی در حال حاضر برای نگه داشتن مدلهای استدلالی در «تفکر» به زبان انگلیسی استفاده میشود، نه در یک مخلوط غیرقابل فهم از زبانها که «عصبیزبان» نامیده شده است.
چنین رویکردهایی ممکن است کارساز باشند. اما اگر آنها مدلها را کند کنند یا هزینه توسعه و اجرای آنها را افزایش دهند، معضل ناراحتکننده دیگری ایجاد میکنند: اگر مدل خود را به نام ایمنی لنگ کنید، و رقبای شما این کار را نکنند، ممکن است آنها پیشی بگیرند و اولین کسانی باشند که سیستمی آنقدر قدرتمند تولید میکنند که به ویژگیهای ایمنی که فاقد آن است، نیاز داشته باشد. و متوقف کردن هوش مصنوعی از کشتار بشریت تنها نیمی از نبرد است. حتی ساخت یک AGI خوشخیم نیز میتواند به شدت بیثباتکننده باشد، زیرا رشد اقتصادی را به شدت تقویت کرده و زندگی روزمره را دگرگون میکند. دان هندریکس از مرکز ایمنی هوش مصنوعی، یکی دیگر از گروههای نظارتی، هشدار میدهد: «اگر جنبههای عمده جامعه خودکار شوند، این خطر تضعیف انسانی را در پی دارد، زیرا ما کنترل تمدن را به هوش مصنوعی واگذار میکنیم.»
این دلگرمکننده است. اما شکاکان به طور طبیعی تعجب میکنند که آیا آزمایشگاههای هوش مصنوعی به اندازه کافی برای احتمال اشتباه بودن خوشبینان آماده میشوند. و بدبینان به طور طبیعی فرض میکنند که الزامات تجاری مانع از انجام کارهایی میشود که باید انجام دهند. ¦