داریو آمودی، مدیرعامل شرکت هوش مصنوعی انتروپیک، پیشبینی کرده است که یک هوش مصنوعی «باهوشتر از یک برنده جایزه نوبل» در زمینههایی مانند زیستشناسی، ریاضیات، مهندسی و نویسندگی ممکن است تا سال ۲۰۲۷ آنلاین شود. او میلیونها نسخه از یک مدل را تصور میکند که هر یک تحقیقات خود را انجام میدهند: «کشوری از نوابغ در یک مرکز داده». در ماه ژوئن، سم آلتمن از OpenAI نوشت که این صنعت در آستانه ساخت «فرا هوش دیجیتال» است. او اظهار داشت: «دهه ۲۰۳۰ احتمالاً بسیار متفاوت از هر زمان دیگری خواهد بود.» در همین حال، ابزارهای هوش مصنوعی که بیشتر مردم در حال حاضر روزانه با آنها تعامل دارند، یادآور کلیپی (Clippy) هستند، «دستیار» سابق مایکروسافت آفیس که در واقع بیشتر یک مزاحم بود. ابزار هوش مصنوعی زوم پیشنهاد میکند که از آن بپرسید «برخی از یخشکنهای جلسه چیست؟» یا به آن دستور دهید «یک پیام کوتاه برای ابراز قدردانی بنویسید.» سیری در تنظیم یادآورها خوب است اما در موارد دیگر چندان کارآمد نیست. یکی از دوستانم دکمهای را در جیمیل دید که میگفت «تشکر کن و داستانی بگو». وقتی روی آن کلیک کرد، هوش مصنوعی گوگل داستانی خندهدار در مورد سفر به ترکیه اختراع کرد که او هرگز آن را انجام نداده بود.
عرضه عجولانه و ناهموار هوش مصنوعی فضایی مه آلود ایجاد کرده است که در آن نتیجهگیری مبنی بر اینکه هیچ چیز خاصی در اینجا وجود ندارد و همه اینها فقط هیاهو است، وسوسهانگیز است. البته، هیاهوی زیادی وجود دارد: جدول زمانی آمودی علمی-تخیلی است. (مدلهای هوش مصنوعی با این سرعت پیشرفت نمیکنند.) اما این نوع دیگری از خوشخیالی است که فرض کنیم مدلهای زبان بزرگ (Large Language Models - LLMs) فقط کلمات را جابجا میکنند. من قبلاً با این دیدگاه همدلی داشتم. در این ایده که هوش مصنوعی ارتباط کمی با هوش یا فهم واقعی دارد، آرامش مییافتم. حتی کاستیهای آن را جشن میگرفتم – به نفع تیم خودمان. سپس شروع به استفاده از هوش مصنوعی در کارم به عنوان برنامهنویس کردم، با این ترس که اگر این کار را نکنم، عقب خواهم ماند. (کارفرمای من، یک شرکت معاملاتی، چندین سرمایهگذاری و همکاری با شرکتهای هوش مصنوعی، از جمله انتروپیک، دارد.) نوشتن کد، به گفته بسیاری، کاری است که هوش مصنوعی در آن بهترین است؛ کد ساختار بیشتری نسبت به نثر دارد و اغلب میتوان به طور خودکار صحت یک برنامه را تأیید کرد. تغییر دیدگاه من سریع بود. در ابتدا، به جای جستجو، از مدلهای هوش مصنوعی مشورت میگرفتم. سپس مسائل کوچک و مستقل را به آنها میدادم. در نهایت، کارهای واقعی – همان کارهایی که تمام دوران حرفهایام را برای انجام آنها آموزش دیده بودم – را به آنها سپردم. دیدم که این مدلها جزئیات پیچیده هزاران خط کد را در عرض چند ثانیه هضم میکنند. آنها میتوانستند باگهای ظریف را پیدا کرده و ویژگیهای جدید پیچیده را هماهنگ کنند. سرانجام، به یک تیم با رشد سریع منتقل شدم که هدفش استفاده بهتر از ابزارهای هوش مصنوعی و ایجاد ابزارهای خاص خودمان است.
گفته میشود ویلیام گیبسون، نویسنده داستانهای علمی-تخیلی، مشاهده کرده است که آینده از هماکنون فرا رسیده، اما به طور یکنواخت توزیع نشده است – که ممکن است توضیح دهد چرا هوش مصنوعی دو فرهنگ ایجاد کرده است، یکی ردکننده و دیگری مجذوب. در زندگی روزمره ما، «عوامل» هوش مصنوعی که میتوانند تعطیلات رزرو کنند یا مالیات ثبت کنند، شکست خوردهاند، اما من همکارانی دارم که بیشتر کدهای خود را با استفاده از هوش مصنوعی مینویسند و گاهی اوقات چندین عامل کدنویسی را همزمان اجرا میکنند. مدلها گاهی اشتباهات تازهکارانه مرتکب میشوند یا در حلقههای بیمعنی گرفتار میشوند، اما همانطور که یاد گرفتهام از آنها به طور مؤثر استفاده کنم، به من اجازه دادهاند در یک شب کاری را انجام دهم که قبلاً یک ماه طول میکشید. چندی پیش، من دو برنامه iOS را بدون اینکه بدانم چگونه یک برنامه iOS بسازم، ایجاد کردم.
من یک رئیس داشتم که میگفت مصاحبه شغلی باید به دنبال نقاط قوت باشد، نه عدم وجود نقاط ضعف. مدلهای زبان بزرگ (LLMs) ضعفهای زیادی دارند: آنها به طور مشهور حقایق نادرست و معقول را توهموار تولید میکنند؛ حتی وقتی اشتباه میکنید، میتوانند مطیع باشند؛ و با پازلهای ساده فریب میخورند. اما زمانی را به یاد میآورم که نقاط قوت آشکار مدلهای هوش مصنوعی امروزی – فصاحت، سیالیت، توانایی «درک» آنچه کسی در مورد آن صحبت میکند – به عنوان جامهای مقدس (holy grails) در نظر گرفته میشدند. وقتی این نقاط قوت را از نزدیک تجربه میکنید، از خود میپرسید: توهم فهم باید چقدر قانعکننده باشد تا دیگر آن را توهم نخوانید؟
در یک روز به شدت گرم در تابستان امسال، دوست من مکس با خانوادهاش در یک زمین بازی قرار ملاقات داشت. به دلیلی، آبپاش کودکان خاموش بود و همسر مکس به همه قول داده بود که شوهرش آن را درست خواهد کرد. مکس با بچههای شش و هفت ساله که صورتشان سرخ شده بود روبرو شد و با امید پیدا کردن یک کلید «روشن» بزرگ و چاق، وارد یک انباری ابزار شد. در عوض، او یک هزارتوی از لولهها و شیرهای قدیمی را پیدا کرد. او در حال تسلیم شدن بود که ناگهان تلفن خود را بیرون آورد و یک عکس از آن را به ChatGPT-4o داد، همراه با توضیحی از مشکلش. هوش مصنوعی برای یک ثانیه فکر کرد، یا شاید فکر نکرد، اما به هر حال گفت که او در حال مشاهده یک سیستم جلوگیری از برگشت جریان است که در سیستمهای آبیاری معمول است. آیا آن شیر توپی زرد رنگ را در پایین میبیند؟ احتمالاً آن جریان را کنترل میکند. مکس به سراغ آن رفت و صدای تشویق در سراسر زمین بازی به گوش رسید که آب روشن شد.
آیا چتجیپیتی بدون فکر کلمات را کنار هم میچید، یا مشکل را درک میکرد؟ پاسخ این سوال میتواند چیز مهمی در مورد خودِ درک به ما بیاموزد. دوریس تسائو، استاد علوم اعصاب در دانشگاه کالیفرنیا، برکلی، به من گفت: «دانشمندان علوم اعصاب باید با این حقیقت متواضعانه روبرو شوند که پیشرفتهای یادگیری ماشین بیشتر از هر چیزی که علوم اعصاب در صد سال گذشته کشف کرده است، درباره جوهر هوش به ما آموختهاند.» تسائو بیشتر به دلیل رمزگشایی نحوه درک چهرهها توسط میمونهای ماکاک شناخته شده است. تیم او یاد گرفت که پیشبینی کند کدام نورونها زمانی که یک میمون چهره خاصی را میبیند، فعال میشوند؛ حتی شگفتانگیزتر اینکه، با داشتن الگویی از فعال شدن نورونها، تیم تسائو میتوانست چهره را بازسازی کند. کار آنها بر تحقیقاتی بنا شده بود که نشان میداد چگونه چهرهها در مدلهای هوش مصنوعی نمایش داده میشوند. این روزها، سوال مورد علاقه او که از مردم میپرسد این است: «عمیقترین بینشی که از ChatGPT به دست آوردهاید چیست؟» او گفت: «پاسخ خودم این است که فکر میکنم این مدل به طور رادیکالی راز تفکر را میگشاید.»
اساسیترین روایت از چگونگی رسیدن به این نقطه به این صورت است: در دهه ۱۹۸۰، یک تیم کوچک از روانشناسان شناختی و دانشمندان کامپیوتر تلاش کردند تا تفکر را در یک ماشین شبیهسازی کنند. از جمله معروفترین آنها میتوان به دیوید روملهارت، جفری هینتون و جیمز مککللند اشاره کرد که گروه تحقیقاتی در دانشگاه سن دیگو تشکیل دادند. آنها مغز را به عنوان یک شبکه وسیع میدیدند که در آن نورونها به صورت الگوهایی فعال میشوند، که باعث فعال شدن مجموعههای دیگری از نورونها میشود و همینطور ادامه پیدا میکند؛ این رقص الگوها تفکر است. مغز با تغییر قدرت اتصالات بین نورونها یاد میگیرد. به طور حیاتی، دانشمندان این فرآیند را با ایجاد یک شبکه عصبی مصنوعی و اعمال یک الگوریتم ساده به نام گرادیان نزولی (gradient descent) برای افزایش دقت پیشبینیهای آن تقلید کردند. (این الگوریتم را میتوان با یک کوهنورد مقایسه کرد که از بالای کوه به سمت دره حرکت میکند؛ یک استراتژی ساده برای پیدا کردن مسیر، اطمینان از این است که هر قدم به سمت پایین باشد.) استفاده از چنین الگوریتمهایی در شبکههای بزرگ به عنوان یادگیری عمیق (deep learning) شناخته میشود.
افراد دیگر در حوزه هوش مصنوعی شک داشتند که شبکههای عصبی برای وظایف دنیای واقعی به اندازه کافی پیچیده باشند، اما با بزرگتر شدن شبکهها، آنها شروع به حل مسائلی کردند که قبلاً غیرقابل حل به نظر میرسیدند. مردم کل پایاننامههای خود را به توسعه تکنیکهایی برای تشخیص ارقام دستنویس یا شناسایی چهرهها در تصاویر اختصاص میدادند؛ سپس یک الگوریتم یادگیری عمیق دادههای زیربنایی را هضم میکرد، ظرافتهای مسئله را کشف میکرد و آن پروژهها را منسوخ به نظر میرساند. یادگیری عمیق به زودی تشخیص گفتار، ترجمه، توضیح تصویر، بازیهای رومیزی و حتی مشکل پیشبینی نحوه تا شدن پروتئینها را به دست گرفت.
مدلهای پیشرو هوش مصنوعی امروزی بر بخش بزرگی از اینترنت آموزش دیدهاند، با استفاده از تکنیکی به نام پیشبینی توکن بعدی (next-token prediction). یک مدل با حدس زدن آنچه در ادامه خواهد خواند یاد میگیرد، سپس آن حدسها را با آنچه واقعاً ظاهر میشود مقایسه میکند. حدسهای اشتباه باعث تغییر در قدرت اتصال بین نورونها میشود؛ این همان گرادیان نزولی است. در نهایت، مدل در پیشبینی متن آنقدر خوب میشود که به نظر میرسد چیزهایی را میداند و درک میکند. پس این چیزی است که باید به آن فکر کرد. گروهی از افراد به دنبال راز چگونگی عملکرد مغز بودند. همانطور که مدل آنها به سمت اندازه مغز-مانند رشد کرد، شروع به انجام کارهایی کرد که تصور میشد به هوش مغز-مانند نیاز دارند. آیا ممکن است آنچه را که به دنبالش بودند، پیدا کرده باشند؟
مقاومت قابل درکی در برابر چنین روایت سادهانگارانه و پیروزمندانهای از هوش مصنوعی وجود دارد. استدلال علیه آن به خوبی توسط تد چیانگ مطرح شد، که در اوایل سال ۲۰۲۳ مقالهای برای این مجله با عنوان «ChatGPT یک JPEG تار از وب است» نوشت. منظور او کم و بیش به شکلی تحقیرآمیز بود: چتجیپیتی فقط همین است. شما کل اینترنت را به یک برنامه میدهید و آن را به طور ناقص به شما بازمیگرداند، مانند نسخهای از یک نسخه از یک عکس – اما با تسهیلات کافی برای فریب دادن شما که باور کنید برنامه هوشمند است. در بهار امسال، استدلال مشابهی در کتابی به نام «فریب هوش مصنوعی» (The AI Con) توسط امیلی ام. بندر، زبانشناس، و الکس هانا، جامعهشناس، مطرح شد. بندر شاید بیشتر به خاطر توصیف مدلهای زبان بزرگ (LLMs) به عنوان «طوطیهای تصادفی» (stochastic parrots) شناخته شده است. تایلر آستین هارپر، نویسنده، در نقد کتابی در The Atlantic اعلام کرد: «مدلهای زبان بزرگ هیچ چیز را درک نمیکنند، نمیتوانند و نخواهند فهمید.» او استدلال کرد که مدلها «نوشتار را نه با فکر کردن، بلکه با حدسهای آماری آگاهانه در مورد اینکه کدام واژه احتمالاً به دیگری میآید، تولید میکنند.» هارپر این استدلالهای فنی را با استدلالهای اخلاقی تقویت کرد. هوش مصنوعی ثروتمندان را ثروتمندتر میکند، انرژی کافی برای تسریع تغییرات اقلیمی مصرف میکند و کارگران را به حاشیه میراند. او نتیجه گرفت که «بنیاد صنعت هوش مصنوعی یک کلاهبرداری است.»
اما پرونده اخلاقی علیه هوش مصنوعی در نهایت ممکن است قویتر از پرونده فنی باشد. ساموئل جی. گرشمن، دانشمند علوم شناختی هاروارد که هیچگاه طرفدار اغراق در مورد هوش مصنوعی نبوده، به من گفت: «مسئله 'طوطی تصادفی' باید در مقطعی از بین برود. فقط سرسختترین شکاکان میتوانند انکار کنند که این سیستمها کارهایی انجام میدهند که بسیاری از ما فکر نمیکردیم قابل دستیابی باشند.» جاناتان کوهن، دانشمند علوم اعصاب شناختی در پرینستون، بر محدودیتهای هوش مصنوعی تاکید کرد، اما استدلال کرد که در برخی موارد، مدلهای زبان بزرگ (LLMs) به نظر میرسد یکی از بزرگترین و مهمترین بخشهای مغز انسان را بازتاب میدهند. کوهن گفت: «به عنوان اولین تقریب، نئوکورتکس شما همان سازوکار یادگیری عمیق شماست.» انسانها نئوکورتکس بسیار بزرگتری نسبت به سایر حیوانات، نسبت به اندازه بدن خود، دارند و گونههایی با بزرگترین نئوکورتکسها – فیلها، دلفینها، گوریلها، شامپانزهها، سگها – از جمله باهوشترینها هستند.
در سال ۲۰۰۳، اریک بی. بوم، محقق یادگیری ماشین، کتابی با عنوان «فکر چیست؟» (What Is Thought?) منتشر کرد (که من در قفسههای کتابخانه دانشگاه خود به دلیل عنوانش به آن برخوردم). اصل استدلال بوم این است که فهم، فشردهسازی است و فشردهسازی، فهم است. در آمار، وقتی میخواهید نقاط روی یک نمودار را درک کنید، میتوانید از تکنیکی به نام رگرسیون خطی (linear regression) برای رسم «خط بهترین برازش» (line of best fit) از میان آنها استفاده کنید. اگر نظم اساسی در دادهها وجود داشته باشد – شاید شما در حال ترسیم اندازه کفش در مقابل قد هستید – خط بهترین برازش آن را به طور کارآمد بیان میکند و پیشبینی میکند که نقاط جدید کجا ممکن است قرار گیرند. نئوکورتکس (neocortex) را میتوان به عنوان تقطیر دریایی از تجربه خام – صداها، مناظر و سایر حسها – به «خطوط بهترین برازش» درک کرد، که میتواند از آنها برای انجام پیشبینیها استفاده کند. یک نوزاد که جهان را کاوش میکند، سعی میکند حدس بزند یک اسباببازی چه طعمی دارد یا غذا وقتی به زمین میافتد به کجا خواهد رفت. وقتی یک پیشبینی اشتباه است، اتصالات بین نورونها تنظیم میشوند. با گذشت زمان، این اتصالات شروع به ثبت منظم بودنها در دادهها میکنند. آنها یک مدل فشرده از جهان را تشکیل میدهند.
شبکههای عصبی مصنوعی (Artificial neural networks) تجربه را درست مانند شبکههای عصبی واقعی فشرده میکنند. یکی از بهترین مدلهای هوش مصنوعی منبع باز، DeepSeek، قادر به نوشتن رمان، پیشنهاد تشخیصهای پزشکی و صحبت کردن مانند یک بومی به دهها زبان است. این مدل با استفاده از پیشبینی توکن بعدی (next-token prediction) روی بسیاری از ترابایت داده آموزش دیده است. اما وقتی مدل را دانلود میکنید، یک ششصدم آن حجم را دارد. تقطیری از اینترنت، فشرده شده تا روی لپتاپ شما جا شود. تد چیانگ در نامیدن نسخه اولیه ChatGPT به عنوان یک JPEG تار از وب حق داشت – اما، به نظر من، این دقیقاً دلیلی است که این مدلها به طور فزایندهای هوشمند شدهاند. چیانگ در مقالهاش اشاره کرد که برای فشردهسازی یک فایل متنی پر از میلیونها مثال محاسباتی، شما یک فایل زیپ ایجاد نمیکنید. شما یک برنامه ماشین حساب مینویسید. او نوشت: «بیشترین درجه فشردهسازی را میتوان با درک متن به دست آورد.» شاید مدلهای زبان بزرگ (LLMs) در حال انجام همین کار باشند.
تصور اینکه یک برنامه کامپیوتری واقعاً درک میکند و واقعاً فکر میکند، میتواند غیرطبیعی و حتی زننده به نظر برسد. ما معمولاً تفکر را چیزی آگاهانه تصور میکنیم، مانند مونولوگ درونی جُویِسی (Joycean inner monologue) یا جریان خاطرات حسی در یک خیالبافی پروستی (Proustian daydream). یا شاید منظورمان استدلال باشد: حل مرحله به مرحله یک مسئله. در گفتگوهایمان درباره هوش مصنوعی، ما اغلب این انواع مختلف تفکر را با هم اشتباه میگیریم و این باعث میشود قضاوتهایمان سطحی شود. یک استدلال این است که چتجیپیتی آشکارا فکر نمیکند، زیرا آشکارا در حال یک خیالبافی پروستی نیست؛ استدلال دیگر این است که چتجیپیتی آشکارا فکر میکند، زیرا میتواند پازلهای منطقی را بهتر از شما حل کند.
چیزی ظریفتر در حال وقوع است. من باور ندارم که چتجیپیتی زندگی درونی دارد، با این حال به نظر میرسد که میداند در مورد چه چیزی صحبت میکند. درک – داشتن فهمی از آنچه در حال وقوع است – نوعی از تفکر است که کمتر مورد توجه قرار گرفته است، زیرا عمدتاً ناخودآگاه است. داگلاس هافستاتر، استاد علوم شناختی و ادبیات تطبیقی در دانشگاه ایندیانا، دوست دارد بگوید که شناخت (cognition) همان بازشناسی (recognition) است. هافستاتر به خاطر کتابی درباره ذهن و آگاهی به نام «گودل، اشر، باخ: بافتهای زرین ابدی» (Gödel, Escher, Bach: An Eternal Golden Braid) که در سال ۱۹۸۰ جایزه پولیتزر را برد، مشهور شد. نظریه هافستاتر، که طی دههها تحقیق توسعه یافته است، این است که «به عنوان دیدن» (seeing as) جوهر تفکر است. شما یک لکه رنگ را به عنوان یک ماشین و دیگری را به عنوان یک جاکلیدی میبینید؛ حرف «الف» را تشخیص میدهید مهم نیست در چه فونتی نوشته شده یا دستخط چقدر بد باشد. هافستاتر استدلال کرد که همین فرآیند زیربنای انواع انتزاعیتر ادراک است. وقتی یک استاد بزرگ صفحه شطرنج را بررسی میکند، سالها تمرین به شکلی از دیدن کانالیزه میشود: فیل سفید ضعیف است؛ آن آخر بازی احتمالاً مساوی است. شما یک گرداب در رودخانه را نشانهای از خطرناک بودن عبور میبینید. شما جلسهای را که در آن هستید به عنوان وضعیت «امپراتور لخت است» میبینید. پسر تقریباً دو ساله من تشخیص میدهد که پیادهروی با کالسکه در اواخر صبح ممکن است فرصتی برای خوردن کروسان باشد و بر این اساس تقاضا میکند. از نظر هافستاتر، این خلاصهای از هوش است.
هافستاتر یکی از اولین بدبینان به هوش مصنوعی بود، و شک و تردید من ریشه در دیدگاه او داشت. او نوشت که بیشتر تحقیقات هوش مصنوعی ارتباط کمی با تفکر واقعی دارد، و زمانی که من در دهه ۲۰۰۰ در دانشگاه بودم، با او موافق بودم. استثنائاتی وجود داشت. او گروه UCSD را جالب میدانست. و کارهای یک دانشمند شناختی فنلاندی-آمریکایی کمتر شناخته شده، پنتی کانروا، را تحسین میکرد که متوجه برخی ویژگیهای غیرمعمول در ریاضیات فضاهای با ابعاد بالا شده بود. در یک فضای با ابعاد بالا، هر دو نقطه تصادفی ممکن است به شدت از هم دور باشند. اما، به طور غیرمنتظره، هر نقطه نیز دارای یک ابر بزرگ از همسایگان در اطراف خود است، بنابراین اگر «به اندازه کافی نزدیک» شوید، به راحتی میتوانید راه خود را به آن پیدا کنید. این موضوع کانروا را به یاد نحوه عملکرد حافظه انداخت. در کتابی در سال ۱۹۸۸ با عنوان «حافظه پراکنده خلوت» (Sparse Distributed Memory)، کانروا استدلال کرد که افکار، احساسات و خاطرات را میتوان به عنوان مختصات در فضای با ابعاد بالا نشان داد. مغز به نظر میرسید که قطعه سختافزاری عالی برای ذخیره چنین چیزهایی است. هر حافظه نوعی آدرس دارد که توسط نورونهایی که هنگام یادآوری آن فعال هستند، تعریف میشود. تجربیات جدید باعث فعال شدن مجموعههای جدیدی از نورونها میشوند که آدرسهای جدیدی را نشان میدهند. دو آدرس میتوانند از بسیاری جهات متفاوت باشند اما از جهات دیگر مشابه باشند؛ یک ادراک یا حافظه، خاطرات دیگر نزدیک را فعال میکند. بوی کاه خاطرهای از اردوگاه تابستانی را به یاد میآورد. سه نت اول سمفونی پنجم بتهوون، نت چهارم را به وجود میآورند. یک وضعیت شطرنج که هرگز ندیدهاید، بازیهای قدیمی را به یاد شما میآورد – نه همه آنها، فقط آنهایی که در همسایگی درست قرار دارند.
هافستاتر متوجه شد که کانروا در حال توصیف چیزی شبیه به یک ماشین «به عنوان دیدن» است. او در پیشگفتار کتاب کانروا نوشت: «مدل حافظه پنتی کانروا برای من یک مکاشفه بود. این اولین پژوهشی بود که به آن برخوردم که باعث شد حس کنم میتوانم هدف دوردست درک چگونگی عملکرد مغز را به طور کامل لمس کنم.» هر نوع تفکری – چه جُویِسی (Joycean)، چه پروستی (Proustian) یا منطقی – بستگی به این دارد که چیز مرتبط در زمان مناسب به ذهن خطور کند. اینگونه است که ما وضعیت خود را درک میکنیم.
کتاب کانروا از دید خارج شد و ستاره هافستاتر نیز کمرنگ شد – مگر زمانی که او گهگاهی سر خود را بلند میکرد تا از سیستم جدید هوش مصنوعی انتقاد کند. در سال ۲۰۱۸، او درباره گوگل ترنسلیت و فناوریهای مشابه نوشت: «هنوز چیز عمیقاً گمشدهای در این رویکرد وجود دارد که با یک کلمه منتقل میشود: درک.» اما GPT-4 که در سال ۲۰۲۳ منتشر شد، لحظه تحول هافستاتر را رقم زد. او اخیراً به من گفت: «از برخی کارهایی که این سیستمها انجام میدهند، متحیر هستم. حتی ده سال پیش هم غیرقابل تصور بود.» محکمترین بدبین نیز دیگر نمیتوانست بدبین بماند. اینجا برنامهای بود که میتوانست به خوبی یک متخصص ترجمه کند، قیاسسازی کند، بداههپردازی کند، و تعمیم دهد. ما چه کسی بودیم که بگوییم آن درک نمیکند؟ او گفت: «آنها کارهایی انجام میدهند که بسیار شبیه به فکر کردن است. شما میتوانید بگویید آنها در حال فکر کردن هستند، فقط به روشی تا حدودی بیگانه.»
به نظر میرسد که مدلهای زبان بزرگ (LLMs) در هسته خود یک ماشین «به عنوان دیدن» دارند. آنها هر کلمه را با یک سری اعداد نشان میدهند که مختصات آن – بردار آن – را در یک فضای با ابعاد بالا مشخص میکنند. در GPT-4، یک بردار کلمه دارای هزاران بعد است که سایههای شباهت و تفاوت آن را با هر کلمه دیگر توصیف میکند. در طول آموزش، یک مدل زبان بزرگ مختصات یک کلمه را هر زمان که یک خطای پیشبینی انجام میدهد، تنظیم میکند؛ کلماتی که در متون با هم ظاهر میشوند، در فضا به هم نزدیکتر میشوند. این یک نمایش فوقالعاده متراکم از کاربردها و معانی تولید میکند، که در آن قیاس به یک مسئله هندسی تبدیل میشود. در یک مثال کلاسیک، اگر بردار کلمه «پاریس» را بگیرید، «فرانسه» را از آن کم کنید و سپس «ایتالیا» را اضافه کنید، نزدیکترین بردار دیگر «رم» خواهد بود. مدلهای زبان بزرگ میتوانند یک تصویر را با کدگذاری محتوای آن، حال و هوای آن، حتی حالات چهره افراد، با جزئیات کافی برای بازسازی آن به سبکی خاص یا نوشتن یک پاراگراف در مورد آن «برداریسازی» (vectorize) کنند. وقتی مکس از ChatGPT خواست تا در مورد آبپاش پارک به او کمک کند، مدل فقط متن تولید نمیکرد. عکس لولهکشی همراه با درخواست مکس، در یک بردار فشرده شد که مهمترین ویژگیهای آن را ثبت کرد. آن بردار به عنوان آدرسی برای فراخوانی کلمات و مفاهیم نزدیک عمل کرد. آن ایدهها نیز به نوبه خود، ایدههای دیگری را فراخواندند که مدل حس موقعیت را ایجاد میکرد. پاسخ خود را با این ایدهها «در ذهن» ساخت.
چند ماه پیش، مصاحبهای را با ترنتون بریکن، محقق انتروپیک، میخواندم که با همکارانش برای کاوش درونی مدلهای هوش مصنوعی کلود (Claude) کار کرده است. (تحقیقات آنها هنوز داوری همتا نشده و در یک مجله علمی منتشر نشده است.) تیم او مجموعههایی از نورونهای مصنوعی یا «ویژگیها» را شناسایی کرده است که وقتی کلود قرار است چیزی بگوید، فعال میشوند. ویژگیها مانند پیچهای تنظیم صدا برای مفاهیم هستند؛ آنها را بالا ببرید و مدل درباره چیز دیگری صحبت نخواهد کرد. (در نوعی آزمایش کنترل فکر، ویژگی نمایانگر پل گلدن گیت بالا برده شد؛ وقتی یک کاربر از کلود دستور پخت کیک شکلاتی خواست، مواد پیشنهادی آن شامل «۱/۴ فنجان مه خشک» و «۱ فنجان آب گرم دریا» بود.) در مصاحبه، بریکن به معماری ترانسفورمر (Transformer) گوگل اشاره کرد، یک دستورالعمل برای ساخت شبکههای عصبی که زیربنای مدلهای پیشرو هوش مصنوعی است. («T» در ChatGPT به معنای «Transformer» است.) او استدلال کرد که ریاضیات در قلب معماری ترانسفورمر به شدت به مدلی که دههها قبل – توسط پنتی کانروا، در «حافظه پراکنده خلوت» (Sparse Distributed Memory) – پیشنهاد شده بود، نزدیک است.
آیا باید از این تطابق بین هوش مصنوعی و مغز خودمان شگفتزده شویم؟ به هر حال، مدلهای زبان بزرگ (LLMs) شبکههای عصبی مصنوعی هستند که روانشناسان و دانشمندان علوم اعصاب در توسعه آنها کمک کردهاند. آنچه شگفتآورتر است، این است که وقتی مدلها چیزی را به صورت تکراری تمرین میکردند – پیشبینی کلمات – شروع به رفتار مغز-مانند کردند. این روزها، حوزههای علوم اعصاب و هوش مصنوعی در حال درهمتنیدگی هستند؛ کارشناسان مغز از هوش مصنوعی به عنوان نوعی ارگانیسم مدل استفاده میکنند. اِولینا فدورنکو، دانشمند علوم اعصاب در امآیتی، از مدلهای زبان بزرگ برای مطالعه نحوه پردازش زبان توسط مغز استفاده کرده است. او به من گفت: «هرگز فکر نمیکردم بتوانم در طول زندگیام به این نوع مسائل فکر کنم. هرگز فکر نمیکردم مدلهای به اندازه کافی خوبی داشته باشیم.»
اینکه بگوییم هوش مصنوعی یک جعبه سیاه است، به امری متداول تبدیل شده، اما عکس آن نیز قابل بحث است: یک دانشمند میتواند فعالیت نورونهای مصنوعی منفرد را بررسی کند و حتی آنها را تغییر دهد. کنت نورمن، یک دانشمند علوم اعصاب پرینستون، به من گفت: «داشتن یک سیستم عملی که نظریهای از هوش انسانی را تجسم میبخشد – رویای علوم اعصاب شناختی است.» نورمن مدلهای کامپیوتری از هیپوکامپ (hippocampus) را ایجاد کرده است، ناحیهای از مغز که خاطرات اپیزودیک در آن ذخیره میشوند، اما در گذشته آنها آنقدر ساده بودند که او فقط میتوانست تقریبهای خام از آنچه ممکن است وارد ذهن انسان شود را به آنها تغذیه کند. او گفت: «حالا میتوانید مدلهای حافظه را با همان محرکهایی که به یک فرد میدهید، تغذیه کنید.»
برادران رایت در تلاشهای اولیه خود برای ساخت هواپیما، پرندگان را مطالعه کردند. آنها متوجه شدند که پرندگان برخلاف جهت باد اوج میگیرند، حتی اگر یک فرد منطقی ممکن بود تصور کند که آنها باد را پشت سر خود میخواهند، و برای حفظ تعادل نوک بالهای خود را خم میکنند. این یافتهها بر طرحهای گلایدر ابتدایی آنها تأثیر گذاشت. سپس آنها یک تونل باد به طول شش فوت ساختند که به آنها اجازه داد مجموعهای از بالهای مصنوعی را تحت شرایط دقیق کنترل شده آزمایش کنند. دور بعدی پروازهای گلایدر آنها بسیار موفقتر بود. به طرز عجیبی، تنها مدتها پس از ساخت یک ماشین پرنده عملی، امکان درک دقیق چگونگی انجام این کار توسط پرندگان فراهم شد.
هوش مصنوعی به دانشمندان امکان میدهد تا خود تفکر را در یک تونل باد قرار دهند. برای مقالهای با عنوان تحریکآمیز «درباره زیستشناسی یک مدل زبان بزرگ» (On the Biology of a Large Language Model)، محققان انتروپیک (Anthropic) پاسخ کلود (Claude) به پرسوجوها را مشاهده کردند و «مدارها» (circuits) – آبشارهایی از ویژگیها که با هم محاسبات پیچیده انجام میدهند – را توصیف کردند. (فراخوانی خاطرات صحیح یک گام به سوی تفکر است؛ ترکیب و دستکاری آنها در مدارها مسلماً گامی دیگر است.) یکی از انتقادهای دیرینه به مدلهای زبان بزرگ (LLMs) این بوده است که چون آنها باید هر توکن (token) از پاسخ خود را یکی یکی تولید کنند، نمیتوانند برنامهریزی یا استدلال کنند. اما، وقتی از کلود میخواهید یک دوبیتی قافیهدار در یک شعر را کامل کند، یک مدار شروع به بررسی کلمه آخر سطر جدید میکند تا از قافیه بودن آن اطمینان حاصل کند. سپس به عقب برمیگردد تا کل سطر را بسازد. محققان انتروپیک این را به عنوان شواهدی دال بر اینکه مدلهایشان در برنامهریزی مشارکت میکنند، در نظر گرفتند. کمی چشمهایتان را تنگ کنید و ممکن است برای اولین بار احساس کنید که سازوکارهای درونی یک ذهن در حال مشاهده است.
البته، واقعاً باید چشمهایتان را تنگ کنید. نورمن، دانشمند علوم اعصاب پرینستون، به من گفت: «نگرانی من این است که مردم از حالت "من واقعاً به این شک دارم" به طور کامل به "کاملاً باور دارم" تغییر حالت دادهاند.» وی افزود: «بسیاری از مسائل هنوز باید حل شوند.» من یکی از افرادی هستم که نورمن در مورد آنها صحبت میکند. (شاید من به سادگی تحت تأثیر همگرایی ظاهری «حافظه توزیعشده پراکنده» و یک مدل انتروپیک قرار گرفتهام.) در یک یا دو سال گذشته، شروع کردم به باور آنچه جفری هینتون، که اخیراً برای تحقیقاتش در زمینه هوش مصنوعی برنده جایزه نوبل شده، در سال ۲۰۲۰ به خبرنگار کارن هائو گفت: «یادگیری عمیق (Deep learning) قادر به انجام همه کارها خواهد بود.» اما ما همچنین دیدهایم که مدلهای بزرگتر همیشه مدلهای بهتری نیستند. منحنیهای ترسیم عملکرد مدل در برابر اندازه شروع به صاف شدن کردهاند. یافتن دادههای با کیفیت بالا که مدلها قبلاً هضم نکرده باشند، دشوارتر شده است و قدرت محاسباتی به طور فزایندهای گران است. وقتی GPT-5 در ماه اوت منتشر شد، تنها یک بهبود تدریجی بود – و آنقدر ناامیدکننده که حباب سرمایهگذاری در هوش مصنوعی را تهدید میکرد. این لحظه نیازمند نوعی شک و تردید میانی است: شک و تردیدی که مدلهای هوش مصنوعی امروزی را جدی میگیرد بدون اینکه باور داشته باشد هیچ مشکل سختی باقی نمانده است.
شاید مهمترین این مشکلات این باشد که چگونه مدلی طراحی کنیم که به اندازه انسانها کارآمد یاد بگیرد. تخمین زده میشود که GPT-4 در طول آموزش در معرض تریلیونها کلمه قرار گرفته است؛ در حالی که کودکان تنها به چند میلیون کلمه نیاز دارند تا روان شوند. دانشمندان علوم شناختی به ما میگوینند که مغز نوزاد دارای «سوگیریهای استقرایی» خاصی است که یادگیری را تسریع میکند. (البته، مغز نتیجه میلیونها سال تکامل است – خود نوعی داده آموزشی.) به عنوان مثال، نوزادان انسان انتظار دارند که دنیا از اشیاء تشکیل شده باشد، و اینکه موجودات دیگر دارای باورها و مقاصد هستند. وقتی مادر میگوید «موز»، نوزاد آن کلمه را به کل شی زرد رنگی که او نگاه میکند متصل میکند – نه فقط به نوک یا پوست آن. نوزادان آزمایشهای کوچکی انجام میدهند: آیا میتوانم این را بخورم؟ این را تا کجا میتوانم پرتاب کنم؟ آنها توسط احساساتی مانند میل، کنجکاوی و ناامیدی انگیزه میگیرند. کودکان همیشه در تلاشند کاری را انجام دهند که فراتر از تواناییشان است. یادگیری آنها کارآمد است زیرا تجسمیافته، انطباقی، عمدی و پیوسته است. شاید درک واقعی جهان نیازمند مشارکت در آن باشد.
تجربه یک هوش مصنوعی، در مقایسه، آنقدر فقیر است که واقعاً نمیتوان آن را «تجربه» نامید. مدلهای زبان بزرگ (LLMs) بر روی دادههایی آموزش دیدهاند که از قبل به شدت پالایش شدهاند. تسائو، دانشمند علوم اعصاب دانشگاه کالیفرنیا، برکلی، به من گفت: «فکر میکنم دلیل کارایی آنها این است که بر زبان سوار شدهاند.» زبان مانند تجربهای است که از پیش هضم شده؛ انواع دیگر دادهها تراکم معنایی کمتری دارند. گرشمن، دانشمند علوم شناختی هاروارد، پرسید: «چرا ما انقلابی مشابه در زمینه استدلال درباره دادههای ویدیویی نداشتهایم؟» «انواع مدلهای بینایی که ما داریم هنوز با استدلالهای عقل سلیم درباره فیزیک مشکل دارند.» یک مدل اخیر از DeepMind میتواند ویدئوهایی تولید کند که در آنها رنگها به درستی ترکیب میشوند و مازها حل میشوند – اما آنها همچنین یک لیوان را نشان میدهند که به جای شکستن، پرش میکند و طنابهایی را نشان میدهند که با فشردن به گره تبدیل میشوند و فیزیک را نقض میکنند. آیدا مومننژاد، دانشمند علوم اعصاب شناختی که اکنون برای Microsoft Research کار میکند، آزمایشاتی انجام داده است که در آنها به یک مدل زبان بزرگ، یک گشت و گذار مجازی در یک ساختمان داده میشود و سپس سوالاتی درباره مسیرها و میانبرها – استنباطهای فضایی که برای انسانها به راحتی قابل انجام است – پرسیده میشود. در تمام تنظیمات به جز اساسیترین آنها، هوش مصنوعیها تمایل به شکست یا توهمسازی مسیرهای ناموجود دارند. او گفت: «آیا آنها واقعاً برنامهریزی میکنند؟» «نه واقعاً.»
در گفتگوهایم با دانشمندان علوم اعصاب، احساس نگرانی داشتم که صنعت هوش مصنوعی تا حدی بیفکرانه در حال پیشروی است. برندن ام. لیک، دانشمند علوم شناختی در پرینستون، به من گفت: اگر هدف ساخت ذهنهای مصنوعی به اندازه ذهنهای انسانی توانمند است، پس «ما سیستمها را به روش صحیح آموزش نمیدهیم.» وقتی آموزش یک هوش مصنوعی به پایان میرسد، «مغز» شبکه عصبی منجمد میشود. اگر حقایقی درباره خودتان به مدل بگویید، نورونهای آن سیمکشی مجدد نمیشوند. در عوض، از یک جایگزین خام استفاده میکند: کمی متن مینویسد – «کاربر یک کودک نوپا دارد و در حال مطالعه فرانسوی است» – و قبل از سایر دستورالعملهایی که میدهید، آن را در نظر میگیرد. مغز انسان به طور پیوسته خود را بهروز میکند و نظریه زیبایی در مورد یکی از راههای انجام این کار وجود دارد: وقتی میخوابید، عکسهای منتخب از حافظه اپیزودیک شما برای نئوکورتکس شما بازپخش میشوند تا آن را آموزش دهند. فضای فکری با ابعاد بالای شما با خاطرات بازپخش شده گود افتاده میشود؛ شما با روش جدیدی از دیدن از خواب بیدار میشوید.
جامعه هوش مصنوعی آنچنان به پیشرفتهای شتابان وابسته و از نظر مالی درگیر شده است که گاهی وانمود میکند پیشرفت اجتنابناپذیر است و دیگر علمی برای انجام دادن باقی نمانده است. علم خاصیت ناخوشایند گاهی متوقف شدن را دارد. سیلیکون ولی ممکن است شرکتهای هوش مصنوعی را «آزمایشگاه» و برخی از کارکنان آن را «محقق» بنامد، اما اساساً دارای فرهنگ مهندسی است که هر کاری را که کارآمد باشد انجام میدهد. کوهن گفت: «واقعاً قابل توجه است که جامعه یادگیری ماشین چقدر کم به تاریخ و علوم شناختی پیش از خود توجه میکند، چه رسد به اینکه به آن احترام بگذارد.»
مدلهای هوش مصنوعی امروزی موفقیت خود را مدیون اکتشافات چند ده ساله درباره مغز هستند، اما هنوز هم عمیقاً با مغزها تفاوت دارند. کدام تفاوتها تصادفی و کدام اساسی هستند؟ هر گروه از دانشمندان علوم اعصاب نظریه مورد علاقه خود را دارد. این نظریهها را میتوان به روشی که قبلاً ممکن نبود، مورد آزمایش قرار داد. با این حال، هیچ کس انتظار پاسخهای آسان را ندارد. نورمن گفت: مشکلاتی که مدلهای هوش مصنوعی را همچنان گرفتار میکنند، «با شناسایی دقیق روشهایی که مدلها به اندازه دلخواه ما هوشمندانه رفتار نمیکنند و سپس رفع آنها، حل میشوند.» «این هنوز یک فرآیند با حضور دانشمند انسانی در حلقه است.»
در دهه نود، میلیاردها دلار به پروژه ژنوم انسانی سرازیر شد با این فرض که توالییابی DNA ممکن است پیچیدهترین مشکلات پزشکی را حل کند: سرطان، بیماریهای ارثی، حتی پیری. آن زمان، زمان پرگویی و اعتماد به نفس بود – دوران دالی (Dolly) گوسفند شبیهسازی شده و «پارک ژوراسیک» – زمانی که بیوتکنولوژی رو به رشد بود و مفسران با این موضوع دست و پنجه نرم میکردند که آیا انسانها باید نقش خدا را بازی کنند. زیستشناسان به زودی دریافتند که واقعیت پیچیدهتر است. ما سرطان را درمان نکردیم یا علل آلزایمر یا اوتیسم را کشف نکردیم. ما آموختیم که DNA تنها بخشی از داستان زندگی را روایت میکند. در واقع، میتوان استدلال کرد که زیستشناسی در نوعی تب ژنی غرق شد، با تمرکز بر DNA به دلیل ابزارهایی که برای مطالعه و درک آن داشتیم.
با این حال، هیچکس ادعا نمیکند که فرانسیس کریک در روزی در سال ۱۹۵۳ که به تایید ساختار DNA کمک کرد، اشتباه میکرد، وقتی وارد یک میخانه در کمبریج شد و از کشف راز زندگی صحبت میکرد. او و همکارانش بیشتر از تقریباً هر کس دیگری به رمزگشایی زندگی کمک کردند. دهههای پس از کشف آنها از پربارترین و هیجانانگیزترین دوران تاریخ علم بود. DNA به یک اصطلاح خانگی تبدیل شد؛ هر دانشآموز دبیرستانی در مورد مارپیچ دوگانه یاد میگیرد.
با هوش مصنوعی، بار دیگر خود را در لحظهای پر از هیاهو و اعتماد به نفس مییابیم. سم آلتمن از جمعآوری نیم تریلیون دلار برای ساخت استارگیت (Stargate)، یک مجموعه جدید از مراکز داده هوش مصنوعی در ایالات متحده، صحبت میکند. مردم با جدیت و فوریت درباره رقابت برای ابرهوش صحبت میکنند که میتواند غیرمنطقی و حتی احمقانه به نظر برسد. اما من گمان میکنم دلیلی که آمودیها و آلتمنهای جهان اظهارات مسیحایی میکنند این است که آنها باور دارند تصویر اساسی هوش حل شده است؛ بقیه فقط جزئیات هستند.
حتی برخی از دانشمندان علوم اعصاب نیز معتقدند که یک آستانه مهم عبور شده است. یوری هاسون، همکار کوهن، نورمن و لیک در پرینستون، در مورد شبکههای عصبی گفت: «من واقعاً فکر میکنم این میتواند مدل مناسبی برای شناخت باشد.» این موضوع هم به همان اندازه که او را هیجانزده میکند، ناراحت نیز میکند. او گفت: «من نگرانی برعکس بیشتر مردم را دارم. نگرانی من این نیست که این مدلها شبیه ما هستند. نگرانی من این است که ما شبیه این مدلها هستیم.» اگر تکنیکهای آموزش ساده بتوانند برنامهای را قادر به رفتار مانند انسان کنند، شاید انسانها آنقدر که فکر میکردیم خاص نیستند. آیا این میتواند به این معنی باشد که هوش مصنوعی نه تنها در دانش، بلکه در قضاوت، نبوغ، زیرکی – و در نتیجه، قدرت – از ما پیشی خواهد گرفت؟ با کمال تعجب، هاسون به من گفت که این روزها «نگران است که ممکن است در درک نحوه عملکرد مغز موفق شویم. پیگیری این سوال ممکن است اشتباهی بزرگ برای بشریت بوده باشد.» او محققان هوش مصنوعی را به دانشمندان هستهای در دهه ۱۹۳۰ تشبیه کرد: «این هیجانانگیزترین زمان در زندگی این افراد است. و در عین حال، آنها میدانند که آنچه روی آن کار میکنند، پیامدهای جدی برای بشریت دارد. اما آنها نمیتوانند به دلیل کنجکاوی برای یادگیری متوقف شوند.»
یکی از کتابهای مورد علاقه من از هافستاتر، یک جلد پر از جزئیات علمی به نام «مفاهیم سیال و قیاسهای خلاقانه: مدلهای کامپیوتری مکانیزمهای بنیادی تفکر» (Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought) است. وقتی در دانشگاه بودم، این کتاب مرا به وجد آورد. فرض این بود که سؤالی مانند «تفکر چیست؟» صرفاً فلسفی نیست، بلکه پاسخ واقعی دارد. در سال ۱۹۹۵، وقتی کتاب منتشر شد، هافستاتر و گروه تحقیقاتی او تنها میتوانستند به پاسخی اشاره کنند. با یادآوری آن کتاب، فکر کردم که آیا هافستاتر از اینکه محققان هوش مصنوعی به آنچه او آرزویش را داشت رسیدهاند – یعنی تبیین مکانیکی اصول تفکر – هیجانزده خواهد شد؟ اما وقتی صحبت کردیم، او عمیقاً ناامید و ترسان به نظر میرسید. او به من گفت: «تحقیقات فعلی هوش مصنوعی بسیاری از ایدههای من را تأیید میکند، اما همچنین از زیبایی آنچه بشریت است میکاهد.» او افزود: «وقتی جوانتر بودم، خیلی جوانتر، میخواستم بدانم زیربنای خلاقیت چیست، مکانیزمهای خلاقیت. این برای من یک جام مقدس بود. اما حالا میخواهم که یک راز باقی بماند.» شاید رازهای تفکر سادهتر از آن چیزی است که هر کسی انتظار داشته – از نوع چیزهایی که یک دانشآموز دبیرستانی، یا حتی یک ماشین، میتواند درک کند.