تصویرگری: تیمو لنتسن
تصویرگری: تیمو لنتسن

چگونه هوش مصنوعی در ساخت نسخه‌های بهتر از خود پیشرفت کرد؟

خودبهبودی بازگشتی برای این فناوری چه معنایی دارد؟

هنگامی که ANTHROPIC، یک آزمایشگاه هوش مصنوعی، در اواخر سال جاری برای اولین بار در بازارهای سهام عرضه شود، احتمالاً یکی از بزرگترین عرضه‌های اولیه عمومی در تاریخ خواهد بود. این به دلیل محبوبیت زیاد کلود (Claude)، چت‌بات این شرکت، در بین برنامه‌نویسان است که حاضرند هزینه زیادی برای دسترسی به آن بپردازند. از زمان راه‌اندازی Claude Code، عامل مهندسی نرم‌افزار آن، در فوریه ۲۰۲۵، این سیستم برای توسعه‌دهندگان در سراسر جهان ضروری شده است. این شامل توسعه‌دهندگان خود آنتروپیک نیز می‌شود: این شرکت می‌گوید بیش از چهار پنجم کدهایی که در ماه مه منتشر کرده، توسط کلود نوشته شده‌اند. پیش از Claude Code، این درصد "تک رقمی پایین" بود.

سیستم‌ها هم از نظر کمیت و هم از نظر کیفیت خروجی بهبود یافته‌اند. یک معیار تأثیرگذار از METR، یک اتاق فکر، نشان می‌دهد که در اوایل سال ۲۰۲۵، مدل‌های آنتروپیک می‌توانستند وظایفی را تکمیل کنند که مهندسان انسانی کمی کمتر از یک ساعت برای انجام آن‌ها زمان صرف می‌کردند. اما جدیدترین سیستم‌های این شرکت می‌توانند وظایفی را به انجام برسانند که بیش از یک روز کاری به طول می‌انجامید.

بنابراین، ممکن است وقتی این شرکت، که در اوج عملکرد خود قرار دارد و از رقبای خود پیشی گرفته، در تاریخ ۵ ژوئن خواستار این می‌شود که جهان "گزینه کاهش سرعت یا توقف موقت توسعه هوش مصنوعی پیشرفته" را داشته باشد، ابروی بدبینی بالا برد. کدام رهبر بازار است که آرزو نکند رقابتش دست از تلاش برای رسیدن به او بردارد؟

من، ربات

با این حال، رهبران آنتروپیک، که سال‌هاست نگران چشم‌انداز فاجعه ناشی از هوش مصنوعی خارج از کنترل هستند، به نظر صادق می‌آیند. آخرین نسل مدل‌های هوش مصنوعی آنقدر برنامه‌نویس، مهندس و (به زودی) دانشمند ماهری هستند که بسیاری نگرانند ممکن است آن‌ها آخرین مدل‌هایی باشند که توسط انسان ساخته می‌شوند. جک کلارک، یکی از بنیان‌گذاران آنتروپیک، معتقد است که ۶۰٪ احتمال دارد تا پایان سال ۲۰۲۸، یک سیستم هوش مصنوعی بتواند جانشین خود را بدون هیچ دخالت انسانی ایجاد کند.

آن لحظه آغاز فرآیندی به نام "خودبهبودی بازگشتی" (RSI) خواهد بود، یک حلقه بسته. نسخه اول یک مدل، نسخه دوم را تولید می‌کند که سریع‌تر و توانمندتر است؛ نسخه دوم، نسخه سوم را تولید می‌کند که باز هم توانمندتر است. این حلقه ادامه می‌یابد و پیشرفت‌ها با هر تکرار افزایش می‌یابند. یک سیستم هوش مصنوعی بسازید که قادر به این کار باشد، و مهندسان انسانی شما دیگر هرگز نیازی به ساختن سیستم دیگری نخواهند داشت. آقای کلارک می‌گوید: «آنچه برای بسیاری ممکن است داستانی خیالی به نظر برسد، در عوض ممکن است یک روند واقعی باشد.»

هیچ‌کس از عواقب خودبهبودی بازگشتی مطمئن نیست. از آنجایی که هوش مصنوعی، برخلاف انسان، می‌تواند بی‌وقفه و پیوسته کار کند، برخی فکر می‌کنند که در مدت کوتاهی منجر به هوش فراانسانی (superintelligent AI) خواهد شد — "شتاب سریع" (fast take-off). (این پدیده به صورت آواسازی "going foom" نیز نامیده شده است، برای صدایی که ممکن است تصور شود یک انفجار هوش ایجاد می‌کند). بدبینان هوش مصنوعی نگرانند که هوش فراانسانی فراتر از کنترل انسان باشد، و آغاز RSI لحظه‌ای است که سرنوشت بشریت به دست ماشین‌ها سپرده می‌شود. با این حال، یک هوش مصنوعی خودبهبوددهنده احتمالاً با محدودیت‌های سرعتی، حداقل در ابتدا، مواجه خواهد شد.

ساخت مدلی که قادر به RSI باشد، مستلزم خودکارسازی طیفی از وظایف تخصصی است که در حال حاضر توسط انسان‌ها انجام می‌شوند. در حال حاضر، دانشمندان داده روی نظریه هوش مصنوعی کار می‌کنند و برنامه‌نویسان آن را به مرحله عمل در می‌آورند. مهندسان سیستم زیربناهایی را می‌سازند که مدل‌های اولیه را می‌توان به مقیاس تولید رساند. افراد دیگر به دنبال منابع جدید داده‌های آموزشی یا آزمایش روش‌هایی برای تولید داده‌های تازه هستند. تیم‌های هم‌راستاسازی و ایمنی بررسی می‌کنند که آنچه از فرآیند آموزش حاصل می‌شود، آسیبی، عمدی یا غیرعمدی، ایجاد نکند.

لذت تکرار

همه این تیم‌ها به یک اندازه تحت تأثیر کمک هوش مصنوعی قرار نمی‌گیرند، و در هر تخصص، برخی وظایف بیش از دیگران قابل خودکارسازی هستند. زمان زیادی نخواهد گذشت تا یک برنامه‌نویس انسانی بتواند بدون نوشتن حتی یک خط کد کامپیوتری، کار خود را انجام دهد، اما ممکن است مدتی طول بکشد تا هوش مصنوعی بتواند برای دستیابی به مجموعه‌ای از مقالات علمی که قبلاً دیجیتالی نشده‌اند، مذاکره کند.

همیشه مشخص نیست که "مرز ناهموار" چگونه پیش خواهد رفت. طراحی الگوریتم‌های جدید یکی از امن‌ترین مشاغل به نظر می‌رسید، تا اینکه یکی از مدل‌های Google DeepMind، یعنی AlphaEvolve، در ماه مه ۲۰۲۵ شروع به انجام آن کرد. این مدل تغییری در نحوه توزیع بار کاری در مراکز داده گوگل پیشنهاد داد که ۰.۷٪ از قدرت محاسباتی جهانی شرکت را صرفه‌جویی کرد و راه‌های بهتری برای انجام ضرب ماتریسی یافت که آموزش Gemini، مدل زبان بزرگ (LLM) شاخص این شرکت، را ۱٪ سرعت بخشید.

خودبهبودی بازگشتی کامل (RSI) مستلزم خودکار شدن هر وظیفه در این زنجیره است. با این حال، تسریع تحقیق و توسعه (R&D) با کمک هوش مصنوعی ممکن است قبل از آن احساس شود. طبق گزارشی که در ژانویه توسط مرکز امنیت و فناوری‌های نوظهور (CSET)، یک اتاق فکر در دانشگاه جورج‌تاون، منتشر شد، "با افزایش سهم تحقیق و توسعه هوش مصنوعی که توسط سیستم‌های هوش مصنوعی انجام می‌شود، افزایش بهره‌وری نسبت به تحقیق و توسعه تنها با کمک انسان" می‌تواند ده برابر، سپس صد برابر، سپس هزار برابر شود. در آن سناریو، این گزارش هشدار می‌دهد که حتی اگر برخی جنبه‌های تحقیق و توسعه هوش مصنوعی در ابتدا دشوار باشد، "نرخ شتابان پیشرفت به این معناست که این گلوگاه‌ها به زودی برطرف می‌شوند."

امروزه هیچ مدل هوش مصنوعی نمی‌تواند جانشین خود را بسازد. اما مدل‌های بزرگ هوش مصنوعی می‌توانند مدل‌های کوچک‌تر را به تنهایی بسازند. با کمک انسان نیز می‌توانند مدل‌های بزرگ هوش مصنوعی دیگر را بسازند. اوایل امسال آندری کارپاتی (Andrej Karpathy)، پژوهشگر مستقل وقت که اکنون برای آنتروپیک کار می‌کند، یک چت‌بات تقریباً به توانمندی GPT-2، یک مدل زبان بزرگ ساخته شده توسط OpenAI در سال ۲۰۱۹، آموزش داد. در آن زمان، ساخت این مدل ۱۶۸ ساعت آموزش روی ۳۲ تراشه پیشرفته نیاز داشت؛ دکتر کارپاتی همان نتیجه را با استفاده از یک کامپیوتر مجهز به هشت GPU (واحدهای پردازش گرافیکی)، تراشه‌های تخصصی مورد استفاده برای ساخت هوش مصنوعی، تنها در سه ساعت به دست آورد. با چند ماه کار بیشتر، زمان آموزش مدل خود، Nanochat، را به کمی بیش از دو ساعت کاهش داد.

در ماه مارس، او کار سرعت بخشیدن به فرآیند آموزش را به یک عامل هوش مصنوعی به نام Autoresearch واگذار کرد. در دو روز، زمان آموزش به یک ساعت و ۴۸ دقیقه کاهش یافت، و پنج روز پس از آن به یک ساعت و ۳۹ دقیقه رسید. دکتر کارپاتی می‌گوید: "من هیچ چیز را دست نزدم." بهبود ۱۸ درصدی نسبت به کار انسانی قابل توجه است، زیرا دکتر کارپاتی یک انسان به شدت با استعداد است: او از اعضای مؤسس تیم تحقیقاتی در OpenAI و رئیس بخش هوش مصنوعی در تسلا برای پنج سال بود.

خود این بهبودها کاملاً عادی بودند. عامل هوش مصنوعی مقادیر اولیه بهتری را برای اجرای آموزش انتخاب کرد، دامنه پنجره "توجه" مدل زبان بزرگ را گسترش داد و متوجه شد که تمرکز مدل در حال انحراف است. دکتر کارپاتی می‌گوید هیچ‌یک از اینها به خصوص بدیع نیستند. اما او آنها را از دست داده بود. او می‌گوید: "آنها روی هم انباشته شدند و در واقع نانوچت را بهبود بخشیدند."

این نوع افزایش سرعت با توانمندتر شدن مدل‌ها اجتناب‌ناپذیر است. بسیاری از کارهای مربوط به ساخت مدل‌های پیشرفته با حجم ترابایت، کمتر از آنچه حقوق‌های عظیم و دفاتر لوکس صنعت هوش مصنوعی نشان می‌دهد، جذاب هستند. این کار شامل اتصال لایه‌های پشته زیرساخت خریداری شده از اشخاص ثالث، اشکال‌زدایی تنظیمات سخت‌افزاری و نرم‌افزاری و تنظیم "فراپارامترها" (hyperparameters)، یعنی تنظیمات اولیه اجرای آموزش، تا زمانی که نتیجه مطلوب به نظر رسد، می‌شود. یک سیستم هوش مصنوعی می‌تواند بخش زیادی از این کارها را امروزه با نظارت کم انجام دهد.

جو اسپیساک (Joe Spisak)، پژوهشگر در Reflection AI، یک آزمایشگاه مستقر در نیویورک که مدل‌های پیشرفته با وزن باز (open-weight) می‌سازد (به این معنی که پارامترهای آنها به صورت عمومی منتشر می‌شود)، می‌گوید حتی کارهای فکری پیچیده‌تر نیز در حال خودکارسازی هستند. به یک سیستم پیشرفته یک طرح کلی از ایده‌ای برای افزایش بهره‌وری بدهید، و این سیستم به طور فزاینده‌ای قادر به طراحی یک آزمایش، اجرای تست‌ها روی یک مدل اولیه، مشاهده عملکردها و پاسخ با یک طرح آماده برای پیاده‌سازی در مقیاس بزرگ است.

مدل‌های هوش مصنوعی می‌توانند این نوع وظایف را که برای انسان‌ها ساعت‌ها طول می‌کشد، در حدود ۳۰ دقیقه انجام دهند. به طور فزاینده‌ای، انسان‌ها تنها نقش مدیر پژوهش را ایفا می‌کنند و هوش مصنوعی را برای اجرای آزمایش‌ها هدایت می‌کنند، آزمایش‌هایی که مدل‌ها خودشان برنامه‌نویسی، اشکال‌زدایی، بهینه‌سازی و نظارت می‌کنند. افزایش بهره‌وری جذاب است، اما نگران‌کننده نیز هست. با کاهش نقش انسان‌ها در فرآیند تولید، آنها ممکن است کنترل خود را از دست بدهند. نتیجه نهایی می‌تواند مدل‌هایی باشد که توسط مدل‌ها آموزش دیده‌اند، برای دستیابی به اهدافی که توسط مدل‌ها تعیین شده‌اند، و ایمنی آنها فقط توسط مدل‌ها تأیید می‌شود.

برخی از یک فاجعه می‌ترسند. مکس تگمارک (Max Tegmark)، فیزیکدان و پژوهشگر یادگیری ماشین در مؤسسه فناوری ماساچوست که بخش زیادی از دهه گذشته را به فعالیت برای ایمنی هوش مصنوعی اختصاص داده است، این وضعیت را به راننده‌ای تشبیه می‌کند که با چشم‌های بسته پدال گاز را در بزرگراه فشار می‌دهد. او به برنامه ویدیویی "Inside Tech" نشریه اکونومیست گفت که نتیجه آن نابودی حتمی خواهد بود، تا زمانی که راننده از باز کردن چشم‌های خود امتناع ورزد. پروفسور تگمارک می‌گوید سیستم‌های هوش مصنوعی قدرتمند می‌توانند در نقش تصمیم‌گیرنده در دولت و تجارت از انسان‌ها پیشی بگیرند و بشریت را ناتوان کنند؛ آنها می‌توانند قدرت بی‌نهایتی را به اولین کسی که آنها را می‌سازد ارائه دهند و تمامیت‌خواهی جهانی را به ارمغان آورند؛ یا ممکن است به سادگی دیگر به بشریت اهمیت ندهند و به تدریج انسان‌ها را کنار بگذارند تا فضایی برای مراکز داده و تولید برق بیشتر ایجاد کنند.

سه سال پیش، پروفسور تگمارک خواستار توقف در توسعه جهانی هوش مصنوعی شد و استدلال کرد که ساخت GPT-4، که در آن زمان پیشرفته‌ترین بود، به منزله همان سفر با چشمان بسته است. گزارش امسال CSET هشدار داد که سیستم‌های ایجاد شده توسط RSI "خطرات شدیدی را به همراه دارند. این امر مستلزم اقدامات آمادگی از هم اکنون است." آنتروپیک، به نظر می‌رسد، به این ایده نزدیک است.

تراشه داغ

همچنین چندین محدودیت فیزیکی وجود دارد که در حال حاضر، سرعت بهبود مدل‌ها را محدود خواهد کرد. مهم‌ترین آنها دسترسی به قدرت محاسباتی (compute) است. با وجود افزایش کارایی، مدل‌های جدید همچنان برای آموزش به قدرت محاسباتی بیشتری نسبت به پیشینیان خود نیاز دارند و پیشرفت را با سرعت توسعه مراکز داده پیش می‌برند.

هلن تونر (Helen Toner)، مدیر اجرایی موقت CSET و یکی از نویسندگان اصلی گزارش اخیر آن، می‌گوید استفاده مصرف‌کنندگان از هوش مصنوعی نیز ممکن است تحقیق و توسعه با کمک هوش مصنوعی را کُند کند. ظرفیت محدود در مراکز داده هوش مصنوعی باید با دقت بین خدمات‌رسانی به مشتریان پولی، آموزش مدل‌های آینده و انجام تحقیق و توسعه آزاد تقسیم شود. هر چه تقاضا در دسته اول بیشتر باشد، در کوتاه‌مدت، ظرفیت کمتری برای دو دسته دیگر وجود خواهد داشت.

سپس مسئله داده‌های آموزشی مطرح است. بخش عمده‌ای از پیشرفت‌های اخیر در هوش مصنوعی در زمینه‌هایی بوده است که مدل‌ها می‌توانند به لطف "پاداش‌های قابل تأیید"، خودشان چگونگی موفقیت را بیاموزند. یک قطعه نرم‌افزار یا اجرا می‌شود یا نه؛ یک اثبات ریاضی یا صحیح است یا نه. در چنین مواردی، داده‌های مصنوعی که صرفاً توسط مدل‌ها برای آموزش مدل‌های دیگر تولید می‌شوند، می‌توانند برای دقت بررسی شده و به داده‌های آموزشی اضافه شوند، بدون اینکه خطر انحطاط (degeneracy) که معمولاً با آموزش یک هوش مصنوعی بر اساس خروجی خودش همراه است، وجود داشته باشد. بهبود عملکرد یک مدل در نوشتن خلاقانه یا قضاوت حقوقی دشوارتر است. اگر مدل‌ها نیاز به یادگیری از دنیای واقعی داشته باشند، این نیز می‌تواند دامنه خودبهبودی را محدود کند.

"بستن حلقه" ممکن است گامی در مسیر رسیدن به هوش فراانسانی و – بسته به نگرش شما – آرمان‌شهر یا نابودی باشد. اما این تنها گام مورد نیاز برای تولید رشد نمایی در قابلیت‌های هوش مصنوعی نیست.