تصویرسازی از شیرا اینبار
تصویرسازی از شیرا اینبار

چرا هوش مصنوعی زندگی ما را در سال ۲۰۲۵ متحول نکرد؟

این قرار بود سالی باشد که عامل‌های خودمختار کارهای روزمره را به دست می‌گیرند. صنعت فناوری بیش از حد وعده داد و کمتر عمل کرد.

یک سال پیش، سام آلتمن، مدیرعامل اوپن‌ای‌آی، پیش‌بینی جسورانه‌ای کرد: «ما معتقدیم که در سال ۲۰۲۵، ممکن است شاهد پیوستن اولین عامل‌های هوش مصنوعی به نیروی کار و تغییر چشمگیر در خروجی شرکت‌ها باشیم.» چند هفته بعد، کوین وایل، مدیر ارشد محصول این شرکت، در کنفرانس مجمع جهانی اقتصاد در داووس در ماه ژانویه گفت: «فکر می‌کنم ۲۰۲۵ سالی است که از چت‌جی‌پی‌تی به‌عنوان یک چیز فوق‌العاده هوشمند... به چت‌جی‌پی‌تی‌ای می‌رسیم که در دنیای واقعی کارهایی را برای شما انجام می‌دهد.» او مثال‌هایی از هوش مصنوعی که فرم‌های آنلاین را پر می‌کند و رزرو رستوران انجام می‌دهد، ارائه کرد. او بعداً قول داد: «ما بدون شک قادر به انجام این کار خواهیم بود.» (اوپن‌ای‌آی با کُنده ناست، صاحب نیویورکر، شراکت شرکتی دارد.)

این یک لاف کوچک نبود. چت‌بات‌ها می‌توانند مستقیماً به یک درخواست متنی پاسخ دهند — مثلاً با پاسخ دادن به یک سؤال یا نوشتن پیش‌نویس اولیه یک ایمیل. اما یک عامل، در تئوری، می‌تواند به تنهایی در دنیای دیجیتال حرکت کند و وظایفی را تکمیل کند که نیاز به چندین مرحله و استفاده از نرم‌افزارهای دیگر، مانند مرورگرهای وب، دارند. به تمام کارهایی که برای رزرو هتل انجام می‌شود فکر کنید: تصمیم‌گیری در مورد شب‌های مناسب، فیلتر کردن بر اساس ترجیحات، خواندن نظرات، جستجو در وب‌سایت‌های مختلف برای مقایسه نرخ‌ها و امکانات. یک عامل می‌تواند تمام این فعالیت‌ها را خودکار کند. پیامدهای چنین فناوری عظیمی خواهد بود. چت‌بات‌ها برای کارمندان انسانی راحت هستند؛ اما عامل‌های هوش مصنوعی مؤثر ممکن است به طور کامل جایگزین کارمندان شوند. مارک بنیوف، مدیرعامل Salesforce، که ادعا کرده نیمی از کارهای شرکتش توسط هوش مصنوعی انجام می‌شود، پیش‌بینی کرد که عامل‌ها به آغاز یک «انقلاب کار دیجیتال» کمک خواهند کرد که ارزش آن به تریلیون‌ها دلار می‌رسد.

۲۰۲۵ تا حدی به عنوان سال عامل هوش مصنوعی معرفی شد، زیرا تا پایان سال ۲۰۲۴، این ابزارها در برنامه‌نویسی کامپیوتری به طور غیرقابل انکاری ماهر شده بودند. در یک نمایش از عامل Codex اوپن‌ای‌آی، از ماه مه، یک کاربر از ابزار خواست تا وب‌سایت شخصی خود را تغییر دهد. کاربر نوشت: «یک برگه دیگر کنار "سرمایه‌گذاری/ابزارها" اضافه کن که نامش "غذاهایی که دوست دارم" باشد. در سند بنویس—تاکوها.» چت‌بات به سرعت مجموعه‌ای از اقدامات مرتبط را انجام داد: فایل‌ها را در دایرکتوری وب‌سایت بررسی کرد، محتویات یک فایل امیدبخش را بررسی کرد، سپس از یک فرمان جستجو برای یافتن مکان مناسب برای درج یک خط کد جدید استفاده کرد. پس از اینکه عامل نحوه ساختار سایت را آموخت، از این اطلاعات برای افزودن موفقیت‌آمیز یک صفحه جدید با محوریت تاکوها استفاده کرد. به‌عنوان یک دانشمند کامپیوتر، باید اعتراف کنم که Codex این کار را تقریباً همان‌طور که من انجام می‌دادم، انجام می‌داد. سیلیکون ولی متقاعد شد که سایر کارهای دشوار نیز به زودی تسخیر خواهند شد.

با این حال، با نزدیک شدن به پایان سال ۲۰۲۵، عصر عامل‌های هوش مصنوعی با کاربری عمومی نتوانسته ظهور کند. پاییز امسال، آندری کارپاتی، یکی از بنیانگذاران اوپن‌ای‌آی، که شرکت را ترک کرده و یک پروژه آموزش هوش مصنوعی را آغاز کرده بود، عامل‌ها را «از نظر شناختی ضعیف» توصیف کرد و گفت: «این فقط کار نمی‌کند.» گری مارکوس، منتقد قدیمی هیاهوی صنعت فناوری، اخیراً در ساب‌استک خود نوشت که «عامل‌های هوش مصنوعی تاکنون عمدتاً بی‌اثر بوده‌اند.» این شکاف بین پیش‌بینی و واقعیت اهمیت دارد. چت‌بات‌های روان و مولدهای ویدئوی واقعیت‌ساز چشمگیر هستند، اما آنها به تنهایی نمی‌توانند جهانی را به ارمغان بیاورند که در آن ماشین‌ها بسیاری از فعالیت‌های ما را به عهده می‌گیرند. اگر شرکت‌های بزرگ هوش مصنوعی نتوانند عامل‌های مفید و گسترده‌ای ارائه دهند، ممکن است نتوانند به وعده‌های خود در مورد آینده‌ای مبتنی بر هوش مصنوعی عمل کنند.

اصطلاح «عامل‌های هوش مصنوعی» ایده‌هایی از فناوری جدید فوق‌العاده قوی را تداعی می‌کند که یادآور فیلم‌هایی چون «ماتریکس» یا «مأموریت: غیرممکن – تسویه حساب نهایی» است. در حقیقت، عامل‌ها نوعی مغز دیجیتال سفارشی نیستند؛ بلکه از همان نوع مدل زبانی بزرگ (LLM) که چت‌بات‌ها استفاده می‌کنند، قدرت می‌گیرند. وقتی از یک عامل می‌خواهید کاری را انجام دهد، یک برنامه کنترل – یک برنامه ساده که اقدامات عامل را هماهنگ می‌کند – درخواست شما را به یک اعلان برای LLM تبدیل می‌کند: «این کاری است که می‌خواهم انجام دهم، اینها ابزارهای موجود هستند، چه کاری را باید ابتدا انجام دهم؟» سپس برنامه کنترل هر عملی را که مدل زبان پیشنهاد می‌دهد، امتحان می‌کند، نتیجه را به آن می‌گوید و می‌پرسد: «حالا چه کاری باید انجام دهم؟» این حلقه تا زمانی ادامه می‌یابد که LLM کار را کامل تشخیص دهد.

این تنظیمات به نظر می‌رسد در خودکارسازی توسعه نرم‌افزار بسیار خوب عمل می‌کند. بیشتر اقداماتی که برای ایجاد یا اصلاح یک برنامه کامپیوتری لازم است، می‌توانند با وارد کردن مجموعه‌ای محدود از دستورات در یک ترمینال مبتنی بر متن انجام شوند. این دستورات به کامپیوتر می‌گویند که در یک سیستم فایل حرکت کند، متن را در فایل‌های منبع اضافه یا به‌روزرسانی کند، و در صورت نیاز، کد قابل خواندن توسط انسان را به بیت‌های قابل خواندن توسط ماشین کامپایل کند. این یک محیط ایده‌آل برای LLMها است. الکس شاو، یکی از سازندگان Terminal-Bench، ابزاری محبوب که برای ارزیابی عامل‌های کدنویسی استفاده می‌شود، به من گفت: «رابط ترمینال مبتنی بر متن است و این همان حوزه‌ای است که مدل‌های زبانی بر آن اساس کار می‌کنند.»

دستیارهای تعمیم‌یافته‌تر، از نوعی که آلتمن تصور می‌کرد، نیاز دارند تا عامل‌ها از محدودیت‌های راحت ترمینال خارج شوند. از آنجا که بیشتر ما کارهای کامپیوتری را با اشاره و کلیک کردن انجام می‌دهیم، یک هوش مصنوعی که می‌تواند «به نیروی کار بپیوندد»، احتمالاً باید بداند چگونه از ماوس استفاده کند – هدفی که به طرز شگفت‌انگیزی دشوار است. تایمز اخیراً گزارش داد که مجموعه‌ای از استارت‌آپ‌های جدید «سایت‌های سایه» – نسخه‌های کپی شده از صفحات وب محبوب، مانند صفحات یونایتد ایرلاینز و جیمیل – را ساخته‌اند که در آنها هوش مصنوعی می‌تواند نحوه استفاده انسان از نشانگر ماوس را تجزیه و تحلیل کند. در ماه جولای، اوپن‌ای‌آی چت‌جی‌پی‌تی ایجنت را منتشر کرد، نسخه اولیه‌ای از یک ربات که می‌تواند از مرورگر وب برای انجام وظایف استفاده کند، اما یک بررسی اشاره کرد که «حتی اقدامات ساده‌ای مانند کلیک کردن، انتخاب عناصر و جستجو می‌تواند چندین ثانیه – یا حتی دقیقه – از عامل وقت بگیرد.» در یک مقطع، این ابزار تقریباً یک ربع ساعت گیر کرده بود و سعی می‌کرد قیمتی را از منوی کشویی یک سایت املاک انتخاب کند.

یک گزینه دیگر برای بهبود قابلیت عامل‌ها وجود دارد: ابزارهای موجود را برای تسلط هوش مصنوعی آسان‌تر کنیم. یک تلاش منبع باز با هدف توسعه آنچه به عنوان پروتکل زمینه مدل (Model Context Protocol) شناخته می‌شود، انجام می‌گیرد که یک رابط استاندارد است که به عامل‌ها اجازه می‌دهد با استفاده از درخواست‌های متنی به نرم‌افزار دسترسی پیدا کنند. دیگری پروتکل Agent2Agent است که توسط گوگل در بهار گذشته راه‌اندازی شد و جهانی را پیشنهاد می‌کند که در آن عامل‌ها مستقیماً با یکدیگر تعامل دارند. هوش مصنوعی شخصی من مجبور نیست از یک سایت رزرو هتل استفاده کند اگر بتواند به جای آن از یک هوش مصنوعی اختصاصی – شاید توسط خود شرکت هتل آموزش دیده – بخواهد که سایت را از طرف او پیمایش کند. البته، بازسازی زیرساخت اینترنت با در نظر گرفتن ربات‌ها زمان‌بر خواهد بود. (برای سال‌ها، توسعه‌دهندگان فعالانه سعی کرده‌اند از دستکاری وب‌سایت‌ها توسط ربات‌ها جلوگیری کنند.) و حتی اگر تکنولوژیست‌ها بتوانند این پروژه را تکمیل کنند، یا با موفقیت بر استفاده از ماوس مسلط شوند، با چالش دیگری روبرو خواهند شد: ضعف‌های LLM‌هایی که تصمیمات عامل‌هایشان را پایه و اساس قرار می‌دهند.

در ویدئویی که آغاز به کار ChatGPT Agent را اعلام کرد، آلتمن و گروهی از مهندسان اوپن‌ای‌آی چندین ویژگی آن را به نمایش گذاشتند. در یک مقطع، نقشه ای تولید کرد که ظاهراً مسیری برای بازدید از تمامی سی ورزشگاه Major League Baseball در آمریکای شمالی را نشان می‌داد. به طرز عجیبی، یک توقفگاه در میانه خلیج مکزیک نیز در آن گنجانده شده بود. می‌توان این اشتباه را یک مورد نادر دانست، اما برای مارکوس، منتقد سیلیکون ولی، این نوع خطا یک مسئله بنیادی‌تر را برجسته می‌کند. او به من گفت که LLMها فاقد درک کافی از «چگونگی کارکرد چیزها در جهان» هستند تا بتوانند به طور قابل اعتماد کارهای باز را انجام دهند. او گفت، حتی در سناریوهای ساده، مانند برنامه‌ریزی سفر، «شما هنوز باید در مورد زمان و مکان استدلال کنید» – توانایی‌های اساسی انسانی که مدل‌های زبانی با آنها مشکل دارند. او افزود: «آنها در حال ساخت ابزارهای ناشیانه بر روی ابزارهای ناشیانه هستند.»

مفسران دیگر هشدار می‌دهند که عامل‌ها خطاها را تشدید خواهند کرد. همانطور که کاربران چت‌بات به سرعت متوجه می‌شوند، LLMها تمایل به ساختگی‌گویی دارند؛ یک معیار محبوب نشان می‌دهد که نسخه‌های مختلف GPT-5، مدل پیشرفته اوپن‌ای‌آی، نرخ توهم‌زایی حدود ده درصد دارند. برای یک عامل که وظایف چند مرحله‌ای را انجام می‌دهد، این لغزش‌های نیمه‌منظم ممکن است فاجعه‌بار باشد: فقط یک اشتباه کافی است تا کل تلاش از مسیر خارج شود. یک تیتر بیزینس اینسایدر در بهار هشدار داد: «هنوز درباره عامل‌های هوش مصنوعی زیاد هیجان‌زده نشوید. آنها اشتباهات زیادی مرتکب می‌شوند.»

برای درک بهتر اینکه چگونه ذهن یک LLM می‌تواند به بیراهه رود، از ChatGPT خواستم تا برنامه‌ای را که اگر یک عامل رزرو هتل بود، دنبال می‌کرد، شرح دهد. این مدل دنباله‌ای از هجده مرحله و زیرمرحله را توصیف کرد: انتخاب وب‌سایت رزرو، اعمال فیلترها بر نتایج جستجو، وارد کردن اطلاعات کارت اعتباری، ارسال خلاصه‌ای از رزرو به من، و غیره. من تحت تأثیر قرار گرفتم که مدل چگونه با دقت توانست این فعالیت را تجزیه کند. (تا زمانی که آنها را لیست‌شده نمی‌بینید، به راحتی می‌توان میزان اقدامات کوچک لازم برای انجام چنین کار رایجی را دست کم گرفت.) اما من همچنین می‌توانستم نقاطی را ببینم که عامل فرضی ما ممکن است از مسیر خارج شود.

به عنوان مثال، زیرمرحله ۴.۴، عامل را ملزم می‌کند که اتاق‌ها را با استفاده از فرمولی رتبه‌بندی کند: (امتیاز موقعیت مکانی) × α + (امتیاز رتبه‌بندی) × β - (جریمه قیمت) × γ + (پاداش وفاداری) × δ. این نوع کار در این وضعیت صحیح است، اما LLM جزئیات را به طرز نگران‌کننده‌ای نامشخص گذاشت. چگونه این مقادیر جریمه و پاداش را محاسبه می‌کند و چگونه وزن‌ها (که با نمادهای یونانی نشان داده شده‌اند) را برای متعادل کردن آنها انتخاب می‌کند؟ انسان‌ها احتمالاً چنین جزئیاتی را با آزمون و خطا و عقل سلیم تنظیم می‌کنند، اما چه کسی می‌داند که یک LLM به تنهایی چه کاری ممکن است انجام دهد. و اشتباهات کوچک اهمیت خواهند داشت: اگر چیزی مانند جریمه قیمت را بیش از حد تأکید کنید، ممکن است در یکی از بدنام‌ترین هتل‌های شهر اقامت کنید.

چند هفته پیش، آلتمن در یک یادداشت داخلی اعلام کرد که توسعه عامل‌های هوش مصنوعی یکی از پروژه‌هایی است که اوپن‌ای‌آی آن را کم‌اهمیت‌تر خواهد کرد، زیرا می‌خواست بر بهبود محصول اصلی چت‌بات خود تمرکز کند. در همین زمان سال گذشته، رهبرانی مانند آلتمن به گونه‌ای صحبت می‌کردند که انگار ما از یک پرتگاه تکنولوژیک عبور کرده‌ایم و به طور بی‌نظم به سوی نیروی کار خودکار در حال سقوط هستیم. چنین هیجان‌زدگی اکنون بی‌ملاحظه به نظر می‌رسد. اخیراً، در تلاشی برای کالیبره کردن انتظاراتم درباره هوش مصنوعی، به یک مصاحبه پادکستی با کارپاتی، یکی از بنیانگذاران اوپن‌ای‌آی، از ماه اکتبر فکر می‌کردم. دوارکش پاتل، مصاحبه‌کننده، از او پرسید که چرا سال عامل محقق نشد. کارپاتی پاسخ داد: «احساس می‌کنم در این صنعت برخی پیش‌بینی‌های بیش از حد وجود دارد. به نظر من، این واقعاً بیشتر به عنوان دهه عامل توصیف می‌شود.»