یک سال پیش، سام آلتمن، مدیرعامل اوپنایآی، پیشبینی جسورانهای کرد: «ما معتقدیم که در سال ۲۰۲۵، ممکن است شاهد پیوستن اولین عاملهای هوش مصنوعی به نیروی کار و تغییر چشمگیر در خروجی شرکتها باشیم.» چند هفته بعد، کوین وایل، مدیر ارشد محصول این شرکت، در کنفرانس مجمع جهانی اقتصاد در داووس در ماه ژانویه گفت: «فکر میکنم ۲۰۲۵ سالی است که از چتجیپیتی بهعنوان یک چیز فوقالعاده هوشمند... به چتجیپیتیای میرسیم که در دنیای واقعی کارهایی را برای شما انجام میدهد.» او مثالهایی از هوش مصنوعی که فرمهای آنلاین را پر میکند و رزرو رستوران انجام میدهد، ارائه کرد. او بعداً قول داد: «ما بدون شک قادر به انجام این کار خواهیم بود.» (اوپنایآی با کُنده ناست، صاحب نیویورکر، شراکت شرکتی دارد.)
این یک لاف کوچک نبود. چتباتها میتوانند مستقیماً به یک درخواست متنی پاسخ دهند — مثلاً با پاسخ دادن به یک سؤال یا نوشتن پیشنویس اولیه یک ایمیل. اما یک عامل، در تئوری، میتواند به تنهایی در دنیای دیجیتال حرکت کند و وظایفی را تکمیل کند که نیاز به چندین مرحله و استفاده از نرمافزارهای دیگر، مانند مرورگرهای وب، دارند. به تمام کارهایی که برای رزرو هتل انجام میشود فکر کنید: تصمیمگیری در مورد شبهای مناسب، فیلتر کردن بر اساس ترجیحات، خواندن نظرات، جستجو در وبسایتهای مختلف برای مقایسه نرخها و امکانات. یک عامل میتواند تمام این فعالیتها را خودکار کند. پیامدهای چنین فناوری عظیمی خواهد بود. چتباتها برای کارمندان انسانی راحت هستند؛ اما عاملهای هوش مصنوعی مؤثر ممکن است به طور کامل جایگزین کارمندان شوند. مارک بنیوف، مدیرعامل Salesforce، که ادعا کرده نیمی از کارهای شرکتش توسط هوش مصنوعی انجام میشود، پیشبینی کرد که عاملها به آغاز یک «انقلاب کار دیجیتال» کمک خواهند کرد که ارزش آن به تریلیونها دلار میرسد.
۲۰۲۵ تا حدی به عنوان سال عامل هوش مصنوعی معرفی شد، زیرا تا پایان سال ۲۰۲۴، این ابزارها در برنامهنویسی کامپیوتری به طور غیرقابل انکاری ماهر شده بودند. در یک نمایش از عامل Codex اوپنایآی، از ماه مه، یک کاربر از ابزار خواست تا وبسایت شخصی خود را تغییر دهد. کاربر نوشت: «یک برگه دیگر کنار "سرمایهگذاری/ابزارها" اضافه کن که نامش "غذاهایی که دوست دارم" باشد. در سند بنویس—تاکوها.» چتبات به سرعت مجموعهای از اقدامات مرتبط را انجام داد: فایلها را در دایرکتوری وبسایت بررسی کرد، محتویات یک فایل امیدبخش را بررسی کرد، سپس از یک فرمان جستجو برای یافتن مکان مناسب برای درج یک خط کد جدید استفاده کرد. پس از اینکه عامل نحوه ساختار سایت را آموخت، از این اطلاعات برای افزودن موفقیتآمیز یک صفحه جدید با محوریت تاکوها استفاده کرد. بهعنوان یک دانشمند کامپیوتر، باید اعتراف کنم که Codex این کار را تقریباً همانطور که من انجام میدادم، انجام میداد. سیلیکون ولی متقاعد شد که سایر کارهای دشوار نیز به زودی تسخیر خواهند شد.
با این حال، با نزدیک شدن به پایان سال ۲۰۲۵، عصر عاملهای هوش مصنوعی با کاربری عمومی نتوانسته ظهور کند. پاییز امسال، آندری کارپاتی، یکی از بنیانگذاران اوپنایآی، که شرکت را ترک کرده و یک پروژه آموزش هوش مصنوعی را آغاز کرده بود، عاملها را «از نظر شناختی ضعیف» توصیف کرد و گفت: «این فقط کار نمیکند.» گری مارکوس، منتقد قدیمی هیاهوی صنعت فناوری، اخیراً در ساباستک خود نوشت که «عاملهای هوش مصنوعی تاکنون عمدتاً بیاثر بودهاند.» این شکاف بین پیشبینی و واقعیت اهمیت دارد. چتباتهای روان و مولدهای ویدئوی واقعیتساز چشمگیر هستند، اما آنها به تنهایی نمیتوانند جهانی را به ارمغان بیاورند که در آن ماشینها بسیاری از فعالیتهای ما را به عهده میگیرند. اگر شرکتهای بزرگ هوش مصنوعی نتوانند عاملهای مفید و گستردهای ارائه دهند، ممکن است نتوانند به وعدههای خود در مورد آیندهای مبتنی بر هوش مصنوعی عمل کنند.
اصطلاح «عاملهای هوش مصنوعی» ایدههایی از فناوری جدید فوقالعاده قوی را تداعی میکند که یادآور فیلمهایی چون «ماتریکس» یا «مأموریت: غیرممکن – تسویه حساب نهایی» است. در حقیقت، عاملها نوعی مغز دیجیتال سفارشی نیستند؛ بلکه از همان نوع مدل زبانی بزرگ (LLM) که چتباتها استفاده میکنند، قدرت میگیرند. وقتی از یک عامل میخواهید کاری را انجام دهد، یک برنامه کنترل – یک برنامه ساده که اقدامات عامل را هماهنگ میکند – درخواست شما را به یک اعلان برای LLM تبدیل میکند: «این کاری است که میخواهم انجام دهم، اینها ابزارهای موجود هستند، چه کاری را باید ابتدا انجام دهم؟» سپس برنامه کنترل هر عملی را که مدل زبان پیشنهاد میدهد، امتحان میکند، نتیجه را به آن میگوید و میپرسد: «حالا چه کاری باید انجام دهم؟» این حلقه تا زمانی ادامه مییابد که LLM کار را کامل تشخیص دهد.
این تنظیمات به نظر میرسد در خودکارسازی توسعه نرمافزار بسیار خوب عمل میکند. بیشتر اقداماتی که برای ایجاد یا اصلاح یک برنامه کامپیوتری لازم است، میتوانند با وارد کردن مجموعهای محدود از دستورات در یک ترمینال مبتنی بر متن انجام شوند. این دستورات به کامپیوتر میگویند که در یک سیستم فایل حرکت کند، متن را در فایلهای منبع اضافه یا بهروزرسانی کند، و در صورت نیاز، کد قابل خواندن توسط انسان را به بیتهای قابل خواندن توسط ماشین کامپایل کند. این یک محیط ایدهآل برای LLMها است. الکس شاو، یکی از سازندگان Terminal-Bench، ابزاری محبوب که برای ارزیابی عاملهای کدنویسی استفاده میشود، به من گفت: «رابط ترمینال مبتنی بر متن است و این همان حوزهای است که مدلهای زبانی بر آن اساس کار میکنند.»
دستیارهای تعمیمیافتهتر، از نوعی که آلتمن تصور میکرد، نیاز دارند تا عاملها از محدودیتهای راحت ترمینال خارج شوند. از آنجا که بیشتر ما کارهای کامپیوتری را با اشاره و کلیک کردن انجام میدهیم، یک هوش مصنوعی که میتواند «به نیروی کار بپیوندد»، احتمالاً باید بداند چگونه از ماوس استفاده کند – هدفی که به طرز شگفتانگیزی دشوار است. تایمز اخیراً گزارش داد که مجموعهای از استارتآپهای جدید «سایتهای سایه» – نسخههای کپی شده از صفحات وب محبوب، مانند صفحات یونایتد ایرلاینز و جیمیل – را ساختهاند که در آنها هوش مصنوعی میتواند نحوه استفاده انسان از نشانگر ماوس را تجزیه و تحلیل کند. در ماه جولای، اوپنایآی چتجیپیتی ایجنت را منتشر کرد، نسخه اولیهای از یک ربات که میتواند از مرورگر وب برای انجام وظایف استفاده کند، اما یک بررسی اشاره کرد که «حتی اقدامات سادهای مانند کلیک کردن، انتخاب عناصر و جستجو میتواند چندین ثانیه – یا حتی دقیقه – از عامل وقت بگیرد.» در یک مقطع، این ابزار تقریباً یک ربع ساعت گیر کرده بود و سعی میکرد قیمتی را از منوی کشویی یک سایت املاک انتخاب کند.
یک گزینه دیگر برای بهبود قابلیت عاملها وجود دارد: ابزارهای موجود را برای تسلط هوش مصنوعی آسانتر کنیم. یک تلاش منبع باز با هدف توسعه آنچه به عنوان پروتکل زمینه مدل (Model Context Protocol) شناخته میشود، انجام میگیرد که یک رابط استاندارد است که به عاملها اجازه میدهد با استفاده از درخواستهای متنی به نرمافزار دسترسی پیدا کنند. دیگری پروتکل Agent2Agent است که توسط گوگل در بهار گذشته راهاندازی شد و جهانی را پیشنهاد میکند که در آن عاملها مستقیماً با یکدیگر تعامل دارند. هوش مصنوعی شخصی من مجبور نیست از یک سایت رزرو هتل استفاده کند اگر بتواند به جای آن از یک هوش مصنوعی اختصاصی – شاید توسط خود شرکت هتل آموزش دیده – بخواهد که سایت را از طرف او پیمایش کند. البته، بازسازی زیرساخت اینترنت با در نظر گرفتن رباتها زمانبر خواهد بود. (برای سالها، توسعهدهندگان فعالانه سعی کردهاند از دستکاری وبسایتها توسط رباتها جلوگیری کنند.) و حتی اگر تکنولوژیستها بتوانند این پروژه را تکمیل کنند، یا با موفقیت بر استفاده از ماوس مسلط شوند، با چالش دیگری روبرو خواهند شد: ضعفهای LLMهایی که تصمیمات عاملهایشان را پایه و اساس قرار میدهند.
در ویدئویی که آغاز به کار ChatGPT Agent را اعلام کرد، آلتمن و گروهی از مهندسان اوپنایآی چندین ویژگی آن را به نمایش گذاشتند. در یک مقطع، نقشه ای تولید کرد که ظاهراً مسیری برای بازدید از تمامی سی ورزشگاه Major League Baseball در آمریکای شمالی را نشان میداد. به طرز عجیبی، یک توقفگاه در میانه خلیج مکزیک نیز در آن گنجانده شده بود. میتوان این اشتباه را یک مورد نادر دانست، اما برای مارکوس، منتقد سیلیکون ولی، این نوع خطا یک مسئله بنیادیتر را برجسته میکند. او به من گفت که LLMها فاقد درک کافی از «چگونگی کارکرد چیزها در جهان» هستند تا بتوانند به طور قابل اعتماد کارهای باز را انجام دهند. او گفت، حتی در سناریوهای ساده، مانند برنامهریزی سفر، «شما هنوز باید در مورد زمان و مکان استدلال کنید» – تواناییهای اساسی انسانی که مدلهای زبانی با آنها مشکل دارند. او افزود: «آنها در حال ساخت ابزارهای ناشیانه بر روی ابزارهای ناشیانه هستند.»
مفسران دیگر هشدار میدهند که عاملها خطاها را تشدید خواهند کرد. همانطور که کاربران چتبات به سرعت متوجه میشوند، LLMها تمایل به ساختگیگویی دارند؛ یک معیار محبوب نشان میدهد که نسخههای مختلف GPT-5، مدل پیشرفته اوپنایآی، نرخ توهمزایی حدود ده درصد دارند. برای یک عامل که وظایف چند مرحلهای را انجام میدهد، این لغزشهای نیمهمنظم ممکن است فاجعهبار باشد: فقط یک اشتباه کافی است تا کل تلاش از مسیر خارج شود. یک تیتر بیزینس اینسایدر در بهار هشدار داد: «هنوز درباره عاملهای هوش مصنوعی زیاد هیجانزده نشوید. آنها اشتباهات زیادی مرتکب میشوند.»
برای درک بهتر اینکه چگونه ذهن یک LLM میتواند به بیراهه رود، از ChatGPT خواستم تا برنامهای را که اگر یک عامل رزرو هتل بود، دنبال میکرد، شرح دهد. این مدل دنبالهای از هجده مرحله و زیرمرحله را توصیف کرد: انتخاب وبسایت رزرو، اعمال فیلترها بر نتایج جستجو، وارد کردن اطلاعات کارت اعتباری، ارسال خلاصهای از رزرو به من، و غیره. من تحت تأثیر قرار گرفتم که مدل چگونه با دقت توانست این فعالیت را تجزیه کند. (تا زمانی که آنها را لیستشده نمیبینید، به راحتی میتوان میزان اقدامات کوچک لازم برای انجام چنین کار رایجی را دست کم گرفت.) اما من همچنین میتوانستم نقاطی را ببینم که عامل فرضی ما ممکن است از مسیر خارج شود.
به عنوان مثال، زیرمرحله ۴.۴، عامل را ملزم میکند که اتاقها را با استفاده از فرمولی رتبهبندی کند: (امتیاز موقعیت مکانی) × α + (امتیاز رتبهبندی) × β - (جریمه قیمت) × γ + (پاداش وفاداری) × δ. این نوع کار در این وضعیت صحیح است، اما LLM جزئیات را به طرز نگرانکنندهای نامشخص گذاشت. چگونه این مقادیر جریمه و پاداش را محاسبه میکند و چگونه وزنها (که با نمادهای یونانی نشان داده شدهاند) را برای متعادل کردن آنها انتخاب میکند؟ انسانها احتمالاً چنین جزئیاتی را با آزمون و خطا و عقل سلیم تنظیم میکنند، اما چه کسی میداند که یک LLM به تنهایی چه کاری ممکن است انجام دهد. و اشتباهات کوچک اهمیت خواهند داشت: اگر چیزی مانند جریمه قیمت را بیش از حد تأکید کنید، ممکن است در یکی از بدنامترین هتلهای شهر اقامت کنید.
چند هفته پیش، آلتمن در یک یادداشت داخلی اعلام کرد که توسعه عاملهای هوش مصنوعی یکی از پروژههایی است که اوپنایآی آن را کماهمیتتر خواهد کرد، زیرا میخواست بر بهبود محصول اصلی چتبات خود تمرکز کند. در همین زمان سال گذشته، رهبرانی مانند آلتمن به گونهای صحبت میکردند که انگار ما از یک پرتگاه تکنولوژیک عبور کردهایم و به طور بینظم به سوی نیروی کار خودکار در حال سقوط هستیم. چنین هیجانزدگی اکنون بیملاحظه به نظر میرسد. اخیراً، در تلاشی برای کالیبره کردن انتظاراتم درباره هوش مصنوعی، به یک مصاحبه پادکستی با کارپاتی، یکی از بنیانگذاران اوپنایآی، از ماه اکتبر فکر میکردم. دوارکش پاتل، مصاحبهکننده، از او پرسید که چرا سال عامل محقق نشد. کارپاتی پاسخ داد: «احساس میکنم در این صنعت برخی پیشبینیهای بیش از حد وجود دارد. به نظر من، این واقعاً بیشتر به عنوان دهه عامل توصیف میشود.»