در سال ۱۹۹۹، یک دهه پس از اختراع شبکه جهانی وب (World Wide Web)، سر تیم برنرز-لی، دانشمند بریتانیایی کامپیوتر، نسخهای هوشمند از ساخته خود را تصور کرد. در آن چشمانداز، بسیاری از کارهای روزمره – یافتن اطلاعات، برنامهریزی، انجام کارهای عادی – نه توسط انسانها، بلکه توسط "عاملهای هوشمند" (intelligent agents) انجام میشد: ماشینهایی که قادر به خواندن، تفسیر و عمل بودند. وب از زمان اختراع خود به طور چشمگیری تکامل یافته است، اما تجربه آن دستی باقی مانده است – کاربران هنوز برای خرید، خواندن یا تماشا کردن، تایپ میکنند، کلیک میکنند و وبگردی میکنند.
هوش مصنوعی (AI) اکنون ممکن است رویای سر تیم را محقق کند. مدلهای زبان بزرگ (LLM) امروزی میتوانند اسناد را خلاصه کنند، به سوالات پاسخ دهند و استدلال کنند. اما آنچه در حال حاضر نمیتوانند انجام دهند، عمل کردن است. با این حال، این وضعیت با ظهور "عاملها" (agents) در حال تغییر است: نرمافزارهایی که به LLMها ابزارهایی میدهند تا بتوانند وظایف را انجام دهند، نه فقط متن تولید کنند.
این تغییر از سال ۲۰۲۲ با راهاندازی چتجیپیتی (ChatGPT) آغاز شد. بسیاری از کاربران شروع به پرسیدن سوال از چتباتها به جای وارد کردن کلمات کلیدی در موتورهای جستجو کردند تا اطلاعاتی را که ممکن است در سراسر وب پراکنده باشد، جمعآوری کنند. با این حال، چنین "موتورهای پاسخی" به سختی سطح پتانسیل را نشان میدهند. کوین اسکات، مدیر ارشد فناوری مایکروسافت (Microsoft)، غول نرمافزاری، معتقد است که عاملهای قادر به انجام کارهای پیچیدهتر "چندان دور نیستند". اما برای اینکه این عاملها بخش بیشتری از کار را به عهده بگیرند، زیرساختهای وب باید تغییر کند.
یک مانع اصلی زبان است: دادن راهی به عاملها برای صحبت با سرویسهای آنلاین و با یکدیگر. یک وبسایت یا سرویس آنلاین معمولاً از طریق یک رابط برنامهنویسی کاربردی (API) با دنیای بیرون ارتباط برقرار میکند، که به بازدیدکنندگان میگوید چه کارهایی میتواند انجام دهد، مانند رزرو وقت پزشک یا ارائه یک مکان روی نقشه. با این حال، APIها برای انسانها نوشته شدهاند و هر کدام ویژگیها و مستندات خاص خود را دارند. این محیط برای عاملهای هوش مصنوعی دشوار است، زیرا آنها به زبان طبیعی استدلال میکنند. تعامل با هر API جدید نیازمند یادگیری لهجه خاص آن است. بنابراین، برای اینکه عاملها بتوانند به طور مستقل در وب عمل کنند، به یک روش استاندارد برای ارتباط نیاز خواهند داشت.
این هدف پروتکل بستر مدل (Model Context Protocol یا MCP) است که توسط انتروپیک (Anthropic)، یک آزمایشگاه هوش مصنوعی، توسعه یافته است. مایک کریگر، مدیر ارشد محصول این شرکت، میگوید این ایده زمانی مطرح شد که کلود (Claude)، چتبات آنها، را به سرویسهایی مانند جیمیل (Gmail)، یک پلتفرم ایمیل، و گیتهاب (GitHub)، یک مخزن کد، متصل میکردند. به جای یکپارچهسازی هر برنامه به صورت موردی با کلود، این شرکت به دنبال مجموعهای مشترک از قوانین بود تا به عاملها کمک کند مستقیماً به ایمیلها یا فایلهای کاربر دسترسی پیدا کنند. به جای مطالعه راهنماهای فنی، یک عامل میتواند از سرور MCP بپرسد که یک سیستم چه کاری انجام میدهد – رزرو پرواز، لغو اشتراک، صدور بازپرداخت و غیره – و سپس به نمایندگی از کاربر، بدون نیاز به کد اختصاصی، اقدامی انجام دهد.
فرض کنید میخواهید سفری از لندن به نیویورک رزرو کنید. ابتدا برنامههای سفر خود را به یک عامل سفر میدهید، که سپس وظیفه را بین عاملهای تخصصی تقسیم میکند که میتوانند به دنبال پروازها، هتلها و خودروها باشند. این عاملها با سرورهای MCP خطوط هوایی، هتلها و شرکتهای کرایه خودرو تماس میگیرند، اطلاعات جمعآوری میکنند، احتمالات را مقایسه میکنند و لیستی از برنامههای سفر بالقوه ایجاد میکنند. پس از انتخاب یک گزینه، عامل سفر کل بسته را رزرو میکند.
این نوع هماهنگی نیازمند قوانینی برای شناسایی، گفتگو و اعتماد عاملهای منفرد به یکدیگر است. راه حل پیشنهادی گوگل (Google) برای این منظور پروتکل عامل به عامل (A2A یا agent-to-agent) است. عاملها میتوانند تواناییهای خود را از طریق این پروتکل به یکدیگر اطلاع دهند و درباره اینکه کدام عامل چه کاری انجام دهد، مذاکره کنند. لوری واس از آرایز AI (Arize AI)، یک استارتاپ، میگوید شرکتها در یک "رقابت شدید" برای تعریف استانداردهای غالب برای وب عاملمحور هستند. پرکاربردترین پروتکل به ابزارهای پشتیبان خود اجازه میدهد تا کارها را زودتر و بهتر انجام دهند. در ۹ دسامبر، انتروپیک، اوپناِیآی (OpenAI)، گوگل، مایکروسافت و دیگران بنیاد هوش مصنوعی عاملمحور (Agentic AI Foundation) را اعلام کردند که استانداردهای متنباز را برای عاملهای هوش مصنوعی توسعه خواهد داد. MCP انتروپیک بخشی از این طرح خواهد بود که نشاندهنده پذیرش گستردهتر آن به عنوان یک استاندارد صنعتی برای ارتباطات عاملمحور است.
با این حال، بیشتر وبی که این عاملها در آن وبگردی خواهند کرد برای چشم انسان ساخته شده است. یافتن یک محصول هنوز به معنای کلیک کردن روی منوها است. برای اینکه مدلهای زبان بتوانند به راحتی به سایتها دسترسی پیدا کنند، مایکروسافت وب زبان طبیعی (Natural Language Web یا NLWeb) را ساخته است که به کاربران امکان میدهد با هر صفحه وب به زبان طبیعی "چت" کنند. برای مثال، کاربران میتوانند از رابط NLWeb یک وبسایت مسافرتی، نکاتی درباره محل سفر با سه کودک بپرسند؛ یا بهترین فروشگاههای شراب را در یک مکان خاص درخواست کنند. در حالی که جستجوی سنتی ممکن است نیاز به کلیک کردن روی فیلترها برای مکان، مناسبت و آشپزی در چندین منو داشته باشد، NLWeb قادر است قصد کامل یک سوال را در یک جمله طبیعی واحد درک کرده و بر اساس آن پاسخ دهد. هر سایت NLWeb همچنین میتواند به عنوان یک سرور MCP عمل کند و محتوای خود را در اختیار عاملها قرار دهد. بنابراین NLWeb پلی بین اینترنت بصری مدرن و اینترنتی که عاملها میتوانند از آن استفاده کنند، ایجاد میکند.
عاملها جمع شوید!
با افزایش توانایی عاملها، یک رقابت پلتفرمی جدید در حال شکلگیری است که این بار بر سر خود عاملها است. این وضعیت یادآور جنگهای مرورگرها در دهه ۱۹۹۰ است، زمانی که شرکتها برای کنترل دسترسی به وب میجنگیدند. اکنون، مرورگرها با محوریت عاملها بازطراحی میشوند. اوپناِیآی و پرپلکسیتی (Perplexity)، یک استارتاپ هوش مصنوعی مولد، مرورگرهای مبتنی بر عامل را راهاندازی کردهاند که میتوانند پروازها را ردیابی کنند، اسناد را دریافت کنند و ایمیل را مدیریت کنند. جاهطلبیهای آنها فراتر از این است. در سپتامبر، اوپناِیآی امکان خریدهای مستقیم را از وبسایتهای منتخب درون چتجیپیتی فراهم کرد. همچنین با سرویسهایی مانند اسپاتیفای (Spotify) و فیگما (Figma) یکپارچه شده است، که به کاربران اجازه میدهد بدون تغییر برنامه، موسیقی پخش کنند یا طراحیها را ویرایش کنند.
چنین اقداماتی باعث نگرانی شرکتهای موجود میشود. در نوامبر، آمازون (Amazon)، یک سایت خرید، از پرپلکسیتی شکایت کرد و مدعی شد که این استارتاپ با عدم افشای اینکه مرورگر آن به جای یک شخص واقعی در حال خرید است، شرایط خدمات آن را نقض میکند. ایربیانبی (Airbnb)، یک برنامه اجاره کوتاه مدت، تصمیم گرفت با چتجیپیتی یکپارچه نشود و گفت که این ویژگی "هنوز کاملاً آماده نیست".
تبلیغات نیز باید سازگار شود. وب امروزی بر اساس کسب درآمد از توجه انسان، از طریق تبلیغات جستجو و فیدهای اجتماعی، اداره میشود. آلفابت (Alphabet) و متا (Meta)، از جمله بزرگترین شرکتهای فناوری، انتظار داشتند نزدیک به نیم تریلیون دلار در سال از این طریق درآمد کسب کنند که بیش از ۸۰٪ از درآمدهای آنها را تشکیل میدهد. داون سانگ، دانشمند کامپیوتر در دانشگاه کالیفرنیا، برکلی، میگوید بازاریابان ممکن است نیاز داشته باشند نه به مردم، بلکه به "توجه عامل" (agent attention) پیشنهاد دهند. به عنوان مثال، سایتهای مسافرتی، مسافر را متقاعد نمیکنند، بلکه پروکسی دیجیتالی او را متقاعد میکنند. تاکتیکها ممکن است ثابت بمانند – بهینهسازی رتبهبندیها، هدفگذاری ترجیحات، پرداخت برای جایگاه – اما مخاطبان الگوریتمها خواهند بود.
وبگردی تحت هدایت عاملها همچنین میتواند فعالیت آنلاین را به شدت گسترش دهد. پاراگ آگراوال، بنیانگذار سیستمهای وب موازی (Parallel Web Systems)، یک استارتاپ هوش مصنوعی، اشاره میکند که وب برای انسانها و با سرعت خواندن انسانها ساخته شده است. عاملها چنین محدودیتهایی ندارند. آنها میتوانند هزاران صفحه را در چند ثانیه اسکن کنند، پیوندهایی را که افراد نادیده میگیرند دنبال کنند و چندین وظیفه را به طور موازی مدیریت کنند، که بخش زیادی از آن هرگز روی صفحه نمایش داده نمیشود. او پیشبینی میکند که عاملها میتوانند "صدها یا هزاران" برابر بیشتر از انسانها از وب استفاده کنند.
جایی که عاملها عمل میکنند، ممکن است خطا نیز کنند. یک عامل هوش مصنوعی ممکن است به روشهایی رفتار کند که کاربرش کاملاً متوجه آنها نشود. ممکن است اشتباه کند، سپس توضیحات ساختگی ارائه دهد. نگرانکنندهتر، دستکاری از بیرون است. تزریق پرامپت (Prompt injection) – پنهان کردن دستورات مخرب در صفحات وب یا فایلها – میتواند عاملها را فریب دهد تا دادهها را فاش کنند، بررسیهای ایمنی را دور بزنند یا اقدامات غیرمجاز انجام دهند.
تمهیدات ایمنی میتوانند خطرات را کاهش دهند. یکی از آنها محدود کردن عاملها به سرویسهای مورد اعتماد است. دیگری اعطای اختیارات محدود به آنها است. برخی ممکن است "فقط خواندنی" باشند، مجاز به دریافت داده اما نه ارسال یا تغییر آن. برخی دیگر ممکن است فقط با تأیید انسان عمل کنند. برای حساسترین کارها، ممکن است لازم باشد انسان در جریان امور باقی بماند.
با وجود خطرات، توسعهدهندگان نرمافزار خوشبین هستند. آقای آگراوال تغییر از یک اینترنت "کششی" (pull)، که در آن افراد اقدامات را آغاز میکنند، به یک مدل "فشاری" (push) را تصور میکند، که در آن عاملها بدون تحریک عمل میکنند – تنظیم جلسات، علامتگذاری تحقیقات یا انجام وظایف کوچک. این میتواند بنیاد نسخه جدید و بسیار متفاوتی از وب باشد.