تصویر اصلی که مفهوم ساخت وب آینده توسط ماشین‌ها را نشان می‌دهد.
تصویر اصلی که مفهوم ساخت وب آینده توسط ماشین‌ها را نشان می‌دهد.

نسخه بعدی وب برای ماشین‌ها ساخته خواهد شد، نه انسان‌ها

هوش مصنوعی به جای شما وب‌گردی می‌کند، خرید می‌کند و اقدامات لازم را انجام می‌دهد

در سال ۱۹۹۹، یک دهه پس از اختراع شبکه جهانی وب (World Wide Web)، سر تیم برنرز-لی، دانشمند بریتانیایی کامپیوتر، نسخه‌ای هوشمند از ساخته خود را تصور کرد. در آن چشم‌انداز، بسیاری از کارهای روزمره – یافتن اطلاعات، برنامه‌ریزی، انجام کارهای عادی – نه توسط انسان‌ها، بلکه توسط "عامل‌های هوشمند" (intelligent agents) انجام می‌شد: ماشین‌هایی که قادر به خواندن، تفسیر و عمل بودند. وب از زمان اختراع خود به طور چشمگیری تکامل یافته است، اما تجربه آن دستی باقی مانده است – کاربران هنوز برای خرید، خواندن یا تماشا کردن، تایپ می‌کنند، کلیک می‌کنند و وب‌گردی می‌کنند.

هوش مصنوعی (AI) اکنون ممکن است رویای سر تیم را محقق کند. مدل‌های زبان بزرگ (LLM) امروزی می‌توانند اسناد را خلاصه کنند، به سوالات پاسخ دهند و استدلال کنند. اما آنچه در حال حاضر نمی‌توانند انجام دهند، عمل کردن است. با این حال، این وضعیت با ظهور "عامل‌ها" (agents) در حال تغییر است: نرم‌افزارهایی که به LLM‌ها ابزارهایی می‌دهند تا بتوانند وظایف را انجام دهند، نه فقط متن تولید کنند.

این تغییر از سال ۲۰۲۲ با راه‌اندازی چت‌جی‌پی‌تی (ChatGPT) آغاز شد. بسیاری از کاربران شروع به پرسیدن سوال از چت‌بات‌ها به جای وارد کردن کلمات کلیدی در موتورهای جستجو کردند تا اطلاعاتی را که ممکن است در سراسر وب پراکنده باشد، جمع‌آوری کنند. با این حال، چنین "موتورهای پاسخی" به سختی سطح پتانسیل را نشان می‌دهند. کوین اسکات، مدیر ارشد فناوری مایکروسافت (Microsoft)، غول نرم‌افزاری، معتقد است که عامل‌های قادر به انجام کارهای پیچیده‌تر "چندان دور نیستند". اما برای اینکه این عامل‌ها بخش بیشتری از کار را به عهده بگیرند، زیرساخت‌های وب باید تغییر کند.

یک مانع اصلی زبان است: دادن راهی به عامل‌ها برای صحبت با سرویس‌های آنلاین و با یکدیگر. یک وب‌سایت یا سرویس آنلاین معمولاً از طریق یک رابط برنامه‌نویسی کاربردی (API) با دنیای بیرون ارتباط برقرار می‌کند، که به بازدیدکنندگان می‌گوید چه کارهایی می‌تواند انجام دهد، مانند رزرو وقت پزشک یا ارائه یک مکان روی نقشه. با این حال، APIها برای انسان‌ها نوشته شده‌اند و هر کدام ویژگی‌ها و مستندات خاص خود را دارند. این محیط برای عامل‌های هوش مصنوعی دشوار است، زیرا آن‌ها به زبان طبیعی استدلال می‌کنند. تعامل با هر API جدید نیازمند یادگیری لهجه خاص آن است. بنابراین، برای اینکه عامل‌ها بتوانند به طور مستقل در وب عمل کنند، به یک روش استاندارد برای ارتباط نیاز خواهند داشت.

این هدف پروتکل بستر مدل (Model Context Protocol یا MCP) است که توسط انتروپیک (Anthropic)، یک آزمایشگاه هوش مصنوعی، توسعه یافته است. مایک کریگر، مدیر ارشد محصول این شرکت، می‌گوید این ایده زمانی مطرح شد که کلود (Claude)، چت‌بات آن‌ها، را به سرویس‌هایی مانند جیمیل (Gmail)، یک پلتفرم ایمیل، و گیت‌هاب (GitHub)، یک مخزن کد، متصل می‌کردند. به جای یکپارچه‌سازی هر برنامه به صورت موردی با کلود، این شرکت به دنبال مجموعه‌ای مشترک از قوانین بود تا به عامل‌ها کمک کند مستقیماً به ایمیل‌ها یا فایل‌های کاربر دسترسی پیدا کنند. به جای مطالعه راهنماهای فنی، یک عامل می‌تواند از سرور MCP بپرسد که یک سیستم چه کاری انجام می‌دهد – رزرو پرواز، لغو اشتراک، صدور بازپرداخت و غیره – و سپس به نمایندگی از کاربر، بدون نیاز به کد اختصاصی، اقدامی انجام دهد.

فرض کنید می‌خواهید سفری از لندن به نیویورک رزرو کنید. ابتدا برنامه‌های سفر خود را به یک عامل سفر می‌دهید، که سپس وظیفه را بین عامل‌های تخصصی تقسیم می‌کند که می‌توانند به دنبال پروازها، هتل‌ها و خودروها باشند. این عامل‌ها با سرورهای MCP خطوط هوایی، هتل‌ها و شرکت‌های کرایه خودرو تماس می‌گیرند، اطلاعات جمع‌آوری می‌کنند، احتمالات را مقایسه می‌کنند و لیستی از برنامه‌های سفر بالقوه ایجاد می‌کنند. پس از انتخاب یک گزینه، عامل سفر کل بسته را رزرو می‌کند.

این نوع هماهنگی نیازمند قوانینی برای شناسایی، گفتگو و اعتماد عامل‌های منفرد به یکدیگر است. راه حل پیشنهادی گوگل (Google) برای این منظور پروتکل عامل به عامل (A2A یا agent-to-agent) است. عامل‌ها می‌توانند توانایی‌های خود را از طریق این پروتکل به یکدیگر اطلاع دهند و درباره اینکه کدام عامل چه کاری انجام دهد، مذاکره کنند. لوری واس از آرایز AI (Arize AI)، یک استارتاپ، می‌گوید شرکت‌ها در یک "رقابت شدید" برای تعریف استانداردهای غالب برای وب عامل‌محور هستند. پرکاربردترین پروتکل به ابزارهای پشتیبان خود اجازه می‌دهد تا کارها را زودتر و بهتر انجام دهند. در ۹ دسامبر، انتروپیک، اوپن‌اِی‌آی (OpenAI)، گوگل، مایکروسافت و دیگران بنیاد هوش مصنوعی عامل‌محور (Agentic AI Foundation) را اعلام کردند که استانداردهای متن‌باز را برای عامل‌های هوش مصنوعی توسعه خواهد داد. MCP انتروپیک بخشی از این طرح خواهد بود که نشان‌دهنده پذیرش گسترده‌تر آن به عنوان یک استاندارد صنعتی برای ارتباطات عامل‌محور است.

با این حال، بیشتر وبی که این عامل‌ها در آن وب‌گردی خواهند کرد برای چشم انسان ساخته شده است. یافتن یک محصول هنوز به معنای کلیک کردن روی منوها است. برای اینکه مدل‌های زبان بتوانند به راحتی به سایت‌ها دسترسی پیدا کنند، مایکروسافت وب زبان طبیعی (Natural Language Web یا NLWeb) را ساخته است که به کاربران امکان می‌دهد با هر صفحه وب به زبان طبیعی "چت" کنند. برای مثال، کاربران می‌توانند از رابط NLWeb یک وب‌سایت مسافرتی، نکاتی درباره محل سفر با سه کودک بپرسند؛ یا بهترین فروشگاه‌های شراب را در یک مکان خاص درخواست کنند. در حالی که جستجوی سنتی ممکن است نیاز به کلیک کردن روی فیلترها برای مکان، مناسبت و آشپزی در چندین منو داشته باشد، NLWeb قادر است قصد کامل یک سوال را در یک جمله طبیعی واحد درک کرده و بر اساس آن پاسخ دهد. هر سایت NLWeb همچنین می‌تواند به عنوان یک سرور MCP عمل کند و محتوای خود را در اختیار عامل‌ها قرار دهد. بنابراین NLWeb پلی بین اینترنت بصری مدرن و اینترنتی که عامل‌ها می‌توانند از آن استفاده کنند، ایجاد می‌کند.

عامل‌ها جمع شوید!

با افزایش توانایی عامل‌ها، یک رقابت پلتفرمی جدید در حال شکل‌گیری است که این بار بر سر خود عامل‌ها است. این وضعیت یادآور جنگ‌های مرورگرها در دهه ۱۹۹۰ است، زمانی که شرکت‌ها برای کنترل دسترسی به وب می‌جنگیدند. اکنون، مرورگرها با محوریت عامل‌ها بازطراحی می‌شوند. اوپن‌اِی‌آی و پرپلکسیتی (Perplexity)، یک استارتاپ هوش مصنوعی مولد، مرورگرهای مبتنی بر عامل را راه‌اندازی کرده‌اند که می‌توانند پروازها را ردیابی کنند، اسناد را دریافت کنند و ایمیل را مدیریت کنند. جاه‌طلبی‌های آن‌ها فراتر از این است. در سپتامبر، اوپن‌اِی‌آی امکان خریدهای مستقیم را از وب‌سایت‌های منتخب درون چت‌جی‌پی‌تی فراهم کرد. همچنین با سرویس‌هایی مانند اسپاتیفای (Spotify) و فیگما (Figma) یکپارچه شده است، که به کاربران اجازه می‌دهد بدون تغییر برنامه، موسیقی پخش کنند یا طراحی‌ها را ویرایش کنند.

چنین اقداماتی باعث نگرانی شرکت‌های موجود می‌شود. در نوامبر، آمازون (Amazon)، یک سایت خرید، از پرپلکسیتی شکایت کرد و مدعی شد که این استارتاپ با عدم افشای اینکه مرورگر آن به جای یک شخص واقعی در حال خرید است، شرایط خدمات آن را نقض می‌کند. ایربی‌ان‌بی (Airbnb)، یک برنامه اجاره کوتاه مدت، تصمیم گرفت با چت‌جی‌پی‌تی یکپارچه نشود و گفت که این ویژگی "هنوز کاملاً آماده نیست".

تبلیغات نیز باید سازگار شود. وب امروزی بر اساس کسب درآمد از توجه انسان، از طریق تبلیغات جستجو و فیدهای اجتماعی، اداره می‌شود. آلفابت (Alphabet) و متا (Meta)، از جمله بزرگترین شرکت‌های فناوری، انتظار داشتند نزدیک به نیم تریلیون دلار در سال از این طریق درآمد کسب کنند که بیش از ۸۰٪ از درآمدهای آن‌ها را تشکیل می‌دهد. داون سانگ، دانشمند کامپیوتر در دانشگاه کالیفرنیا، برکلی، می‌گوید بازاریابان ممکن است نیاز داشته باشند نه به مردم، بلکه به "توجه عامل" (agent attention) پیشنهاد دهند. به عنوان مثال، سایت‌های مسافرتی، مسافر را متقاعد نمی‌کنند، بلکه پروکسی دیجیتالی او را متقاعد می‌کنند. تاکتیک‌ها ممکن است ثابت بمانند – بهینه‌سازی رتبه‌بندی‌ها، هدف‌گذاری ترجیحات، پرداخت برای جایگاه – اما مخاطبان الگوریتم‌ها خواهند بود.

وب‌گردی تحت هدایت عامل‌ها همچنین می‌تواند فعالیت آنلاین را به شدت گسترش دهد. پاراگ آگراوال، بنیانگذار سیستم‌های وب موازی (Parallel Web Systems)، یک استارتاپ هوش مصنوعی، اشاره می‌کند که وب برای انسان‌ها و با سرعت خواندن انسان‌ها ساخته شده است. عامل‌ها چنین محدودیت‌هایی ندارند. آن‌ها می‌توانند هزاران صفحه را در چند ثانیه اسکن کنند، پیوندهایی را که افراد نادیده می‌گیرند دنبال کنند و چندین وظیفه را به طور موازی مدیریت کنند، که بخش زیادی از آن هرگز روی صفحه نمایش داده نمی‌شود. او پیش‌بینی می‌کند که عامل‌ها می‌توانند "صدها یا هزاران" برابر بیشتر از انسان‌ها از وب استفاده کنند.

جایی که عامل‌ها عمل می‌کنند، ممکن است خطا نیز کنند. یک عامل هوش مصنوعی ممکن است به روش‌هایی رفتار کند که کاربرش کاملاً متوجه آن‌ها نشود. ممکن است اشتباه کند، سپس توضیحات ساختگی ارائه دهد. نگران‌کننده‌تر، دستکاری از بیرون است. تزریق پرامپت (Prompt injection) – پنهان کردن دستورات مخرب در صفحات وب یا فایل‌ها – می‌تواند عامل‌ها را فریب دهد تا داده‌ها را فاش کنند، بررسی‌های ایمنی را دور بزنند یا اقدامات غیرمجاز انجام دهند.

تمهیدات ایمنی می‌توانند خطرات را کاهش دهند. یکی از آن‌ها محدود کردن عامل‌ها به سرویس‌های مورد اعتماد است. دیگری اعطای اختیارات محدود به آن‌ها است. برخی ممکن است "فقط خواندنی" باشند، مجاز به دریافت داده اما نه ارسال یا تغییر آن. برخی دیگر ممکن است فقط با تأیید انسان عمل کنند. برای حساس‌ترین کارها، ممکن است لازم باشد انسان در جریان امور باقی بماند.

با وجود خطرات، توسعه‌دهندگان نرم‌افزار خوش‌بین هستند. آقای آگراوال تغییر از یک اینترنت "کششی" (pull)، که در آن افراد اقدامات را آغاز می‌کنند، به یک مدل "فشاری" (push) را تصور می‌کند، که در آن عامل‌ها بدون تحریک عمل می‌کنند – تنظیم جلسات، علامت‌گذاری تحقیقات یا انجام وظایف کوچک. این می‌تواند بنیاد نسخه جدید و بسیار متفاوتی از وب باشد.