عوامل هوش مصنوعی با آخرین مانع بزرگ روبرو هستند

تصویری از یک ربات در بیرون دری که چشم‌های یک شخص از پنجره کوچک آن دیده می‌شود و نت‌های موسیقی بین آن‌ها شناور هستند. — عوامل هوش مصنوعی نمی‌توانند واقعاً شروع به کار کنند مگر اینکه مجوز ورود داشته باشند. تصویر: توماس آر. لخلایتر/وال استریت ژورنال، آی‌استاک

توماس آر. لخلایتر/وال استریت ژورنال، آی‌استاک

ساوت سن فرانسیسکو، کالیفرنیا - مسابقه برای ساخت عوامل هوش مصنوعی (AI agents) مفید که بتوانند کارهای پیچیده را برای افراد انجام دهند، در حال انتقال به مجموعه‌ای جدید از چالش‌ها است.

مدل‌های زبانی بزرگ (large language models) که در هسته این عوامل قرار دارند، برای بسیاری از وظایف به اندازه کافی خوب هستند. اما تأکید فزاینده‌ای بر اتصال LLM‌های درون عوامل به ابزارهای فراوانی وجود دارد که برای انجام کارهایشان به آن‌ها نیاز خواهند داشت.

به عنوان مثال، یک LLM پیشرفته ممکن است در ضرب پیچیده شکست بخورد، در حالی که ارزان‌ترین و قدیمی‌ترین مدل می‌تواند اگر ابزار ماشین حساب داشته باشد، در این آزمون موفق شود.

اما مانع دیگری وجود دارد: عوامل برای دسترسی به برنامه‌ها (apps)، رابط‌های برنامه‌نویسی کاربردی (APIs) و وب‌سایت‌ها نیاز به مجوز خواهند داشت تا بتوانند یک اوبر (Uber) سفارش دهند یا پروازی را رزرو کنند، انتظاری که در طول سال گذشته تثبیت شده است.

به گفته الکس سالازار، مدیر عامل استارتاپ آرکید دات‌دِو (Arcade.dev)، انسان‌ها برای ورود به حساب‌های خود رمز عبور تایپ می‌کنند یا از تشخیص چهره و اثر انگشت استفاده می‌کنند، اما عوامل هوش مصنوعی به روش‌های جدیدی برای احراز هویت نیاز دارند تا نقش واسطه بین انسان‌ها و خدماتی که می‌خواهند استفاده کنند را ایفا کنند.

وعده عوامل

در یک ارائه ضبط شده که در کنفرانس توسعه‌دهندگان اپل در ژوئن گذشته نمایش داده شد، یکی از رهبران یادگیری ماشین و هوش مصنوعی این شرکت یک مثال فرضی را به اشتراک گذاشت که در آن از سیری (Siri) خواست تا به او بگوید پرواز مادرش چه زمانی فرود خواهد آمد. سیری جزئیات پرواز را که مادرش ایمیل کرده بود، با ردیابی پرواز بلادرنگ مطابقت می‌داد تا زمان رسیدن به‌روز شده را تعیین کند.

سپس، او تصور کرد که می‌خواهد سیری جزئیات برنامه‌های ناهار با مادرش را به او بگوید، که سیری با بررسی تقویم یا پیامک‌های او مشخص می‌کرد. و همچنین محاسبه می‌کرد که رسیدن از فرودگاه به محل ناهار چقدر طول می‌کشد.

اپل هنوز این قابلیت را ارائه نکرده است، اما اکوسیستم هوش مصنوعی در حال کار بر روی "زیرساخت" (plumbing) است که چنین عوامل هوش مصنوعی پیچیده‌ای را ممکن می‌سازد.

این تلاش در نوامبر گذشته زمانی که آنتروپیک (Anthropic)، استارتاپی که ربات چت کلود (Claude) را توسعه داده است، یک استاندارد متن‌باز به نام پروتکل زمینه مدل (Model Context Protocol) را معرفی کرد، تقویت شد. راهنمای کاربری می‌گوید: "همانطور که USB-C یک روش استاندارد برای اتصال دستگاه‌های شما به لوازم جانبی مختلف فراهم می‌کند، MCP یک روش استاندارد برای اتصال مدل‌های هوش مصنوعی به منابع داده و ابزارهای مختلف فراهم می‌کند."

سالازار به من گفت: "عوامل فراخواننده ابزار (Tool-calling agents) فاز نوظهور توسعه عوامل هوش مصنوعی هستند." استارتاپ ۱۲ نفره او در حومه سن فرانسیسکو در حال توسعه ابزارهایی برای حل مشکل ورود عوامل به وب‌سایت‌ها، API‌ها و برنامه‌ها است.

این شرکت که سالازار آن را سال گذشته با سم پارتی، مدیر ارشد فناوری (CTO) هم‌بنیان‌گذاری کرد، در ماه مارس اعلام کرد که ۱۲ میلیون دلار سرمایه اولیه (seed funding) در یک دور تأمین مالی به رهبری لاد ونچرز (Laude Ventures) با مشارکت فلای‌بریج ونچرز (Flybridge Ventures)، هانابی کپیتال (Hanabi Capital) و سرمایه‌گذار خطرپذیر اندی راچلف (Andy Rachleff) جمع‌آوری کرده است.

تیم Arcade.dev در حال جشن گرفتن در میان کاغذهای رنگی. — اعضای تیم Arcade.dev. عکس: استیون روزنبوش/وال استریت ژورنال

استیون روزنبوش/وال استریت ژورنال

منحنی پذیرش

فراهم کردن تمام ابزارها و دسترسی‌های لازم برای عوامل، مانع قابل توجهی است.

به گفته سالازار، تولیدکنندگان دستگاه احتمالاً شروع به ادغام عوامل هوش مصنوعی با برنامه‌های اصلی مانند ایمیل و تقویم خواهند کرد. او گفت که با گسترش عوامل به سایر خدمات، آن‌ها با شرکت‌هایی که API‌های عمومی (public APIs) دارند بهترین عملکرد را خواهند داشت؛ قطعات کدی که به یک برنامه کمک می‌کنند تا به دیگری متصل شود. برخی پلتفرم‌ها به طور عمدی دسترسی به API را برای جلوگیری از سوء استفاده محدود می‌کنند و برخی سیستم‌های قدیمی فاقد API هستند.

اما آن ادغام عوامل هوش مصنوعی و برنامه‌ها از طریق پروتکل‌های احراز هویت موجود می‌تواند آخرین چالش بزرگ نیز باشد.

سالازار می‌گوید عوامل هوش مصنوعی ساده و کم‌ریسک همین حالا کار می‌کنند و آن‌ها در طول دو سال آینده وظایف پیچیده‌تر و پرخطرتر را بر عهده خواهند گرفت. به عنوان مثال، آرکید در حال کمک به مشتری خود، شورت‌ویو (Shortwave)، برای اتصال عامل ایمیل هوش مصنوعی خود به برنامه‌های دیگر مانند ابزار مدیریت دانش نوشن (Notion) است، به گفته اندرو لی، هم‌بنیان‌گذار و مدیر عامل شورت‌ویو.

سالازار پیش‌بینی می‌کند که عوامل هوش مصنوعی در ۲۴ ماه آینده به طور فزاینده‌ای پیش‌نویس ارتباطات را تهیه کرده و برنامه‌های سفر را برای افراد برنامه‌ریزی خواهند کرد، اما همچنان به تأیید انسانی قبل از اجرای نهایی نیاز دارند. پس از آن نقطه، او انتظار دارد که عوامل کاملاً مستقل اجازه فعالیت داشته باشند، که با وظایف آسان و کم‌ریسک شروع می‌شود.

سالازار می‌گوید، زمانی که مشکلات اصلی مهندسی مربوط به عوامل برطرف شود، جهان آماده یک تحول تکنولوژیکی جدید در شیوه انجام کارها است. معرفی فروشگاه‌های برنامه (app stores) در سال ۲۰۰۸ به طور ناگهانی و گسترده هنجارهای تعامل افراد با جهان را تغییر داد. عوامل هوش مصنوعی می‌توانند بسیار نزدیک به ایجاد چیزی به همان بزرگی باشند.

برای استیون روزنبوش به آدرس [email protected] بنویسید.

https://www.wsj.com/articles/ai-agents-face-one-last-big-obstacle-ef3ea7f5?mod=lead_feature_below_a_pos2