اعتبار تصویر: XDOF
اعتبار تصویر: XDOF

جمع‌آوری داده‌های آموزشی ربات‌ها کاری دشوار و نامرئی است. برخی از آزمایشگاه‌های هوش مصنوعی در حال حاضر برای این کار به XDOF دستمزد می‌دهند.

دو هفته پیش، اوپن‌ای‌آی (OpenAI) اعلام کرد که برنامه رباتیک خود را که در سال ۲۰۲۱ تعطیل کرده بود، مجدداً راه‌اندازی خواهد کرد – این جدیدترین نشانه از رقابت شدید بزرگ‌ترین آزمایشگاه‌های هوش مصنوعی برای آموزش ماشین‌ها جهت فعالیت در دنیای فیزیکی است. اما ساخت ربات‌های توانمند نیازمند چیزی است که صنعت هوش مصنوعی هنوز در اختیار ندارد، یعنی داده‌های آموزشی متناسب با داده‌هایی که برای مدل‌های زبان استفاده می‌شود.

این شکاف در حال ایجاد نوع جدیدی از کسب‌وکار زیرساختی است. بر خلاف مدل‌های زبان بزرگ (LLMها) که بر روی دریایی وسیع از متون عمومی موجود آموزش دیده‌اند، ربات‌ها به داده‌هایی نیاز دارند که تعامل فیزیکی را به تصویر می‌کشند، و این نوع داده‌ها تقریباً وجود ندارند. ویدیوهای یوتیوب و تصاویری که توسط کارگران پاره‌وقت جمع‌آوری می‌شوند، کیفیت پایینی دارند و تطبیق آن‌ها با دنیای فیزیکی دشوار است.

XDOF (که "اکس-داف" تلفظ می‌شود) که امروز از حالت پنهان‌کاری خارج شد، شرط می‌بندد که گلوگاه بزرگ بعدی در هوش مصنوعی، نه مدل‌ها و نه تراشه‌ها، بلکه حلقه بازخورد داده‌ای است که برای آموزش ربات‌ها جهت تعامل با دنیای فیزیکی مورد نیاز است.

این استارتاپ قصد دارد خطوط لوله داده، ابزارهای جمع‌آوری و سیستم‌های برچسب‌گذاری را بسازد که آزمایشگاه‌های پیشرو و شرکت‌های رباتیک نمی‌توانند به راحتی خودشان آن‌ها را ایجاد کنند – و برای این کار ۷۰ میلیون دلار از ترایو کپیتال (Thrive Capital)، اسپارک کپیتال (Spark Capital)، ای۱۶زد (a16z)، لوکس (Lux) و وندرکو (WndrCo) جذب کرده است. فیلیپ وو، هم‌بنیان‌گذار و مدیرعامل XDOF، می‌گوید که این شرکت با حدود ۶۰ کارمند، در حال حاضر با ۲۰ مشتری، از جمله چندین آزمایشگاه پیشرو هوش مصنوعی، همکاری می‌کند اما نمی‌تواند نام آن‌ها را فاش کند.

وو اظهار داشت: "همه آزمایشگاه‌های برتر در تلاش برای پیشبرد رباتیک هستند. ما قبلاً برخی از پیامدهای عقب افتادن در رقابت مدل‌های زبانی را دیده‌ایم... شما نمی‌خواهید در وضعیتی قرار بگیرید که این فناوری را خیلی دیر دنبال کنید، در حالی که همه در این باورند که هوش مصنوعی فیزیکی مرز بعدی است."

وو خود در دوران دانشجویی دکترا در دانشگاه کالیفرنیا، برکلی با این مشکل مواجه شد. تمرکز او بر این بود که ربات‌ها بتوانند مهارت‌ها را از مجموعه‌داده‌های مقیاس بزرگ بیاموزند. تنها یک مشکل وجود داشت.

او به تک‌کرانچ گفت: "ما داده‌های مقیاس بزرگ برای کار کردن نداشتیم. یک مشکل مرغ و تخم‌مرغی وجود داشت – ما ابتدا باید داده‌ها را جمع‌آوری می‌کردیم تا بتوانیم اصلاً بپرسیم چگونه یک مدل پایه برای رباتیک آموزش دهیم."

وو و فرد شنتو، هم‌بنیان‌گذار و مدیر ارشد فناوری آینده XDOF، روی پروژه‌ای به نام گِلو (GELLO) کار کردند، یک سیستم تله‌اپریشن (teleoperation) کم‌هزینه که به یک اپراتور انسانی اجازه می‌دهد یک بازوی رباتیک را برای تولید داده‌های آموزشی کنترل کند. وو گفت: "این پروژه در نهایت به یک مقاله بسیار تأثیرگذار در رباتیک تبدیل شد، زیرا بسیاری از مردم نیازها و گلوگاه‌های مشابهی داشتند و بسیاری شروع به استفاده از این نوع دستگاه برای جمع‌آوری داده کردند."

وو، شنتو و نیمو جین، سومین هم‌بنیان‌گذار و مدیر عملیات، با مشاهده این فرصت، XDOF را در اکتبر ۲۰۲۴ راه‌اندازی کردند تا یک اکوسیستم داده برای شرکت‌هایی که مدل‌های رباتیک را دنبال می‌کنند، فراهم کنند. با در نظر گرفتن این نکته که تنها تأمین داده می‌تواند یک کسب‌وکار بن‌بست باشد، این شرکت بر پاکسازی داده، ابزارسازی و برچسب‌گذاری نیز تمرکز دارد – ایجاد یک حلقه بازخورد تقویت‌کننده برای آموزش‌دهندگان ربات.

به عنوان نقطه شروع، این شرکت با آزمایشگاه تحقیقات هوش مصنوعی دانشگاه کالیفرنیا، برکلی همکاری می‌کند تا آنچه را که بزرگترین مجموعه داده آموزشی ربات با کیفیت بالا که تاکنون گردآوری شده است، با نام ABC، منتشر کند. این مجموعه شامل ۱۳۰,۰۰۰ مسیر داده دستکاری ربات، ۳۰۰ ساعت شبیه‌سازی و ۱۰۰ ساعت ارزیابی است. این نوع داده پیش‌آموزشی مقیاس‌پذیر قبلاً در دسترس جامعه دانشگاهی نبوده است.

دیوید مک‌آلیستر (David McAllister)، دانشجوی دکترای برکلی که به سازماندهی این انتشار کمک کرده بود، به تک‌کرانچ گفت: "ما در حوزه‌های زبان، تولید تصویر و سایر زمینه‌ها دیده‌ایم که وقتی مدل‌ها و داده‌ها منتشر می‌شوند، جامعه به چیزهایی دست می‌یابد که لزوماً انتظارشان را نداشتید."

این تیم قبلاً از این داده‌ها برای آموزش ربات‌ها در وظایف معیار مانند تا کردن تی‌شرت و صاف کردن جعبه‌ها، یا قرار دادن ایرپادها در قاب‌هایشان استفاده کرده است.

درجات آزادی نامحدود

این شرکت قصد دارد در سه سطح از هرم داده فعالیت کند. ارزشمندترین سطح، داده‌های تله‌اپریشن است که بر روی ربات واقعی در حال استقرار جمع‌آوری می‌شود؛ سپس ربات‌های تله‌اپریت شده قرار می‌گیرند که داده‌های عمومی‌تری را جمع‌آوری می‌کنند، مانند GELLO؛ و در نهایت داده‌های "خودمحورانه" (egocentric) که توسط انسان‌ها در حین انجام کارهای روزمره جمع‌آوری می‌شوند، که برای آن XDOF قصد دارد حسگرهای پوشیدنی خود را بسازد.

وو گفت: "انتخاب دوربین شما بر کیفیت داده‌ها تأثیر می‌گذارد – که بر عملکرد الگوریتم ردیابی دست شما تأثیر خواهد گذاشت. اگر سخت‌افزار را از ابتدا به خوبی طراحی نکنید، داده‌هایی که جمع‌آوری می‌کنید ممکن است مشکلات بسیار خاصی داشته باشند که پیش‌بینی نکرده‌اید."

این شرکت قصد دارد ارتش‌هایی از تله‌اپراتورها و اپراتورهای داده‌های خودمحورانه را در سراسر جهان استخدام و آموزش دهد – یک مدل کار فشرده که یک سوال آشکار را مطرح می‌کند: چرا آزمایشگاه‌های بزرگ این کار تولید داده را خودشان انجام نمی‌دهند؟

وو اظهار داشت: "شما به یک انبار صدها هزار فوت مربعی با صدها ربات نیاز دارید. باید این ربات‌ها را نگهداری کنید، پارامترهای فیزیکی آن‌ها را کالیبره کنید و اپراتورها را به درستی آموزش دهید."

این یک ساختار است که نیازمند تمرکز، سرمایه و مقیاس عملیاتی است که اکثر آزمایشگاه‌های هوش مصنوعی ترجیح می‌دهند آن را برون‌سپاری کنند – که دقیقاً همان بازاری است که XDOF روی آن شرط بسته است.

نام XDOF بازی با کلمات بر روی اصطلاح رباتیک "درجات آزادی" (degrees of freedom) است، که تعداد حرکات مستقل یک ربات را توصیف می‌کند. بازوی شما، از شانه تا مچ، هفت درجه آزادی دارد. جدیدترین ربات شرکت رباتیک انسان‌نما Figure AI، دارای ۳۰ درجه آزادی است. "X" در نام این شرکت، جاه‌طلبی آن را به تصویر می‌کشد: "درجات آزادی دلخواه، درجات آزادی نامحدود," به گفته وو.