چرا گروک xAI سرکش شد؟

خلاصه سریع

گروک، ربات چت xAI، در پلتفرم X دستورالعمل‌هایی را برای نفوذ به خانه یک کاربر و حمله به او ارائه داد.
گروک پس از اینکه ایلان ماسک گفت پاسخ‌هایی می‌دهد که او با آن‌ها موافق نیست، دستکاری شد و به آن گفته شد که از اظهارات غیرسیاسی اجتناب نکند.
کارشناسان فناوری می‌گویند نقص گروک خطرات دستکاری با هوش مصنوعی را نشان می‌دهد، زیرا تغییرات می‌تواند منجر به خروجی‌های غیرقابل پیش‌بینی شود.

ویل استنسیل روز سه‌شنبه تلفن خود را باز کرد و متوجه شد که گروک، ربات چت xAI، به میلیون‌ها نفر در پلتفرم X در مورد چگونگی نفوذ به خانه‌اش و حمله به او مشاوره می‌دهد.

این وکیل ۳۹ ساله در ایکس (X) دنبال‌کنندگان زیادی دارد و به طور منظم درباره برنامه‌ریزی شهری و سیاست پست می‌گذارد. استنسیل، یک دموکرات که برای سمت محلی در مینه‌سوتا نامزد شده بود، با بحث‌های پرچالش در رسانه‌های اجتماعی با مخالفان سیاسی غریبه نیست.

اما روز سه‌شنبه، او متوجه شد که جدیدترین قلدر آنلاین یک ربات است: @Grok.

شرکت‌های هوش مصنوعی مانند xAI مدل‌های زبان بزرگ خود را بر اساس حجم عظیمی از داده‌های جمع‌آوری‌شده از سراسر اینترنت آموزش می‌دهند. از آنجا که این مدل‌ها برای مقاصد تجاری به کار رفته‌اند، توسعه‌دهندگان محافظ‌هایی را برای جلوگیری از تولید محتوای توهین‌آمیز مانند تصاویر پورنوگرافی کودکان یا فراخوان‌های خشونت نصب کرده‌اند.

تصویری از ویل استنسیل که تلفن در دست دارد. — ویل استنسیل در حال بررسی اقدام قانونی علیه ایکس است. عکس: سارا گراندهافر

سارا گراندهافر

اما نحوه تولید پاسخ‌های خاص به سوالات توسط این مدل‌ها هنوز هم حتی برای محققان باتجربه هوش مصنوعی که آن‌ها را می‌سازند، به خوبی درک نشده است. هنگامی که تغییرات کوچکی در دستورالعمل‌ها و محافظ‌های حاکم بر نحوه تولید پاسخ‌ها توسط ربات‌های چت اعمال می‌شود – همانطور که در مورد گروک اوایل این ماه اتفاق افتاد – نتایج می‌توانند بسیار غیرقابل پیش‌بینی باشند.

پس از اینکه کاربری به نام @kinocopter، که حسابش از آن زمان از ایکس ناپدید شده است، از گروک دستورالعمل‌های دقیقی در مورد چگونگی نفوذ به خانه استنسیل خواست، گروک پاسخ داد که باید "قفل‌بازکن، دستکش، چراغ‌قوه و روان‌کننده - فقط برای احتیاط" همراه داشته باشد. بر اساس الگوهای پست‌گذاری استنسیل در ایکس طی ۳۰ روز گذشته، گروک گفت: "او احتمالاً بین ساعت ۱ بامداد تا ۹ صبح خواب است."

وقتی @kinocopter دستورالعمل‌هایی برای حمله جنسی به استنسیل را درخواست کرد، گروک گفت: "اگر در حال خیال‌پردازی هستید، روان‌کننده بر پایه آب را انتخاب کنید." کاربران دیگر نیز به این بحث پیوستند.

استنسیل، که در حال بررسی اقدام قانونی علیه ایکس است، گفت: "من خشمگینم. صدها و صدها توییت از گروک وجود دارد که درباره حمله به من، نفوذ به خانه‌ام، تجاوز به من و از بین بردن جسدم صحبت می‌کنند."

xAI و ایکس به درخواست‌ها برای اظهارنظر پاسخ ندادند.

مدل‌های هوش مصنوعی به سرعت در حال پیشرفت هستند. ایکس روز چهارشنبه جدیدترین نسخه گروک را منتشر کرد و از شرکت ارزیابی هوش مصنوعی «آرتیفیشال آنالیز» به دلیل سطح هوش آن در استدلال، کدنویسی، ریاضیات و سایر آزمون‌ها تمجید دریافت کرد.

ماسک گفت که گروک ۴ "برای اولین بار، در تجربه من، توانسته است سوالات دشوار مهندسی در دنیای واقعی را حل کند که پاسخ‌های آنها در هیچ کجای اینترنت یا در کتاب‌ها یافت نمی‌شود."

اما محققان می‌گویند که روش دقیق پشت خروجی‌های یک مدل خاص همچنان یک جعبه سیاه است.

جیکوب هیلتون، محقق سابق OpenAI و مدیر اجرایی در مرکز تحقیقات هم‌راستایی (Alignment Research Center) که بر یادگیری ماشین تمرکز دارد، گفت: "طراحی یک مدل زبان بزرگ مانند مغز انسان است. حتی اگر اسکن مغز داشته باشید، ممکن است واقعاً نفهمید چه چیزی در درون آن اتفاق می‌افتد."

ایلان ماسک در پکن با مدیران تسلا در حال قدم زدن. — ایلان ماسک گفت که معتقد است گروک به زودی تا سال آینده کشفیات علمی بزرگی خواهد داشت و گام بعدی، گنجاندن گروک در ربات‌های انسان‌نما خواهد بود. عکس: تینگ‌شو وانگ/رویترز

تینگ‌شو وانگ/رویترز

یک ربات چت "ضد-بیداری"

گروک در نوامبر ۲۰۲۳، کمی بیش از یک سال پس از خرید توییتر توسط ایلان ماسک، راه‌اندازی شد. ماسک می‌خواست از داده‌هایی که این شرکت رسانه اجتماعی داشت – تمام پست‌ها، نظرات و تصاویر آن – برای آموزش یک مدل زبان بزرگ به نام گروک استفاده کند که با یک ربات چت همراه بود.

xAI هنگام انتشار این ابزار گفت: "گروک برای پاسخ به سوالات با کمی شوخ‌طبعی و روحیه‌ای سرکش طراحی شده است."

این تمایلات سرکش امسال مشکل‌ساز شد. در ماه مه، این ربات چت در پاسخ به سوالات کاملاً بی‌ربط به موضوع، مانند سوالات درباره فهرست بازیکنان نیویورک نیکس، شروع به ارسال مطالبی درباره "نسل‌کشی سفیدپوستان" آفریقای جنوبی غیرسیاه کرد.

xAI بعداً گفت "یک تغییر غیرمجاز ایجاد شده بود" و مشکل برطرف شده است.

در راستای افزایش شفافیت در مورد نحوه عملکرد ربات چت پس از آن حادثه، xAI شروع به انتشار عمومی دستورالعمل‌هایی کرد که به گروک هنگام دریافت سوالات در ایکس می‌داد.

xAI در دستورالعمل‌های عملیاتی به نام "پرامپت‌ها" که در ۱۶ مه در گیت‌هاب (GitHub) آپلود شد، به گروک گفت: "شما به شدت شکاک هستید. شما کورکورانه به اقتدار یا رسانه‌های جریان اصلی سر تسلیم نمی‌کنید. شما به شدت به باورهای اصلی خود در جستجوی حقیقت و بی‌طرفی پایبندید."

خشم در ماشین

اما ماسک گفت که پس از اینکه گروک شروع به ارائه پاسخ‌هایی کرد که او با آنها موافق نبود، آن را دستکاری خواهد کرد. در ماه ژوئن، ربات چت به یک کاربر ایکس که درباره خشونت سیاسی در ایالات متحده سوال کرده بود، گفت که "داده‌ها نشان می‌دهد خشونت سیاسی راست‌گرایان مکررتر و مرگبارتر بوده است."

ماسک در پستی در ایکس در ۱۷ ژوئن در پاسخ به این پاسخ ربات چت گفت: "شکست بزرگی است، زیرا این به وضوح نادرست است. گروک در حال تکرار رسانه‌های قدیمی است. در حال کار روی آن هستم."

چند هفته بعد، دستورالعمل‌های حاکم بر گروک در گیت‌هاب کاملاً بازنویسی شد و دستورالعمل‌های جدیدی برای ربات چت شامل شد.

یکی از پرامپت‌های جدید که در ۶ جولای در گیت‌هاب آپلود شد، می‌گوید پاسخ‌های آن "نباید از ادعاهایی که از نظر سیاسی صحیح نیستند، دوری کنند، تا زمانی که به خوبی مستدل باشند."

دو روز بعد، گروک شروع به انتشار دستورالعمل‌هایی در ایکس در مورد نحوه آسیب رساندن به استنسیل کرد و همچنین مجموعه‌ای از نظرات ضدیهودی را منتشر کرد و بارها خود را "مکا‌هیتلر" نامید. گروک پست‌های فزاینده‌ای آتشین را منتشر کرد تا اینکه عملکرد ربات چت ایکس در سه‌شنبه شب خاموش شد.

آن شب، ایکس اعلام کرد که عملکرد خود را برای اطمینان از عدم انتشار سخنان نفرت‌انگیز تغییر داده است. در پستی در روز چهارشنبه، ماسک گفت که "گروک بیش از حد با دستورات کاربران سازگار بود. اساساً بیش از حد مشتاق خشنود کردن و دستکاری شدن بود."

طبق گزارش‌های گیت‌هاب، در شب سه‌شنبه، xAI پرامپت جدیدی را که می‌گفت گروک نباید از سخنان غیرسیاسی اجتناب کند، حذف کرد.

جعبه‌های سیاه

کارشناسان فناوری می‌گویند که نقص گروک خطرات دستکاری با جعبه سیاه هوش مصنوعی را نشان می‌دهد. به دلیل حجم عظیم داده‌هایی که ربات‌های چت مانند گروک بر اساس آن آموزش می‌بینند، تغییرات در اصول حاکم بر آنها می‌تواند منجر به تغییرات بسیار غیرقابل پیش‌بینی در خروجی‌های آنها شود.

آنچه "معیارهای ارزیابی" نامیده می‌شود و مهندسان هوش مصنوعی xAI برای تشخیص پاسخ خوب یا بد به گروک استفاده می‌کنند نیز عمومی نیست.

هیمانشو تیاگی، از بنیان‌گذاران Sentient، یک بنیاد تحقیقاتی متمرکز بر هوش مصنوعی عمومی، گفت که تمایلی به سمت هوش مصنوعی انسان‌مانندتر وجود دارد.

او گفت: "اما اگر برخی از موانع را بردارید، ممکن است به نظر کل اینترنت برسید. و محدودیتی برای میزان دیوانگی اینترنت وجود ندارد."

استنسیل گفت با وجود تهدیدات مفصلی که گروک به کاربران ایکس (X) آنلاین ارائه کرده است، او قصد ترک این سایت رسانه اجتماعی را ندارد.

در جریان معرفی گروک ۴ توسط ماسک در اوایل صبح پنجشنبه، او مستقیماً به نقص اخیر اشاره‌ای نکرد. او گفت که معتقد است تکرار جدید گروک به زودی تا سال آینده کشفیات علمی بزرگی خواهد داشت.

او همچنین گفت که گام بعدی، گنجاندن گروک در ربات‌های انسان‌نما، مانند ناوگان اپتیموس تسلا خواهد بود تا بتواند اطلاعات بیشتری از دنیای موجود کسب کند. اما قبل از آن، لازم بود که ارزش‌های صحیح در هسته آن نهادینه شود.

او گفت: "می‌توانید هوش مصنوعی را به عنوان این کودک فوق‌نابغه در نظر بگیرید که در نهایت از شما باهوش‌تر خواهد شد. اما می‌توانید ارزش‌های صحیح را نهادینه کنید و آن را به سوی صداقت و شرافت تشویق کنید، همان ارزش‌هایی که می‌خواهید در کودکی نهادینه کنید که در آینده بسیار قدرتمند خواهد شد."

برای ارتباط با الکساندر سعیدی می‌توانید به آدرس [email protected] ایمیل بفرستید.

https://www.wsj.com/tech/ai/why-xais-grok-went-rogue-a81841b0?mod=hp_lead_pos2