ما اخلال‌گران جدید در ماشین هوش مصنوعی هستیم

یکی از خویشاوندانم هنگام کار در خط کمک‌رسانی بهداشتی در طول همه‌گیری کووید، داستان‌های عجیبی شنید. شغل او کمک به تماس‌گیرندگان برای انجام تست‌های سریع جریان جانبی بود که میلیون‌ها بار در دوران قرنزیه استفاده می‌شدند. اما برخی تماس‌گیرندگان به وضوح از روند کار گیج شده بودند. یکی از آن‌ها پرسید: «خب، مایع داخل لوله را نوشیدم. حالا چه کار کنم؟»

این سردرگمی کاربر ممکن است نمونه‌ای افراطی از یک مشکل تکنولوژیکی رایج باشد: نحوه استفاده افراد عادی از یک محصول یا خدمت در دنیای واقعی ممکن است به شدت از نیات طراحان در آزمایشگاه منحرف شود.

گاهی این سوءاستفاده می‌تواند عمدی باشد، چه برای بهتر شدن و چه برای بدتر شدن. به عنوان مثال، سازمان کمپینی "گزارشگران بدون مرز" تلاش کرده تا آزادی بیان را در چندین کشور استبدادی با پنهان کردن محتوای ممنوعه در سرور بازی ویدیویی ماینکرافت (Minecraft) محافظت کند. از سوی دیگر، مجرمان از چاپگرهای سه‌بعدی خانگی استفاده کرده‌اند تا سلاح‌های غیرقابل ردیابی تولید کنند. با این حال، اغلب سوءاستفاده‌ها ناخواسته هستند، مانند مورد تست‌های کووید. می‌توان آن را مشکل سوءاستفاده ناخواسته یا به اختصار "imp" نامید. اخلال‌گران جدید در ماشین‌ها ممکن است همان "imps" در چت‌بات‌ها باشند.

چت‌بات‌های عمومی، مانند چت‌جی‌پی‌تی (ChatGPT)، را در نظر بگیرید که ۱۷ درصد آمریکایی‌ها حداقل یک بار در ماه از آن‌ها استفاده می‌کنند تا خود را در مورد نگرانی‌های سلامتی‌شان تشخیص دهند. این چت‌بات‌ها قابلیت‌های تکنولوژیکی شگفت‌انگیزی دارند که چند سال پیش جادویی به نظر می‌رسیدند. بر اساس آزمایش‌های مختلف، بهترین مدل‌ها اکنون می‌توانند از نظر دانش بالینی، طبقه‌بندی، خلاصه‌سازی متن و پاسخ به سؤالات بیمار با پزشکان انسانی برابری کنند. به عنوان مثال، دو سال پیش، مادری در بریتانیا با موفقیت از چت‌جی‌پی‌تی استفاده کرد تا سندروم طناب نخاعی محدود (Tethered cord syndrome) را (مرتبط با اسپینا بیفیدا - Spina bifida) در پسرش که توسط ۱۷ پزشک تشخیص داده نشده بود، شناسایی کند.

این موضوع این چشم‌انداز را به وجود می‌آورد که این چت‌بات‌ها روزی می‌توانند به "در ورودی" جدید برای ارائه مراقبت‌های بهداشتی تبدیل شوند و دسترسی را با هزینه کمتر بهبود بخشند. این هفته، وس استریتینگ، وزیر بهداشت بریتانیا، وعده داد که برنامه NHS را با استفاده از هوش مصنوعی ارتقا دهد تا "پزشکی در جیب شما برای راهنمایی شما در مراقبت" فراهم کند. اما بهترین راه‌های استفاده از آن‌ها، با رایج‌ترین روش‌های استفاده از آن‌ها یکی نیست. مطالعه اخیر به رهبری مؤسسه اینترنت آکسفورد برخی نقص‌های نگران‌کننده را برجسته کرده است، به طوری که کاربران در استفاده مؤثر از آن‌ها دچار مشکل هستند.

محققان ۱۲۹۸ شرکت‌کننده را در یک کارآزمایی تصادفی و کنترل‌شده ثبت‌نام کردند تا بررسی کنند که آن‌ها چقدر می‌توانند از چت‌بات‌ها برای پاسخگویی به ۱۰ سناریوی پزشکی، از جمله سردردهای شدید، شکستگی استخوان‌ها و ذات‌الریه، استفاده کنند. از شرکت‌کنندگان خواسته شد تا وضعیت سلامتی را شناسایی کرده و یک روش درمانی توصیه شده را بیابند. سه چت‌بات استفاده شد: GPT-4o از OpenAI، لاما ۳ (Llama 3) از متا و کامند آر+ (Command R+) از کوهیر (Cohere) که همگی ویژگی‌های کمی متفاوت داشتند.

هنگامی که سناریوهای آزمایشی مستقیماً در مدل‌های هوش مصنوعی وارد شدند، چت‌بات‌ها در ۹۴.۹ درصد موارد به درستی شرایط را شناسایی کردند. با این حال، شرکت‌کنندگان بسیار بدتر عمل کردند: آن‌ها اطلاعات ناقصی ارائه دادند و چت‌بات‌ها اغلب درخواست‌های آن‌ها را اشتباه تفسیر کردند که منجر به کاهش نرخ موفقیت به تنها ۳۴.۵ درصد شد. قابلیت‌های تکنولوژیکی این مدل‌ها تغییر نکرد، اما ورودی‌های انسانی تغییر کردند و به نتایج بسیار متفاوتی منجر شد. بدتر از آن، شرکت‌کنندگان آزمایشی حتی از گروه کنترل نیز عقب ماندند، گروهی که به چت‌بات‌ها دسترسی نداشتند اما به جای آن از موتورهای جستجوی معمولی استفاده کردند.

نتایج چنین مطالعاتی به این معنی نیست که باید استفاده از چت‌بات‌ها برای مشاوره بهداشتی را متوقف کنیم. اما نشان می‌دهد که طراحان باید توجه بسیار بیشتری به نحوه استفاده افراد عادی از خدمات خود داشته باشند. یکی از بنیان‌گذاران شرکت‌های هوش مصنوعی به من می‌گوید: «مهندسان تمایل دارند فکر کنند که مردم از فناوری به اشتباه استفاده می‌کنند. بنابراین هر نقص عملکرد کاربر، تقصیر کاربر است. اما تفکر درباره مهارت‌های تکنولوژیکی کاربر برای طراحی بنیادی است.» این امر به ویژه در مورد کاربرانی که به دنبال مشاوره پزشکی هستند، صدق می‌کند، بسیاری از آن‌ها ممکن است افراد ناامید، بیمار یا سالخورده‌ای باشند که علائم زوال عقل را نشان می‌دهند.

چت‌بات‌های تخصصی‌تر مراقبت‌های بهداشتی ممکن است کمک کنند. با این حال، مطالعه اخیر دانشگاه استنفورد نشان داد که برخی از چت‌بات‌های درمانی پرکاربرد که به چالش‌های سلامت روان کمک می‌کنند، می‌توانند "سوگیری‌ها و شکست‌هایی را معرفی کنند که می‌تواند منجر به عواقب خطرناک شود." محققان پیشنهاد می‌کنند که باید موانع محافظتی بیشتری برای اصلاح درخواست‌های کاربر، درخواست فعالانه اطلاعات برای هدایت تعامل و برقراری ارتباط واضح‌تر گنجانده شود.

شرکت‌های فناوری و ارائه‌دهندگان مراقبت‌های بهداشتی نیز باید آزمایش‌های کاربری بسیار بیشتری را در شرایط دنیای واقعی انجام دهند تا اطمینان حاصل کنند که مدل‌هایشان به درستی استفاده می‌شوند. توسعه فناوری‌های قدرتمند یک چیز است؛ یادگیری نحوه استقرار مؤثر آن‌ها کاملاً چیز دیگری است. مراقب "imps" باشید.

[email protected]

https://www.ft.com/content/aaa57d4b-fee6-4109-87ac-9222d706fe07