
یکی از خویشاوندانم هنگام کار در خط کمکرسانی بهداشتی در طول همهگیری کووید، داستانهای عجیبی شنید. شغل او کمک به تماسگیرندگان برای انجام تستهای سریع جریان جانبی بود که میلیونها بار در دوران قرنزیه استفاده میشدند. اما برخی تماسگیرندگان به وضوح از روند کار گیج شده بودند. یکی از آنها پرسید: «خب، مایع داخل لوله را نوشیدم. حالا چه کار کنم؟»
این سردرگمی کاربر ممکن است نمونهای افراطی از یک مشکل تکنولوژیکی رایج باشد: نحوه استفاده افراد عادی از یک محصول یا خدمت در دنیای واقعی ممکن است به شدت از نیات طراحان در آزمایشگاه منحرف شود.
گاهی این سوءاستفاده میتواند عمدی باشد، چه برای بهتر شدن و چه برای بدتر شدن. به عنوان مثال، سازمان کمپینی "گزارشگران بدون مرز" تلاش کرده تا آزادی بیان را در چندین کشور استبدادی با پنهان کردن محتوای ممنوعه در سرور بازی ویدیویی ماینکرافت (Minecraft) محافظت کند. از سوی دیگر، مجرمان از چاپگرهای سهبعدی خانگی استفاده کردهاند تا سلاحهای غیرقابل ردیابی تولید کنند. با این حال، اغلب سوءاستفادهها ناخواسته هستند، مانند مورد تستهای کووید. میتوان آن را مشکل سوءاستفاده ناخواسته یا به اختصار "imp" نامید. اخلالگران جدید در ماشینها ممکن است همان "imps" در چتباتها باشند.
چتباتهای عمومی، مانند چتجیپیتی (ChatGPT)، را در نظر بگیرید که ۱۷ درصد آمریکاییها حداقل یک بار در ماه از آنها استفاده میکنند تا خود را در مورد نگرانیهای سلامتیشان تشخیص دهند. این چتباتها قابلیتهای تکنولوژیکی شگفتانگیزی دارند که چند سال پیش جادویی به نظر میرسیدند. بر اساس آزمایشهای مختلف، بهترین مدلها اکنون میتوانند از نظر دانش بالینی، طبقهبندی، خلاصهسازی متن و پاسخ به سؤالات بیمار با پزشکان انسانی برابری کنند. به عنوان مثال، دو سال پیش، مادری در بریتانیا با موفقیت از چتجیپیتی استفاده کرد تا سندروم طناب نخاعی محدود (Tethered cord syndrome) را (مرتبط با اسپینا بیفیدا - Spina bifida) در پسرش که توسط ۱۷ پزشک تشخیص داده نشده بود، شناسایی کند.
این موضوع این چشمانداز را به وجود میآورد که این چتباتها روزی میتوانند به "در ورودی" جدید برای ارائه مراقبتهای بهداشتی تبدیل شوند و دسترسی را با هزینه کمتر بهبود بخشند. این هفته، وس استریتینگ، وزیر بهداشت بریتانیا، وعده داد که برنامه NHS را با استفاده از هوش مصنوعی ارتقا دهد تا "پزشکی در جیب شما برای راهنمایی شما در مراقبت" فراهم کند. اما بهترین راههای استفاده از آنها، با رایجترین روشهای استفاده از آنها یکی نیست. مطالعه اخیر به رهبری مؤسسه اینترنت آکسفورد برخی نقصهای نگرانکننده را برجسته کرده است، به طوری که کاربران در استفاده مؤثر از آنها دچار مشکل هستند.
محققان ۱۲۹۸ شرکتکننده را در یک کارآزمایی تصادفی و کنترلشده ثبتنام کردند تا بررسی کنند که آنها چقدر میتوانند از چتباتها برای پاسخگویی به ۱۰ سناریوی پزشکی، از جمله سردردهای شدید، شکستگی استخوانها و ذاتالریه، استفاده کنند. از شرکتکنندگان خواسته شد تا وضعیت سلامتی را شناسایی کرده و یک روش درمانی توصیه شده را بیابند. سه چتبات استفاده شد: GPT-4o از OpenAI، لاما ۳ (Llama 3) از متا و کامند آر+ (Command R+) از کوهیر (Cohere) که همگی ویژگیهای کمی متفاوت داشتند.
هنگامی که سناریوهای آزمایشی مستقیماً در مدلهای هوش مصنوعی وارد شدند، چتباتها در ۹۴.۹ درصد موارد به درستی شرایط را شناسایی کردند. با این حال، شرکتکنندگان بسیار بدتر عمل کردند: آنها اطلاعات ناقصی ارائه دادند و چتباتها اغلب درخواستهای آنها را اشتباه تفسیر کردند که منجر به کاهش نرخ موفقیت به تنها ۳۴.۵ درصد شد. قابلیتهای تکنولوژیکی این مدلها تغییر نکرد، اما ورودیهای انسانی تغییر کردند و به نتایج بسیار متفاوتی منجر شد. بدتر از آن، شرکتکنندگان آزمایشی حتی از گروه کنترل نیز عقب ماندند، گروهی که به چتباتها دسترسی نداشتند اما به جای آن از موتورهای جستجوی معمولی استفاده کردند.
نتایج چنین مطالعاتی به این معنی نیست که باید استفاده از چتباتها برای مشاوره بهداشتی را متوقف کنیم. اما نشان میدهد که طراحان باید توجه بسیار بیشتری به نحوه استفاده افراد عادی از خدمات خود داشته باشند. یکی از بنیانگذاران شرکتهای هوش مصنوعی به من میگوید: «مهندسان تمایل دارند فکر کنند که مردم از فناوری به اشتباه استفاده میکنند. بنابراین هر نقص عملکرد کاربر، تقصیر کاربر است. اما تفکر درباره مهارتهای تکنولوژیکی کاربر برای طراحی بنیادی است.» این امر به ویژه در مورد کاربرانی که به دنبال مشاوره پزشکی هستند، صدق میکند، بسیاری از آنها ممکن است افراد ناامید، بیمار یا سالخوردهای باشند که علائم زوال عقل را نشان میدهند.
چتباتهای تخصصیتر مراقبتهای بهداشتی ممکن است کمک کنند. با این حال، مطالعه اخیر دانشگاه استنفورد نشان داد که برخی از چتباتهای درمانی پرکاربرد که به چالشهای سلامت روان کمک میکنند، میتوانند "سوگیریها و شکستهایی را معرفی کنند که میتواند منجر به عواقب خطرناک شود." محققان پیشنهاد میکنند که باید موانع محافظتی بیشتری برای اصلاح درخواستهای کاربر، درخواست فعالانه اطلاعات برای هدایت تعامل و برقراری ارتباط واضحتر گنجانده شود.
شرکتهای فناوری و ارائهدهندگان مراقبتهای بهداشتی نیز باید آزمایشهای کاربری بسیار بیشتری را در شرایط دنیای واقعی انجام دهند تا اطمینان حاصل کنند که مدلهایشان به درستی استفاده میشوند. توسعه فناوریهای قدرتمند یک چیز است؛ یادگیری نحوه استقرار مؤثر آنها کاملاً چیز دیگری است. مراقب "imps" باشید.