MIT Technology Review | Getty
MIT Technology Review | Getty

چگونه معیارهای بهتری برای هوش مصنوعی بسازیم

برای بهبود روش‌های تست و اندازه‌گیری مدل‌های هوش مصنوعی، هوش مصنوعی از روش‌های علوم اجتماعی الهام می‌گیرد.

بودن در میان معیارهای محبوب سیلیکون‌ولی آسان نیست.

سوی بنچ (SWE-Bench) در نوامبر ۲۰۲۴ برای ارزیابی مهارت کدنویسی مدل‌های هوش مصنوعی راه‌اندازی شد. این معیار از بیش از ۲,۰۰۰ مسئله برنامه‌نویسی واقعی که از مخازن عمومی گیت‌هاب ۱۲ پروژه مختلف مبتنی بر پایتون گرفته شده‌اند، استفاده می‌کند.

در ماه‌های پس از راه‌اندازی، سوی بنچ به‌سرعت به یکی از محبوب‌ترین تست‌ها در هوش مصنوعی تبدیل شد. امتیاز سوی بنچ به عنصری اصلی در نسخه‌های بزرگ مدل‌های منتشرشده از سوی OpenAI، Anthropic و گوگل تبدیل شده است—و در خارج از مدل‌های بنیادین، شرکت‌های هوش مصنوعی در رقابت دائمی برای رسیدن به رده‌های بالا هستند. صدر جدول رده‌بندی رقابتی فشرده بین سه تنظیم دقیق مختلف از مدل Claude Sonnet شرکت Anthropic و عامل توسعه‌دهنده Q آمازون است. اتو کد روور (Auto Code Rover) —یکی از اصلاحات مدل کلود— در نوامبر جایگاه دوم را کسب کرد و تنها سه ماه بعد خریداری شد.

با وجود این تب‌وتاب، این ارزیابی دقیقاً نشان‌دهنده اینکه کدام مدل "بهتر" است، نیست. جان یانگ، پژوهشگر تیمی در دانشگاه پرینستون که سوی بنچ را توسعه داد، می‌گوید: «همچنان‌که این معیار برجسته‌تر می‌شود، می‌بینید که مردم واقعاً آن جایگاه برتر را می‌خواهند.» در نتیجه، شرکت‌کنندگان شروع به دستکاری سیستم کرده‌اند — که بسیاری دیگر را به فکر واداشته است که آیا راه بهتری برای اندازه‌گیری واقعی دستاوردهای هوش مصنوعی وجود دارد یا خیر.

توسعه‌دهندگان این عوامل کدنویسی لزوماً به روشی سرراست تقلب نمی‌کنند، اما رویکردهایی را طراحی می‌کنند که بیش از حد با جزئیات معیار سازگار شده‌اند. مجموعه تست اولیه سوی بنچ به برنامه‌های نوشته‌شده به زبان پایتون محدود بود، که به این معنی بود که توسعه‌دهندگان می‌توانستند با آموزش مدل‌های خود به‌طور انحصاری روی کد پایتون، مزیت کسب کنند. یانگ به‌سرعت متوجه شد که مدل‌هایی با امتیاز بالا، وقتی روی زبان‌های برنامه‌نویسی دیگر آزمایش می‌شوند، به‌کلی شکست می‌خورند — این نشان‌دهنده رویکردی به آزمون بود که او آن را "زراندود" توصیف می‌کند.

یانگ می‌گوید: «در نگاه اول زیبا و براق به نظر می‌رسد، اما بعد سعی می‌کنید آن را روی زبان دیگری اجرا کنید و کل سیستم از هم می‌پاشد. در آن نقطه، شما در حال طراحی یک عامل مهندسی نرم‌افزار نیستید، بلکه در حال طراحی برای ساختن یک عامل سوی بنچ هستید، که بسیار کمتر جالب است.»

مسئله سوی بنچ نشانه یک مشکل فراگیرتر —و پیچیده‌تر— در ارزیابی هوش مصنوعی است، و مسئله‌ای که به‌طور فزاینده‌ای بحث‌های داغی را برانگیخته است: معیارهایی که صنعت برای هدایت توسعه استفاده می‌کند، بیشتر و بیشتر از ارزیابی قابلیت‌های واقعی فاصله می‌گیرند، که ارزش اصلی آن‌ها را زیر سوال می‌برد. بدتر اینکه، چندین معیار، به‌ویژه فرانتیرمث (FrontierMath) و چت‌بات آرنا (Chatbot Arena)، اخیراً به‌دلیل عدم شفافیت ادعایی مورد انتقاد شدید قرار گرفته‌اند. با این حال، معیارها همچنان نقش محوری در توسعه مدل‌ها دارند، حتی اگر تعداد کمی از کارشناسان مایل به پذیرش نتایج آن‌ها به‌صورت ظاهری باشند. آندری کارپاتی، هم‌بنیان‌گذار OpenAI، اخیراً این وضعیت را «بحران ارزیابی» توصیف کرد: صنعت روش‌های قابل اعتماد کمتری برای اندازه‌گیری قابلیت‌ها دارد و مسیر مشخصی برای بهبود آن‌ها وجود ندارد.

ونسا پارلی، مدیر تحقیقات در مؤسسه هوش مصنوعی انسان‌محور دانشگاه استنفورد می‌گوید: «از لحاظ تاریخی، معیارها روشی بود که سیستم‌های هوش مصنوعی را ارزیابی می‌کردیم. آیا این همان روشی است که می‌خواهیم در آینده برای ارزیابی سیستم‌ها ادامه دهیم؟ و اگر نه، آن روش چیست؟»

گروهی رو به رشد از دانشگاهیان و پژوهشگران هوش مصنوعی استدلال می‌کنند که پاسخ این است که کوچک‌تر شویم و جاه‌طلبی‌های گسترده را با رویکردی الهام‌گرفته از علوم اجتماعی مبادله کنیم. به‌طور خاص، آن‌ها می‌خواهند بیشتر روی اعتبار آزمون تمرکز کنند؛ در علوم اجتماعی کمی، اعتبار به این اشاره دارد که یک پرسشنامه مشخص چقدر دقیقاً چیزی را که ادعا می‌کند اندازه‌گیری می‌کند — و از آن اساسی‌تر، اینکه آیا آنچه در حال اندازه‌گیری است، تعریف منسجمی دارد. این ممکن است برای معیارهایی که مفاهیم مبهمی مانند "استدلال" یا "دانش علمی" را ارزیابی می‌کنند —و برای توسعه‌دهندگانی که هدفشان دستیابی به هدف بسیار-هیجان‌انگیز هوش عمومی مصنوعی است— مشکل ایجاد کند، اما صنعت را در مسیر مطمئن‌تری قرار خواهد داد تا ارزش مدل‌های فردی را اثبات کند.

ابیگیل جیکوبز، استاد دانشگاه میشیگان و یکی از شخصیت‌های محوری در این تلاش جدید برای اعتبار می‌گوید: «جدی گرفتن اعتبار به معنای این است که از دانشگاهیان، صنعت‌گران یا هر کس دیگری بخواهیم نشان دهند که سیستمشان کاری را که می‌گویند انجام می‌دهد، واقعاً انجام می‌دهد. فکر می‌کنم اگر آن‌ها بخواهند از نشان دادن اینکه می‌توانند از ادعای خود حمایت کنند، شانه خالی کنند، این نشانه ضعف در دنیای هوش مصنوعی است.»

محدودیت‌های تست سنتی

اگر شرکت‌های هوش مصنوعی در واکنش به شکست روزافزون معیارها کند بوده‌اند، بخشی از آن به این دلیل است که رویکرد امتیازدهی به تست برای مدت طولانی بسیار مؤثر بوده است.

یکی از بزرگترین موفقیت‌های اولیه هوش مصنوعی معاصر، چالش ایمیج‌نت (ImageNet) بود، نوعی پیش‌ساز معیارهای امروزی. این پایگاه داده که در سال ۲۰۱۰ به‌عنوان یک چالش باز برای پژوهشگران منتشر شد، حاوی بیش از ۳ میلیون تصویر بود تا سیستم‌های هوش مصنوعی آن‌ها را در ۱۰۰۰ کلاس مختلف دسته‌بندی کنند.

مهم‌تر اینکه، این تست کاملاً مستقل از متدها بود و هر الگوریتم موفقی به‌سرعت اعتبار کسب می‌کرد، صرف‌نظر از نحوه کارکرد آن. هنگامی که الگوریتمی به نام الکس‌نت (AlexNet) در سال ۲۰۱۲ با شکلی غیرمتعارف از آموزش GPU به موفقیت دست یافت، به یکی از نتایج بنیادین هوش مصنوعی مدرن تبدیل شد. کمتر کسی می‌توانست از قبل حدس بزند که شبکه‌های عصبی کانولوشنی الکس‌نت راز بازگشایی تشخیص تصویر خواهند بود — اما پس از اینکه امتیاز خوبی کسب کرد، هیچ‌کس جرأت انکار آن را نداشت. (یکی از توسعه‌دهندگان الکس‌نت، ایلیا سوتسکور، بعدها هم‌بنیان‌گذار OpenAI شد.)

بخش بزرگی از آنچه این چالش را بسیار مؤثر ساخت، این بود که تفاوت عملی کمی بین چالش دسته‌بندی اشیاء ایمیج‌نت و فرآیند واقعی درخواست از رایانه برای شناسایی یک تصویر وجود داشت. حتی اگر در مورد روش‌ها اختلاف‌نظر وجود داشت، هیچ‌کس شک نداشت که مدلی که بالاترین امتیاز را کسب کند، هنگام استقرار در یک سیستم تشخیص تصویر واقعی، مزیت خواهد داشت.

اما در ۱۲ سال گذشته، پژوهشگران هوش مصنوعی همان رویکرد مستقل از متد را به وظایف فزاینده‌ای تعمیم‌پذیرتر اعمال کرده‌اند. سوی بنچ معمولاً به‌عنوان نماینده‌ای برای توانایی کلی‌تر کدنویسی استفاده می‌شود، در حالی که معیارهای آزمون‌مانند دیگر اغلب به جای توانایی استدلال قرار می‌گیرند. این دامنه وسیع، سخت‌گیری در مورد آنچه یک معیار خاص اندازه‌گیری می‌کند را دشوار می‌سازد — که به نوبه خود استفاده مسئولانه از یافته‌ها را دشوار می‌کند.

جایی که مسائل رخ می‌دهند

آنکا روئل، دانشجوی دکترا که تحقیقات خود را روی مسئله معیارها در استنفورد متمرکز کرده است، متقاعد شده است که مشکل ارزیابی نتیجه این حرکت به سمت تعمیم‌پذیری است. روئل می‌گوید: «ما از مدل‌های خاص وظیفه به مدل‌های عمومی‌تر منتقل شده‌ایم. دیگر مسئله یک وظیفه واحد نیست، بلکه مجموعه‌ای از وظایف است، بنابراین ارزیابی سخت‌تر می‌شود.»

مانند جیکوبز از دانشگاه میشیگان، روئل نیز معتقد است که "مسئله اصلی معیارها، اعتبار است، حتی بیشتر از پیاده‌سازی عملی"، و خاطرنشان می‌کند: "این همان جایی است که بسیاری از مسائل رخ می‌دهند." برای وظیفه‌ای به پیچیدگی کدنویسی، مثلاً، تقریباً غیرممکن است که هر سناریوی ممکن را در مجموعه مسئله خود بگنجانید. در نتیجه، سنجش اینکه آیا یک مدل بهتر امتیاز می‌گیرد به دلیل مهارت بیشتر در کدنویسی است یا به دلیل دستکاری مؤثرتر مجموعه مسئله، دشوار است. و با فشار زیادی که بر توسعه‌دهندگان برای کسب امتیازهای رکوردشکن وجود دارد، مقاومت در برابر میانبرها سخت است.

برای توسعه‌دهندگان، امید این است که موفقیت در مجموعه‌ای از معیارهای خاص، منجر به یک مدل به‌طور کلی توانمند شود. اما تکنیک‌های هوش مصنوعی عامل‌محور به این معنی است که یک سیستم هوش مصنوعی واحد می‌تواند شامل مجموعه‌ای پیچیده از مدل‌های مختلف باشد، که ارزیابی اینکه آیا بهبود در یک وظیفه خاص منجر به تعمیم خواهد شد یا خیر را دشوار می‌سازد. سایش کاپور، دانشمند کامپیوتر در پرینستون و منتقد برجسته روش‌های غیراصولی در صنعت هوش مصنوعی می‌گوید: «شما می‌توانید اهرم‌های بسیار بیشتری را دستکاری کنید. وقتی صحبت از عوامل می‌شود، آن‌ها از بهترین روش‌های ارزیابی دست کشیده‌اند.»

در مقاله‌ای در ژوئیه گذشته، کاپور به مسائل خاصی در نحوه رویکرد مدل‌های هوش مصنوعی به معیار وب‌آرنا (WebArena) اشاره کرد، معیاری که در سال ۲۰۲۴ توسط پژوهشگران دانشگاه کارنگی ملون برای آزمایش توانایی یک عامل هوش مصنوعی در پیمایش وب طراحی شد. این معیار شامل بیش از ۸۰۰ وظیفه است که باید روی مجموعه‌ای از وب‌سایت‌های شبیه‌سازی‌شده ردیت (Reddit)، ویکی‌پدیا و غیره انجام شوند. کاپور و تیمش یک هک آشکار در مدل برنده، به نام STeP، شناسایی کردند. STeP شامل دستورالعمل‌های خاصی در مورد نحوه ساختاردهی نشانی‌های وب (URLs) توسط ردیت بود که به مدل‌های STeP اجازه می‌داد مستقیماً به صفحه پروفایل یک کاربر خاص (یک عنصر پرتکرار در وظایف وب‌آرنا) بپرند.

این میانبر دقیقاً تقلب نبود، اما کاپور آن را «سوء‌نمایش جدی از میزان کارایی عامل در صورتی که برای اولین بار وظایف وب‌آرنا را می‌دید» می‌داند. با این حال، از آنجایی که این تکنیک موفقیت‌آمیز بود، یک سیاست مشابه از آن زمان توسط عامل وب اپراتور (Operator) شرکت OpenAI اتخاذ شده است. (نماینده OpenAI در پاسخ به درخواست نظر گفت: «تنظیمات ارزیابی ما برای سنجش میزان توانایی یک عامل در حل وظایف با توجه به برخی دستورالعمل‌ها در مورد ساختارهای وب‌سایت و اجرای وظیفه طراحی شده است. این رویکرد با نحوه استفاده و گزارش نتایج دیگران با وب‌آرنا سازگار است.» STeP به درخواست نظر پاسخ نداد.)

برای برجسته کردن بیشتر مشکل معیارهای هوش مصنوعی، کاپور و تیمی از پژوهشگران اواخر ماه گذشته مقاله‌ای نوشتند که مشکلات قابل توجهی را در چت‌بات آرنا، سیستم ارزیابی جمع‌سپاری محبوب، آشکار کرد. بر اساس این مقاله، جدول رده‌بندی دستکاری می‌شد؛ بسیاری از مدل‌های بنیادین برتر در حال انجام آزمایش‌های خصوصی فاش‌نشده و انتشار انتخابی امتیازات خود بودند.

امروزه، حتی خود ایمیج‌نت، مادر تمام معیارها، نیز قربانی مشکلات اعتبار شده است. مطالعه‌ای در سال ۲۰۲۳ از پژوهشگران دانشگاه واشنگتن و گوگل ریسرچ نشان داد که هنگامی که الگوریتم‌های برنده ایمیج‌نت در برابر شش مجموعه داده دنیای واقعی قرار گرفتند، بهبود معماری «پیشرفت کمی یا هیچ پیشرفتی» را به همراه داشت، که نشان می‌دهد اعتبار خارجی تست به حد خود رسیده است.

کوچکتر شدن

برای کسانی که معتقدند مشکل اصلی اعتبار است، بهترین راه حل بازنگری در اتصال معیارها به وظایف خاص است. همانطور که روئل می‌گوید، توسعه‌دهندگان هوش مصنوعی «باید به این معیارهای سطح بالا متوسل شوند که تقریباً برای مصرف‌کنندگان پایین‌دستی بی‌معنی هستند، زیرا توسعه‌دهندگان معیار دیگر نمی‌توانند وظیفه پایین‌دستی را پیش‌بینی کنند.» پس اگر راهی برای کمک به مصرف‌کنندگان پایین‌دستی برای شناسایی این شکاف وجود داشت، چه می‌شد؟

در نوامبر ۲۰۲۴، روئل یک پروژه رتبه‌بندی عمومی به نام بتربنج (BetterBench) را راه‌اندازی کرد که معیارها را بر اساس ده‌ها معیار مختلف، مانند عمومی بودن مستندات کد، رتبه‌بندی می‌کند. اما اعتبار موضوعی اصلی است، با معیارهای خاصی که طراحان را به شفاف‌سازی اینکه معیار آن‌ها چه قابلیتی را آزمایش می‌کند و چگونه با وظایفی که معیار را تشکیل می‌دهند مرتبط است، به چالش می‌کشند.

روئل می‌گوید: «شما باید یک تفکیک ساختاری از قابلیت‌ها داشته باشید. مهارت‌های واقعی که به آن‌ها اهمیت می‌دهید چیستند و چگونه آن‌ها را به چیزی که قابل اندازه‌گیری باشد، عملی می‌کنید؟»

نتایج شگفت‌انگیز هستند. یکی از معیارهایی که بالاترین امتیاز را کسب کرده است، قدیمی‌ترین آن‌ها نیز هست: محیط یادگیری آرکید (Arcade Learning Environment) یا ALE که در سال ۲۰۱۳ به‌عنوان راهی برای آزمایش توانایی مدل‌ها در یادگیری نحوه بازی کردن کتابخانه‌ای از بازی‌های آتاری ۲۶۰۰ تأسیس شد. یکی از معیارهایی که کمترین امتیاز را کسب کرده، معیار درک زبان چندوظیفه‌ای گسترده (Massive Multitask Language Understanding) یا MMLU است، یک تست پرکاربرد برای مهارت‌های عمومی زبان؛ طبق استانداردهای بتربنج، ارتباط بین سؤالات و مهارت اصلی بیش از حد ضعیف تعریف شده بود.

بتربنج حداقل تا به حال تأثیر چندانی بر شهرت معیارهای خاص نداشته است؛ MMLU هنوز به‌طور گسترده استفاده می‌شود و ALE هنوز در حاشیه است. اما این پروژه در وارد کردن اعتبار به گفتگوی گسترده‌تر در مورد چگونگی رفع اشکالات معیارها موفق بوده است. در آوریل، روئل بی‌سروصدا به یک گروه تحقیقاتی جدید ملحق شد که توسط Hugging Face، دانشگاه ادینبورگ و EleutherAI میزبانی می‌شود، جایی که او ایده‌های خود را در مورد اعتبار و ارزیابی مدل‌های هوش مصنوعی با دیگر شخصیت‌های این حوزه توسعه خواهد داد. (انتظار می‌رود که اعلامیه رسمی اواخر این ماه منتشر شود.)

ایرن سلیمان، رئیس سیاست جهانی در Hugging Face، می‌گوید که این گروه بر روی ساخت معیارهای معتبر تمرکز خواهد کرد که فراتر از اندازه‌گیری قابلیت‌های ساده بروند. سلیمان می‌گوید: «عطش زیادی برای یک معیار خوب و آماده وجود دارد که قبلاً کار می‌کند. بسیاری از ارزیابی‌ها سعی دارند بیش از حد کار انجام دهند.»

به‌طور فزاینده‌ای، به نظر می‌رسد بقیه صنعت نیز با این موضوع موافق هستند. در مقاله‌ای در ماه مارس، پژوهشگرانی از گوگل، مایکروسافت، Anthropic و دیگران چارچوب جدیدی را برای بهبود ارزیابی‌ها مطرح کردند — که اعتبار به‌عنوان اولین گام آن است.

پژوهشگران استدلال می‌کنند: «علم ارزیابی هوش مصنوعی باید از ادعاهای کلی "هوش عمومی" فراتر رود و به سمت اندازه‌گیری‌های خاص‌تر وظیفه و مرتبط با دنیای واقعی پیشرفت حرکت کند.»

اندازه‌گیری چیزهای "لغزنده"

برای کمک به این تغییر، برخی پژوهشگران به ابزارهای علوم اجتماعی نگاه می‌کنند. یک مقاله موقعیتی فوریه استدلال کرد که «ارزیابی سیستم‌های GenAI یک چالش اندازه‌گیری علوم اجتماعی است»، و به‌طور خاص نحوه کاربرد سیستم‌های اعتبارسنجی مورد استفاده در اندازه‌گیری‌های اجتماعی را در معیارهای هوش مصنوعی توضیح داد.

نویسندگان، که عمدتاً توسط بخش تحقیقاتی مایکروسافت استخدام شده‌اند اما دانشگاهیانی از استنفورد و دانشگاه میشیگان نیز به آن‌ها ملحق شده‌اند، به استانداردهایی اشاره می‌کنند که دانشمندان علوم اجتماعی برای اندازه‌گیری مفاهیم بحث‌برانگیزی مانند ایدئولوژی، دموکراسی و سوگیری رسانه‌ای استفاده می‌کنند. این رویه‌ها، اگر در معیارهای هوش مصنوعی به کار روند، می‌توانند راهی برای اندازه‌گیری مفاهیمی مانند "استدلال" و "مهارت ریاضی" بدون افتادن به تعمیم‌های مبهم ارائه دهند.

در ادبیات علوم اجتماعی، به‌ویژه مهم است که معیارها با تعریف دقیقی از مفهوم اندازه‌گیری شده توسط تست آغاز شوند. برای مثال، اگر تست برای اندازه‌گیری میزان دموکراتیک بودن یک جامعه است، ابتدا باید تعریفی برای "جامعه دموکراتیک" ایجاد کند و سپس سؤالاتی را که با آن تعریف مرتبط هستند، تدوین کند.

برای اعمال این روش به معیاری مانند سوی بنچ، طراحان باید رویکرد کلاسیک یادگیری ماشین را کنار بگذارند که شامل جمع‌آوری مجموعه داده بزرگی از مسائل برنامه‌نویسی و تمرکز بیشتری بر روی وظایف خاص‌تر و بررسی توسط متخصصان باشند.

این یک عنصر مهم است که باید در مکان اصلی خود حفظ شود.

جیکوبز، یکی از نویسندگان مقاله علوم اجتماعی، می‌گوید: «در علوم اجتماعی، این مفهوم کاملاً رایج است که تست‌های خوبی بسازید و سپس از متخصصان بخواهید در مورد آن‌ها قضاوت کنند.» رویکرد او به معیارهای هوش مصنوعی بر این ایده متمرکز است که توسعه‌دهندگان باید اعتبار داخلی و خارجی معیارهای خود را نشان دهند. اعتبار داخلی به این معنی است که معیار به خودی خود منسجم است؛ به‌عنوان مثال، آیا سوالات مربوط به یک مفهوم خاص با هم همبستگی دارند؟ اعتبار خارجی به این معنی است که معیار آنچه را که ادعا می‌کند در دنیای واقعی اندازه‌گیری می‌کند؛ به عنوان مثال، آیا نتایج یک تست کدنویسی با عملکرد واقعی مدل در یک محیط عملی همبستگی دارد؟

این چیزی است که بیشتر معیارهای هوش مصنوعی در حال حاضر آن را ندارند. جیکوبز می‌گوید: «ما معیارهایی داریم که از نظر داخلی معتبر نیستند و معیارهایی داریم که از نظر خارجی معتبر نیستند، و به نظر من، این یک بحران برای صنعت است.»

یکی از دلایلی که بسیاری از معیارهای موجود هوش مصنوعی از این اعتبارها برخوردار نیستند، این است که آن‌ها بر اساس رویکرد داده‌محور سنتی توسعه یافته‌اند: جمع‌آوری مجموعه بزرگی از داده‌ها و طراحی تستی که با آن‌ها کار کند. همانطور که مدل‌ها بهتر می‌شوند، این رویکرد منجر به مشکلات سازگاری بیش از حد (overfitting) می‌شود، جایی که مدل‌ها به‌طور ناخواسته برای مجموعه داده خاصی که روی آن آزمایش می‌شوند، بهینه می‌شوند، نه برای توانایی عمومی که قرار است اندازه‌گیری شود. راه‌حل الهام‌گرفته از علوم اجتماعی این است که با تعریف دقیق مفهوم آغاز کرده و سپس یک تست معتبر برای اندازه‌گیری آن بسازید.

جیکوبز خاطرنشان می‌کند که این روش می‌تواند به حل مسائل دیگر در زمینه ارزیابی کمک کند، مانند مشکل مداوم استفاده از پاسخ‌های تولیدشده توسط مدل‌های هوش مصنوعی در مجموعه داده‌های آموزشی، که منجر به "تباهی مدل" می‌شود. اگر معیارها کمتر به مجموعه‌های داده خاص وابسته باشند، این مشکل کمتر می‌شود.

انجام آزمایش‌ها

انتقال به معیارهای الهام‌گرفته از علوم اجتماعی می‌تواند برای شرکت‌های هوش مصنوعی که مشتاق به انتشار نتایج تست هستند، وقت‌گیر باشد. این نیازمند تخصص در طراحی تست، آمار و روان‌سنجی است، و همچنین می‌تواند شامل ساعت‌ها کار دستی برای بررسی پاسخ‌های مدل باشد.

یانگ از پرینستون که سوی بنچ را توسعه داد، می‌گوید: «این نیازمند سرمایه‌گذاری بزرگی است، چون تست‌های معتبر واقعی را نمی‌توان به راحتی ساخت.»

اما این دقیقاً همان چیزی است که گروه روئل در Hugging Face بر روی آن کار خواهد کرد. همانطور که او توضیح می‌دهد، این پروژه بر روی ساخت «آزمایش‌هایی برای مدل‌ها» متمرکز خواهد شد که بر اساس چارچوب علوم اجتماعی برای اعتبار ساخته شده‌اند. سلیمان از Hugging Face می‌گوید: «این فراتر از جمع‌آوری مجموعه داده‌ها و پرسیدن سوالات می‌رود و واقعاً به رویکردهای تجربی نگاه می‌کند.»

اگرچه این گروه هنوز در مراحل اولیه کار خود قرار دارد، اما این رویکرد می‌تواند به ایجاد معیارهای قابل اعتمادتری منجر شود که در برابر دستکاری مقاوم‌تر بوده و تصویر دقیق‌تری از قابلیت‌های واقعی مدل‌ها ارائه می‌دهند. این می‌تواند به صنعت کمک کند تا از "بحران ارزیابی" کارپاتی عبور کرده و به سمت توسعه هوش مصنوعی با شواهد قوی‌تر و معتبرتر پیش برود.

جیکوبز می‌گوید: «این فقط در مورد امتیازدهی بهتر نیست. این در مورد درک واقعی این است که مدل‌های ما چه کاری می‌توانند انجام دهند و چه کاری نمی‌توانند.»