بودن در میان معیارهای محبوب سیلیکونولی آسان نیست.
سوی بنچ (SWE-Bench) در نوامبر ۲۰۲۴ برای ارزیابی مهارت کدنویسی مدلهای هوش مصنوعی راهاندازی شد. این معیار از بیش از ۲,۰۰۰ مسئله برنامهنویسی واقعی که از مخازن عمومی گیتهاب ۱۲ پروژه مختلف مبتنی بر پایتون گرفته شدهاند، استفاده میکند.
در ماههای پس از راهاندازی، سوی بنچ بهسرعت به یکی از محبوبترین تستها در هوش مصنوعی تبدیل شد. امتیاز سوی بنچ به عنصری اصلی در نسخههای بزرگ مدلهای منتشرشده از سوی OpenAI، Anthropic و گوگل تبدیل شده است—و در خارج از مدلهای بنیادین، شرکتهای هوش مصنوعی در رقابت دائمی برای رسیدن به ردههای بالا هستند. صدر جدول ردهبندی رقابتی فشرده بین سه تنظیم دقیق مختلف از مدل Claude Sonnet شرکت Anthropic و عامل توسعهدهنده Q آمازون است. اتو کد روور (Auto Code Rover) —یکی از اصلاحات مدل کلود— در نوامبر جایگاه دوم را کسب کرد و تنها سه ماه بعد خریداری شد.
با وجود این تبوتاب، این ارزیابی دقیقاً نشاندهنده اینکه کدام مدل "بهتر" است، نیست. جان یانگ، پژوهشگر تیمی در دانشگاه پرینستون که سوی بنچ را توسعه داد، میگوید: «همچنانکه این معیار برجستهتر میشود، میبینید که مردم واقعاً آن جایگاه برتر را میخواهند.» در نتیجه، شرکتکنندگان شروع به دستکاری سیستم کردهاند — که بسیاری دیگر را به فکر واداشته است که آیا راه بهتری برای اندازهگیری واقعی دستاوردهای هوش مصنوعی وجود دارد یا خیر.
توسعهدهندگان این عوامل کدنویسی لزوماً به روشی سرراست تقلب نمیکنند، اما رویکردهایی را طراحی میکنند که بیش از حد با جزئیات معیار سازگار شدهاند. مجموعه تست اولیه سوی بنچ به برنامههای نوشتهشده به زبان پایتون محدود بود، که به این معنی بود که توسعهدهندگان میتوانستند با آموزش مدلهای خود بهطور انحصاری روی کد پایتون، مزیت کسب کنند. یانگ بهسرعت متوجه شد که مدلهایی با امتیاز بالا، وقتی روی زبانهای برنامهنویسی دیگر آزمایش میشوند، بهکلی شکست میخورند — این نشاندهنده رویکردی به آزمون بود که او آن را "زراندود" توصیف میکند.
یانگ میگوید: «در نگاه اول زیبا و براق به نظر میرسد، اما بعد سعی میکنید آن را روی زبان دیگری اجرا کنید و کل سیستم از هم میپاشد. در آن نقطه، شما در حال طراحی یک عامل مهندسی نرمافزار نیستید، بلکه در حال طراحی برای ساختن یک عامل سوی بنچ هستید، که بسیار کمتر جالب است.»
مسئله سوی بنچ نشانه یک مشکل فراگیرتر —و پیچیدهتر— در ارزیابی هوش مصنوعی است، و مسئلهای که بهطور فزایندهای بحثهای داغی را برانگیخته است: معیارهایی که صنعت برای هدایت توسعه استفاده میکند، بیشتر و بیشتر از ارزیابی قابلیتهای واقعی فاصله میگیرند، که ارزش اصلی آنها را زیر سوال میبرد. بدتر اینکه، چندین معیار، بهویژه فرانتیرمث (FrontierMath) و چتبات آرنا (Chatbot Arena)، اخیراً بهدلیل عدم شفافیت ادعایی مورد انتقاد شدید قرار گرفتهاند. با این حال، معیارها همچنان نقش محوری در توسعه مدلها دارند، حتی اگر تعداد کمی از کارشناسان مایل به پذیرش نتایج آنها بهصورت ظاهری باشند. آندری کارپاتی، همبنیانگذار OpenAI، اخیراً این وضعیت را «بحران ارزیابی» توصیف کرد: صنعت روشهای قابل اعتماد کمتری برای اندازهگیری قابلیتها دارد و مسیر مشخصی برای بهبود آنها وجود ندارد.
ونسا پارلی، مدیر تحقیقات در مؤسسه هوش مصنوعی انسانمحور دانشگاه استنفورد میگوید: «از لحاظ تاریخی، معیارها روشی بود که سیستمهای هوش مصنوعی را ارزیابی میکردیم. آیا این همان روشی است که میخواهیم در آینده برای ارزیابی سیستمها ادامه دهیم؟ و اگر نه، آن روش چیست؟»
گروهی رو به رشد از دانشگاهیان و پژوهشگران هوش مصنوعی استدلال میکنند که پاسخ این است که کوچکتر شویم و جاهطلبیهای گسترده را با رویکردی الهامگرفته از علوم اجتماعی مبادله کنیم. بهطور خاص، آنها میخواهند بیشتر روی اعتبار آزمون تمرکز کنند؛ در علوم اجتماعی کمی، اعتبار به این اشاره دارد که یک پرسشنامه مشخص چقدر دقیقاً چیزی را که ادعا میکند اندازهگیری میکند — و از آن اساسیتر، اینکه آیا آنچه در حال اندازهگیری است، تعریف منسجمی دارد. این ممکن است برای معیارهایی که مفاهیم مبهمی مانند "استدلال" یا "دانش علمی" را ارزیابی میکنند —و برای توسعهدهندگانی که هدفشان دستیابی به هدف بسیار-هیجانانگیز هوش عمومی مصنوعی است— مشکل ایجاد کند، اما صنعت را در مسیر مطمئنتری قرار خواهد داد تا ارزش مدلهای فردی را اثبات کند.
ابیگیل جیکوبز، استاد دانشگاه میشیگان و یکی از شخصیتهای محوری در این تلاش جدید برای اعتبار میگوید: «جدی گرفتن اعتبار به معنای این است که از دانشگاهیان، صنعتگران یا هر کس دیگری بخواهیم نشان دهند که سیستمشان کاری را که میگویند انجام میدهد، واقعاً انجام میدهد. فکر میکنم اگر آنها بخواهند از نشان دادن اینکه میتوانند از ادعای خود حمایت کنند، شانه خالی کنند، این نشانه ضعف در دنیای هوش مصنوعی است.»
محدودیتهای تست سنتی
اگر شرکتهای هوش مصنوعی در واکنش به شکست روزافزون معیارها کند بودهاند، بخشی از آن به این دلیل است که رویکرد امتیازدهی به تست برای مدت طولانی بسیار مؤثر بوده است.
یکی از بزرگترین موفقیتهای اولیه هوش مصنوعی معاصر، چالش ایمیجنت (ImageNet) بود، نوعی پیشساز معیارهای امروزی. این پایگاه داده که در سال ۲۰۱۰ بهعنوان یک چالش باز برای پژوهشگران منتشر شد، حاوی بیش از ۳ میلیون تصویر بود تا سیستمهای هوش مصنوعی آنها را در ۱۰۰۰ کلاس مختلف دستهبندی کنند.
مهمتر اینکه، این تست کاملاً مستقل از متدها بود و هر الگوریتم موفقی بهسرعت اعتبار کسب میکرد، صرفنظر از نحوه کارکرد آن. هنگامی که الگوریتمی به نام الکسنت (AlexNet) در سال ۲۰۱۲ با شکلی غیرمتعارف از آموزش GPU به موفقیت دست یافت، به یکی از نتایج بنیادین هوش مصنوعی مدرن تبدیل شد. کمتر کسی میتوانست از قبل حدس بزند که شبکههای عصبی کانولوشنی الکسنت راز بازگشایی تشخیص تصویر خواهند بود — اما پس از اینکه امتیاز خوبی کسب کرد، هیچکس جرأت انکار آن را نداشت. (یکی از توسعهدهندگان الکسنت، ایلیا سوتسکور، بعدها همبنیانگذار OpenAI شد.)
بخش بزرگی از آنچه این چالش را بسیار مؤثر ساخت، این بود که تفاوت عملی کمی بین چالش دستهبندی اشیاء ایمیجنت و فرآیند واقعی درخواست از رایانه برای شناسایی یک تصویر وجود داشت. حتی اگر در مورد روشها اختلافنظر وجود داشت، هیچکس شک نداشت که مدلی که بالاترین امتیاز را کسب کند، هنگام استقرار در یک سیستم تشخیص تصویر واقعی، مزیت خواهد داشت.
اما در ۱۲ سال گذشته، پژوهشگران هوش مصنوعی همان رویکرد مستقل از متد را به وظایف فزایندهای تعمیمپذیرتر اعمال کردهاند. سوی بنچ معمولاً بهعنوان نمایندهای برای توانایی کلیتر کدنویسی استفاده میشود، در حالی که معیارهای آزمونمانند دیگر اغلب به جای توانایی استدلال قرار میگیرند. این دامنه وسیع، سختگیری در مورد آنچه یک معیار خاص اندازهگیری میکند را دشوار میسازد — که به نوبه خود استفاده مسئولانه از یافتهها را دشوار میکند.
جایی که مسائل رخ میدهند
آنکا روئل، دانشجوی دکترا که تحقیقات خود را روی مسئله معیارها در استنفورد متمرکز کرده است، متقاعد شده است که مشکل ارزیابی نتیجه این حرکت به سمت تعمیمپذیری است. روئل میگوید: «ما از مدلهای خاص وظیفه به مدلهای عمومیتر منتقل شدهایم. دیگر مسئله یک وظیفه واحد نیست، بلکه مجموعهای از وظایف است، بنابراین ارزیابی سختتر میشود.»
مانند جیکوبز از دانشگاه میشیگان، روئل نیز معتقد است که "مسئله اصلی معیارها، اعتبار است، حتی بیشتر از پیادهسازی عملی"، و خاطرنشان میکند: "این همان جایی است که بسیاری از مسائل رخ میدهند." برای وظیفهای به پیچیدگی کدنویسی، مثلاً، تقریباً غیرممکن است که هر سناریوی ممکن را در مجموعه مسئله خود بگنجانید. در نتیجه، سنجش اینکه آیا یک مدل بهتر امتیاز میگیرد به دلیل مهارت بیشتر در کدنویسی است یا به دلیل دستکاری مؤثرتر مجموعه مسئله، دشوار است. و با فشار زیادی که بر توسعهدهندگان برای کسب امتیازهای رکوردشکن وجود دارد، مقاومت در برابر میانبرها سخت است.
برای توسعهدهندگان، امید این است که موفقیت در مجموعهای از معیارهای خاص، منجر به یک مدل بهطور کلی توانمند شود. اما تکنیکهای هوش مصنوعی عاملمحور به این معنی است که یک سیستم هوش مصنوعی واحد میتواند شامل مجموعهای پیچیده از مدلهای مختلف باشد، که ارزیابی اینکه آیا بهبود در یک وظیفه خاص منجر به تعمیم خواهد شد یا خیر را دشوار میسازد. سایش کاپور، دانشمند کامپیوتر در پرینستون و منتقد برجسته روشهای غیراصولی در صنعت هوش مصنوعی میگوید: «شما میتوانید اهرمهای بسیار بیشتری را دستکاری کنید. وقتی صحبت از عوامل میشود، آنها از بهترین روشهای ارزیابی دست کشیدهاند.»
در مقالهای در ژوئیه گذشته، کاپور به مسائل خاصی در نحوه رویکرد مدلهای هوش مصنوعی به معیار وبآرنا (WebArena) اشاره کرد، معیاری که در سال ۲۰۲۴ توسط پژوهشگران دانشگاه کارنگی ملون برای آزمایش توانایی یک عامل هوش مصنوعی در پیمایش وب طراحی شد. این معیار شامل بیش از ۸۰۰ وظیفه است که باید روی مجموعهای از وبسایتهای شبیهسازیشده ردیت (Reddit)، ویکیپدیا و غیره انجام شوند. کاپور و تیمش یک هک آشکار در مدل برنده، به نام STeP، شناسایی کردند. STeP شامل دستورالعملهای خاصی در مورد نحوه ساختاردهی نشانیهای وب (URLs) توسط ردیت بود که به مدلهای STeP اجازه میداد مستقیماً به صفحه پروفایل یک کاربر خاص (یک عنصر پرتکرار در وظایف وبآرنا) بپرند.
این میانبر دقیقاً تقلب نبود، اما کاپور آن را «سوءنمایش جدی از میزان کارایی عامل در صورتی که برای اولین بار وظایف وبآرنا را میدید» میداند. با این حال، از آنجایی که این تکنیک موفقیتآمیز بود، یک سیاست مشابه از آن زمان توسط عامل وب اپراتور (Operator) شرکت OpenAI اتخاذ شده است. (نماینده OpenAI در پاسخ به درخواست نظر گفت: «تنظیمات ارزیابی ما برای سنجش میزان توانایی یک عامل در حل وظایف با توجه به برخی دستورالعملها در مورد ساختارهای وبسایت و اجرای وظیفه طراحی شده است. این رویکرد با نحوه استفاده و گزارش نتایج دیگران با وبآرنا سازگار است.» STeP به درخواست نظر پاسخ نداد.)
برای برجسته کردن بیشتر مشکل معیارهای هوش مصنوعی، کاپور و تیمی از پژوهشگران اواخر ماه گذشته مقالهای نوشتند که مشکلات قابل توجهی را در چتبات آرنا، سیستم ارزیابی جمعسپاری محبوب، آشکار کرد. بر اساس این مقاله، جدول ردهبندی دستکاری میشد؛ بسیاری از مدلهای بنیادین برتر در حال انجام آزمایشهای خصوصی فاشنشده و انتشار انتخابی امتیازات خود بودند.
امروزه، حتی خود ایمیجنت، مادر تمام معیارها، نیز قربانی مشکلات اعتبار شده است. مطالعهای در سال ۲۰۲۳ از پژوهشگران دانشگاه واشنگتن و گوگل ریسرچ نشان داد که هنگامی که الگوریتمهای برنده ایمیجنت در برابر شش مجموعه داده دنیای واقعی قرار گرفتند، بهبود معماری «پیشرفت کمی یا هیچ پیشرفتی» را به همراه داشت، که نشان میدهد اعتبار خارجی تست به حد خود رسیده است.
کوچکتر شدن
برای کسانی که معتقدند مشکل اصلی اعتبار است، بهترین راه حل بازنگری در اتصال معیارها به وظایف خاص است. همانطور که روئل میگوید، توسعهدهندگان هوش مصنوعی «باید به این معیارهای سطح بالا متوسل شوند که تقریباً برای مصرفکنندگان پاییندستی بیمعنی هستند، زیرا توسعهدهندگان معیار دیگر نمیتوانند وظیفه پاییندستی را پیشبینی کنند.» پس اگر راهی برای کمک به مصرفکنندگان پاییندستی برای شناسایی این شکاف وجود داشت، چه میشد؟
در نوامبر ۲۰۲۴، روئل یک پروژه رتبهبندی عمومی به نام بتربنج (BetterBench) را راهاندازی کرد که معیارها را بر اساس دهها معیار مختلف، مانند عمومی بودن مستندات کد، رتبهبندی میکند. اما اعتبار موضوعی اصلی است، با معیارهای خاصی که طراحان را به شفافسازی اینکه معیار آنها چه قابلیتی را آزمایش میکند و چگونه با وظایفی که معیار را تشکیل میدهند مرتبط است، به چالش میکشند.
روئل میگوید: «شما باید یک تفکیک ساختاری از قابلیتها داشته باشید. مهارتهای واقعی که به آنها اهمیت میدهید چیستند و چگونه آنها را به چیزی که قابل اندازهگیری باشد، عملی میکنید؟»
نتایج شگفتانگیز هستند. یکی از معیارهایی که بالاترین امتیاز را کسب کرده است، قدیمیترین آنها نیز هست: محیط یادگیری آرکید (Arcade Learning Environment) یا ALE که در سال ۲۰۱۳ بهعنوان راهی برای آزمایش توانایی مدلها در یادگیری نحوه بازی کردن کتابخانهای از بازیهای آتاری ۲۶۰۰ تأسیس شد. یکی از معیارهایی که کمترین امتیاز را کسب کرده، معیار درک زبان چندوظیفهای گسترده (Massive Multitask Language Understanding) یا MMLU است، یک تست پرکاربرد برای مهارتهای عمومی زبان؛ طبق استانداردهای بتربنج، ارتباط بین سؤالات و مهارت اصلی بیش از حد ضعیف تعریف شده بود.
بتربنج حداقل تا به حال تأثیر چندانی بر شهرت معیارهای خاص نداشته است؛ MMLU هنوز بهطور گسترده استفاده میشود و ALE هنوز در حاشیه است. اما این پروژه در وارد کردن اعتبار به گفتگوی گستردهتر در مورد چگونگی رفع اشکالات معیارها موفق بوده است. در آوریل، روئل بیسروصدا به یک گروه تحقیقاتی جدید ملحق شد که توسط Hugging Face، دانشگاه ادینبورگ و EleutherAI میزبانی میشود، جایی که او ایدههای خود را در مورد اعتبار و ارزیابی مدلهای هوش مصنوعی با دیگر شخصیتهای این حوزه توسعه خواهد داد. (انتظار میرود که اعلامیه رسمی اواخر این ماه منتشر شود.)
ایرن سلیمان، رئیس سیاست جهانی در Hugging Face، میگوید که این گروه بر روی ساخت معیارهای معتبر تمرکز خواهد کرد که فراتر از اندازهگیری قابلیتهای ساده بروند. سلیمان میگوید: «عطش زیادی برای یک معیار خوب و آماده وجود دارد که قبلاً کار میکند. بسیاری از ارزیابیها سعی دارند بیش از حد کار انجام دهند.»
بهطور فزایندهای، به نظر میرسد بقیه صنعت نیز با این موضوع موافق هستند. در مقالهای در ماه مارس، پژوهشگرانی از گوگل، مایکروسافت، Anthropic و دیگران چارچوب جدیدی را برای بهبود ارزیابیها مطرح کردند — که اعتبار بهعنوان اولین گام آن است.
پژوهشگران استدلال میکنند: «علم ارزیابی هوش مصنوعی باید از ادعاهای کلی "هوش عمومی" فراتر رود و به سمت اندازهگیریهای خاصتر وظیفه و مرتبط با دنیای واقعی پیشرفت حرکت کند.»
اندازهگیری چیزهای "لغزنده"
برای کمک به این تغییر، برخی پژوهشگران به ابزارهای علوم اجتماعی نگاه میکنند. یک مقاله موقعیتی فوریه استدلال کرد که «ارزیابی سیستمهای GenAI یک چالش اندازهگیری علوم اجتماعی است»، و بهطور خاص نحوه کاربرد سیستمهای اعتبارسنجی مورد استفاده در اندازهگیریهای اجتماعی را در معیارهای هوش مصنوعی توضیح داد.
نویسندگان، که عمدتاً توسط بخش تحقیقاتی مایکروسافت استخدام شدهاند اما دانشگاهیانی از استنفورد و دانشگاه میشیگان نیز به آنها ملحق شدهاند، به استانداردهایی اشاره میکنند که دانشمندان علوم اجتماعی برای اندازهگیری مفاهیم بحثبرانگیزی مانند ایدئولوژی، دموکراسی و سوگیری رسانهای استفاده میکنند. این رویهها، اگر در معیارهای هوش مصنوعی به کار روند، میتوانند راهی برای اندازهگیری مفاهیمی مانند "استدلال" و "مهارت ریاضی" بدون افتادن به تعمیمهای مبهم ارائه دهند.
در ادبیات علوم اجتماعی، بهویژه مهم است که معیارها با تعریف دقیقی از مفهوم اندازهگیری شده توسط تست آغاز شوند. برای مثال، اگر تست برای اندازهگیری میزان دموکراتیک بودن یک جامعه است، ابتدا باید تعریفی برای "جامعه دموکراتیک" ایجاد کند و سپس سؤالاتی را که با آن تعریف مرتبط هستند، تدوین کند.
برای اعمال این روش به معیاری مانند سوی بنچ، طراحان باید رویکرد کلاسیک یادگیری ماشین را کنار بگذارند که شامل جمعآوری مجموعه داده بزرگی از مسائل برنامهنویسی و تمرکز بیشتری بر روی وظایف خاصتر و بررسی توسط متخصصان باشند.
جیکوبز، یکی از نویسندگان مقاله علوم اجتماعی، میگوید: «در علوم اجتماعی، این مفهوم کاملاً رایج است که تستهای خوبی بسازید و سپس از متخصصان بخواهید در مورد آنها قضاوت کنند.» رویکرد او به معیارهای هوش مصنوعی بر این ایده متمرکز است که توسعهدهندگان باید اعتبار داخلی و خارجی معیارهای خود را نشان دهند. اعتبار داخلی به این معنی است که معیار به خودی خود منسجم است؛ بهعنوان مثال، آیا سوالات مربوط به یک مفهوم خاص با هم همبستگی دارند؟ اعتبار خارجی به این معنی است که معیار آنچه را که ادعا میکند در دنیای واقعی اندازهگیری میکند؛ به عنوان مثال، آیا نتایج یک تست کدنویسی با عملکرد واقعی مدل در یک محیط عملی همبستگی دارد؟
این چیزی است که بیشتر معیارهای هوش مصنوعی در حال حاضر آن را ندارند. جیکوبز میگوید: «ما معیارهایی داریم که از نظر داخلی معتبر نیستند و معیارهایی داریم که از نظر خارجی معتبر نیستند، و به نظر من، این یک بحران برای صنعت است.»
یکی از دلایلی که بسیاری از معیارهای موجود هوش مصنوعی از این اعتبارها برخوردار نیستند، این است که آنها بر اساس رویکرد دادهمحور سنتی توسعه یافتهاند: جمعآوری مجموعه بزرگی از دادهها و طراحی تستی که با آنها کار کند. همانطور که مدلها بهتر میشوند، این رویکرد منجر به مشکلات سازگاری بیش از حد (overfitting) میشود، جایی که مدلها بهطور ناخواسته برای مجموعه داده خاصی که روی آن آزمایش میشوند، بهینه میشوند، نه برای توانایی عمومی که قرار است اندازهگیری شود. راهحل الهامگرفته از علوم اجتماعی این است که با تعریف دقیق مفهوم آغاز کرده و سپس یک تست معتبر برای اندازهگیری آن بسازید.
جیکوبز خاطرنشان میکند که این روش میتواند به حل مسائل دیگر در زمینه ارزیابی کمک کند، مانند مشکل مداوم استفاده از پاسخهای تولیدشده توسط مدلهای هوش مصنوعی در مجموعه دادههای آموزشی، که منجر به "تباهی مدل" میشود. اگر معیارها کمتر به مجموعههای داده خاص وابسته باشند، این مشکل کمتر میشود.
انجام آزمایشها
انتقال به معیارهای الهامگرفته از علوم اجتماعی میتواند برای شرکتهای هوش مصنوعی که مشتاق به انتشار نتایج تست هستند، وقتگیر باشد. این نیازمند تخصص در طراحی تست، آمار و روانسنجی است، و همچنین میتواند شامل ساعتها کار دستی برای بررسی پاسخهای مدل باشد.
یانگ از پرینستون که سوی بنچ را توسعه داد، میگوید: «این نیازمند سرمایهگذاری بزرگی است، چون تستهای معتبر واقعی را نمیتوان به راحتی ساخت.»
اما این دقیقاً همان چیزی است که گروه روئل در Hugging Face بر روی آن کار خواهد کرد. همانطور که او توضیح میدهد، این پروژه بر روی ساخت «آزمایشهایی برای مدلها» متمرکز خواهد شد که بر اساس چارچوب علوم اجتماعی برای اعتبار ساخته شدهاند. سلیمان از Hugging Face میگوید: «این فراتر از جمعآوری مجموعه دادهها و پرسیدن سوالات میرود و واقعاً به رویکردهای تجربی نگاه میکند.»
اگرچه این گروه هنوز در مراحل اولیه کار خود قرار دارد، اما این رویکرد میتواند به ایجاد معیارهای قابل اعتمادتری منجر شود که در برابر دستکاری مقاومتر بوده و تصویر دقیقتری از قابلیتهای واقعی مدلها ارائه میدهند. این میتواند به صنعت کمک کند تا از "بحران ارزیابی" کارپاتی عبور کرده و به سمت توسعه هوش مصنوعی با شواهد قویتر و معتبرتر پیش برود.
جیکوبز میگوید: «این فقط در مورد امتیازدهی بهتر نیست. این در مورد درک واقعی این است که مدلهای ما چه کاری میتوانند انجام دهند و چه کاری نمیتوانند.»