آیا شما از هوش مصنوعی باهوش‌تر هستید؟

در سال ۲۰۱۹، یک محقق هوش مصنوعی به نام فرانسوا شوله (François Chollet)، یک بازی پازلی طراحی کرد که قرار بود برای انسان‌ها آسان اما برای ماشین‌ها دشوار باشد.

این بازی که ARC (مخفف مجموعه انتزاع و استدلال) نام دارد، به روشی مهم برای کارشناسان جهت ردیابی پیشرفت هوش مصنوعی و مقابله با این روایت تبدیل شد که دانشمندان در آستانه ساخت فناوری هوش مصنوعی‌ای هستند که از بشریت پیشی خواهد گرفت.

پازل‌های رنگارنگ آقای شوله، توانایی شناسایی سریع الگوهای بصری را تنها بر اساس چند مثال آزمایش می‌کنند. برای انجام بازی، شما به دقت به مثال‌ها نگاه می‌کنید و سعی می‌کنید الگو را پیدا کنید.

هر مثال از الگو برای تبدیل یک شبکه از مربع‌های رنگی به یک شبکه جدید از مربع‌های رنگی استفاده می‌کند:

الگو برای هر مثال یکسان است.

اکنون، با اعمال الگویی که در مثال‌های بالا یاد گرفتید، شبکه جدید را پر کنید.

سال‌ها بود که این پازل‌ها برای هوش مصنوعی، از جمله چت‌بات‌هایی مانند ChatGPT، تقریباً غیرممکن بودند.

سیستم‌های هوش مصنوعی معمولاً مهارت‌های خود را با تجزیه و تحلیل حجم عظیمی از داده‌های جمع‌آوری شده از سراسر اینترنت می‌آموزند. این بدان معناست که آن‌ها می‌توانند با تکرار مفاهیمی که هزاران بار دیده‌اند، جمله تولید کنند. اما لزوماً نمی‌توانستند پازل‌های منطقی جدید را پس از دیدن تنها چند مثال حل کنند.

یعنی، تا همین اواخر. در ماه دسامبر، شرکت OpenAI اعلام کرد که جدیدترین سیستم هوش مصنوعی‌اش به نام OpenAI o3، در آزمون آقای شوله عملکردی فراتر از انسان داشته است. برخلاف نسخه اصلی ChatGPT، سیستم o3 قادر بود قبل از پاسخ دادن، زمانی را صرف بررسی احتمالات مختلف کند.

برخی این را دلیلی بر نزدیک شدن سیستم‌های هوش مصنوعی به هوش عمومی مصنوعی یا A.G.I. (Artificial General Intelligence) دانستند که ماشینی به هوشمندی یک انسان را توصیف می‌کند. آقای شوله پازل‌های خود را به عنوان راهی برای نشان دادن این که ماشین‌ها هنوز راه درازی تا این هدف بلندپروازانه دارند، ایجاد کرده بود.

اما این خبر همچنین نقاط ضعف معیارهای سنجش (بنچمارک‌ها) مانند ARC را آشکار کرد. دهه‌هاست که محققان نقاط عطفی را برای ردیابی پیشرفت هوش مصنوعی تعیین کرده‌اند. اما هنگامی که به این نقاط عطف دست یافته می‌شود، معلوم می‌شود که معیارهای ناکافی برای سنجش هوش واقعی بوده‌اند.

آرویند نارایانان (Arvind Narayanan)، استاد علوم کامپیوتر دانشگاه پرینستون و یکی از نویسندگان کتاب «روغن مار هوش مصنوعی» (AI Snake Oil)، گفت که هرگونه ادعا مبنی بر اینکه آزمون ARC پیشرفت به سمت A.G.I. را اندازه‌گیری می‌کند، «بسیار مشکوک» است.

با این حال، آقای نارایانان اذعان کرد که فناوری OpenAI مهارت‌های چشمگیری را در گذراندن آزمون ARC نشان داده است. برخی از پازل‌ها به آسانی پازلی که شما امتحان کردید، نیستند.

پازل زیر کمی سخت‌تر است و آن نیز توسط سیستم هوش مصنوعی جدید OpenAI به درستی حل شد:

حالا ببینید آیا می‌توانید شبکه زیر را با استفاده از همان الگوی نشان داده شده در مثال‌های بالا پر کنید.

پازلی مانند این نشان می‌دهد که فناوری OpenAI در حل مسائل منطقی بهتر می‌شود. اما یک فرد معمولی می‌تواند پازل‌هایی مانند این را در چند ثانیه حل کند. فناوری OpenAI منابع محاسباتی قابل توجهی را برای گذراندن این آزمون مصرف کرد.

ژوئن گذشته، آقای شوله با مایک کنوپ (Mike Knoop)، هم‌بنیان‌گذار شرکت نرم‌افزاری Zapier، همکاری کرد تا آنچه را جایزه ARC نامیدند، ایجاد کنند. این دو نفر مسابقه‌ای را تأمین مالی کردند که به هر کسی که یک سیستم هوش مصنوعی بسازد که عملکردی فراتر از انسان در این معیار سنجش (که نام آن را به «ARC-AGI» تغییر دادند) داشته باشد، ۱ میلیون دلار جایزه می‌دهد.

شرکت‌ها و محققان بیش از ۱۴۰۰ سیستم هوش مصنوعی را ارسال کردند، اما هیچ‌کس برنده جایزه نشد. همه امتیاز کمتر از ۸۵ درصد کسب کردند که نشان‌دهنده عملکرد یک انسان «باهوش» بود.

سیستم o3 شرکت OpenAI به ۸۷.۵ درصد از پازل‌ها به درستی پاسخ داد. اما این شرکت قوانین رقابت را نقض کرد زیرا طبق برآوردهای قیمت‌گذاری، نزدیک به ۱.۵ میلیون دلار هزینه برق و محاسبات برای تکمیل آزمون صرف کرده بود.

OpenAI همچنین واجد شرایط دریافت جایزه ARC نبود زیرا مایل به اشتراک‌گذاری عمومی فناوری پشت سیستم هوش مصنوعی خود از طریق رویه‌ای به نام متن‌باز کردن (open sourcing) نبود. به طور جداگانه، OpenAI یک نسخه «با کارایی بالا» از o3 را اجرا کرد که امتیاز ۷۵.۷ درصد را در آزمون کسب کرد و هزینه آن کمتر از ۱۰,۰۰۰ دلار بود.

آقای شوله گفت: «هوش یعنی کارایی. و این مدل‌ها از نظر کارایی، بسیار از سطح انسانی فاصله دارند.»

(نیویورک تایمز در ماه دسامبر از OpenAI و شریکش مایکروسافت به دلیل نقض حق چاپ محتوای خبری مرتبط با سیستم‌های هوش مصنوعی شکایت کرد.)

روز دوشنبه، جایزه ARC یک معیار سنجش جدید به نام ARC-AGI-2 را با صدها وظیفه اضافی معرفی کرد. پازل‌ها همان فرمت بازی رنگارنگ و شبکه‌ای معیار اصلی را دارند، اما دشوارتر هستند.

آقای شوله گفت: «برای انسان‌ها سخت‌تر خواهد بود، اما همچنان بسیار قابل انجام است. برای هوش مصنوعی بسیار بسیار سخت‌تر خواهد بود - o3 قرار نیست ARC-AGI-2 را حل کند.»

در اینجا یک پازل از معیار جدید ARC-AGI-2 وجود دارد که سیستم OpenAI سعی کرد آن را حل کند اما شکست خورد. به یاد داشته باشید، همان الگو برای همه مثال‌ها اعمال می‌شود.

حالا سعی کنید شبکه زیر را طبق الگویی که در مثال‌ها پیدا کردید پر کنید:

این نشان می‌دهد که اگرچه سیستم‌های هوش مصنوعی در برخورد با مشکلاتی که قبلاً هرگز ندیده‌اند بهتر شده‌اند، اما همچنان با چالش مواجه هستند.

در اینجا چند پازل اضافی از ARC-AGI-2 وجود دارد که بر روی مشکلاتی تمرکز دارد که نیاز به چندین مرحله استدلال دارند:

همانطور که OpenAI و سایر شرکت‌ها به بهبود فناوری خود ادامه می‌دهند، ممکن است نسخه جدید ARC را نیز پشت سر بگذارند. اما این به معنای دستیابی به A.G.I. نخواهد بود.

قضاوت در مورد هوش امری ذهنی است. شاخص‌های ناملموس بی‌شماری برای هوش وجود دارد، از خلق آثار هنری گرفته تا پیمایش معضلات اخلاقی و درک شهودی احساسات.

شرکت‌هایی مانند OpenAI چت‌بات‌هایی ساخته‌اند که می‌توانند به سوالات پاسخ دهند، شعر بنویسند و حتی پازل‌های منطقی را حل کنند. از برخی جهات، آنها قبلاً از قدرت مغز فراتر رفته‌اند. فناوری OpenAI در یک آزمون برنامه‌نویسی رقابتی از دانشمند ارشد خود، یاکوب پاچوکی (Jakub Pachocki)، عملکرد بهتری داشته است.

اما این سیستم‌ها هنوز اشتباهاتی مرتکب می‌شوند که یک فرد معمولی هرگز مرتکب نمی‌شود. و آنها برای انجام کارهای ساده‌ای که انسان‌ها می‌توانند انجام دهند، مشکل دارند.

ملانی میچل (Melanie Mitchell)، استاد هوش مصنوعی در مؤسسه سانتافه، گفت: «شما در حال بارگیری ماشین ظرفشویی هستید و سگتان می‌آید و شروع به لیسیدن ظرف‌ها می‌کند. چه کار می‌کنید؟ ما تا حدی می‌دانیم چگونه این کار را انجام دهیم، زیرا همه چیز را در مورد سگ‌ها و ظرف‌ها و همه این‌ها می‌دانیم. اما آیا یک ربات ظرفشویی می‌داند چگونه این کار را انجام دهد؟»

از نظر آقای شوله، توانایی کسب کارآمد مهارت‌های جدید چیزی است که برای انسان‌ها طبیعی است اما هنوز در فناوری هوش مصنوعی وجود ندارد. و این همان چیزی است که او با معیارهای ARC-AGI هدف قرار داده است.

در ژانویه، جایزه ARC به یک بنیاد غیرانتفاعی تبدیل شد که به عنوان «ستاره راهنما برای A.G.I.» عمل می‌کند. تیم جایزه ARC انتظار دارد ARC-AGI-2 حدود دو سال دوام بیاورد تا توسط فناوری هوش مصنوعی حل شود - اگرچه اگر زودتر اتفاق بیفتد تعجب نخواهند کرد.

آنها قبلاً کار بر روی ARC-AGI-3 را آغاز کرده‌اند که امیدوارند در سال ۲۰۲۶ آن را معرفی کنند. یک طرح اولیه به پازلی اشاره دارد که شامل تعامل با یک بازی پویا مبتنی بر شبکه است.

فرانسوا شوله، محقق هوش مصنوعی، یک بازی پازلی طراحی کرد که قرار بود برای انسان‌ها آسان اما برای ماشین‌ها دشوار باشد. عکس از کلسی مک‌کللان برای نیویورک تایمز

طرح اولیه برای ARC-AGI-3، یک معیار سنجش که می‌تواند شامل تعامل با یک بازی پویا مبتنی بر شبکه باشد. بنیاد جایزه ARC

این یک گام به آنچه مردم در دنیای واقعی با آن سروکار دارند نزدیک‌تر است - مکانی پر از حرکت. دنیای واقعی مانند پازل‌هایی که در بالا امتحان کردید، ثابت نمی‌ماند.

با این حال، حتی این نیز تنها بخشی از راه را برای نشان دادن زمانی که ماشین‌ها از مغز پیشی گرفته‌اند، طی خواهد کرد. انسان‌ها دنیای فیزیکی را می‌پیمایند - نه فقط دنیای دیجیتال. با پیشرفت هوش مصنوعی، تیرهای دروازه همچنان جابجا خواهند شد.

آقای شوله گفت: «اگر دیگر برای افرادی مثل من امکان تولید معیارهای سنجشی که چیزهایی را اندازه‌گیری می‌کنند که برای انسان‌ها آسان اما برای هوش مصنوعی غیرممکن است، وجود نداشته باشد، آنگاه شما A.G.I. را دارید.»

https://www.nytimes.com/interactive/2025/03/26/business/ai-smarter-human-intelligence-puzzle.html