در ماه سپتامبر، OpenAI نسخه جدیدی از ChatGPT را رونمایی کرد که برای استدلال در مورد وظایف مربوط به ریاضیات، علوم و برنامهنویسی کامپیوتر طراحی شده بود. برخلاف نسخههای قبلی این چتبات، این فناوری جدید میتوانست پیش از ارائه پاسخ، برای «فکر کردن» در مورد مسائل پیچیده وقت صرف کند.
به زودی، این شرکت اعلام کرد که فناوری استدلال جدیدش در مجموعهای از آزمونها که پیشرفت هوش مصنوعی را ردیابی میکنند، از سیستمهای پیشرو در این صنعت عملکرد بهتری داشته است.
اکنون شرکتهای دیگری مانند گوگل، Anthropic و DeepSeek چین، فناوریهای مشابهی را ارائه میدهند.
اما آیا هوش مصنوعی واقعاً میتواند مانند انسان استدلال کند؟ فکر کردن برای یک کامپیوتر به چه معناست؟ آیا این سیستمها واقعاً به هوش واقعی نزدیک میشوند؟
در اینجا یک راهنما ارائه شده است.
وقتی یک سیستم هوش مصنوعی استدلال میکند، به چه معناست؟
استدلال صرفاً به این معنی است که چتبات زمان بیشتری را صرف کار بر روی یک مسئله میکند.
دن کلاین، استاد علوم کامپیوتر در دانشگاه کالیفرنیا، برکلی و مدیر ارشد فناوری در استارتآپ هوش مصنوعی Scaled Cognition، گفت: «استدلال زمانی اتفاق میافتد که سیستم پس از پرسیدن سؤال، کار بیشتری انجام میدهد.»
این سیستم ممکن است یک مسئله را به مراحل جداگانه تقسیم کند یا سعی کند آن را از طریق آزمون و خطا حل کند.
ChatGPT اصلی بلافاصله به سؤالات پاسخ میداد. سیستمهای استدلالی جدید میتوانند پیش از پاسخ دادن، چندین ثانیه – یا حتی چند دقیقه – روی یک مسئله کار کنند.
میتوانید دقیقتر توضیح دهید؟
در برخی موارد، یک سیستم استدلالی رویکرد خود را به یک سؤال اصلاح میکند و بارها تلاش میکند روشی را که انتخاب کرده بهبود بخشد. در موارد دیگر، ممکن است چندین روش مختلف برای پرداختن به یک مسئله را امتحان کند پیش از آنکه یکی از آنها را انتخاب کند. یا ممکن است به عقب برگردد و کاری را که چند ثانیه قبل انجام داده بررسی کند، فقط برای اینکه ببیند آیا درست بوده است یا خیر.
اساساً، سیستم هر کاری که میتواند برای پاسخ به سؤال شما انجام میدهد.
این تا حدودی شبیه دانشآموز دبستانی است که برای یافتن راه حلی برای یک مسئله ریاضی تلاش میکند و چندین گزینه مختلف را روی یک برگ کاغذ خطخطی میکند.
چه نوع سؤالاتی نیاز به استدلال یک سیستم هوش مصنوعی دارند؟
بهطور بالقوه میتواند در مورد هر چیزی استدلال کند. اما استدلال زمانی مؤثرتر است که سؤالاتی در مورد ریاضیات، علوم و برنامهنویسی کامپیوتر بپرسید.
یک چتبات استدلالی چه تفاوتی با چتباتهای قبلی دارد؟
از چتباتهای قبلی میتوانستید بخواهید که به شما نشان دهند چگونه به یک پاسخ خاص رسیدهاند یا کار خود را بررسی کنند. از آنجا که ChatGPT اصلی از متون موجود در اینترنت یاد گرفته بود، جایی که افراد نشان میدادند چگونه به پاسخی رسیدهاند یا کار خود را بررسی کردهاند، این نوع بازبینی خودکار را نیز میتوانست انجام دهد.
اما یک سیستم استدلالی فراتر میرود. میتواند این کارها را بدون اینکه از آن خواسته شود انجام دهد. و میتواند آنها را به روشهای گستردهتر و پیچیدهتری انجام دهد.
شرکتها آن را سیستم استدلالی مینامند زیرا به نظر میرسد بیشتر شبیه فردی عمل میکند که در حال فکر کردن روی یک مسئله دشوار است.
چرا استدلال هوش مصنوعی اکنون اهمیت دارد؟
شرکتهایی مانند OpenAI معتقدند این بهترین راه برای بهبود چتباتهایشان است.
سالها، این شرکتها بر یک مفهوم ساده تکیه داشتند: هرچه دادههای اینترنتی بیشتری را به چتباتهای خود تزریق میکردند، عملکرد آن سیستمها بهتر میشد.
اما در سال 2024، آنها تقریباً تمام متن موجود در اینترنت را استفاده کردند.
این بدان معنا بود که آنها به روش جدیدی برای بهبود چتباتهای خود نیاز داشتند. بنابراین شروع به ساخت سیستمهای استدلالی کردند.
چگونه یک سیستم استدلالی میسازید؟
سال گذشته، شرکتهایی مانند OpenAI شروع به تکیه شدید بر تکنیکی به نام یادگیری تقویتی (reinforcement learning) کردند.
از طریق این فرآیند – که میتواند ماهها طول بکشد – یک سیستم هوش مصنوعی میتواند رفتار را از طریق آزمون و خطای گسترده یاد بگیرد. به عنوان مثال، با کار کردن روی هزاران مسئله ریاضی، میتواند یاد بگیرد که کدام روشها به پاسخ صحیح منجر میشوند و کدام نه.
محققان مکانیسمهای بازخورد پیچیدهای را طراحی کردهاند که به سیستم نشان میدهد چه زمانی کاری را درست انجام داده و چه زمانی اشتباه کرده است.
جری تورک، محقق OpenAI، گفت: «این کمی شبیه آموزش دادن به یک سگ است. اگر سیستم خوب عمل کند، به آن یک تشویقی میدهید. اگر خوب عمل نکند، میگویید، 'سگ بد'.»
(نیویورک تایمز در ماه دسامبر از OpenAI و شریک آن، مایکروسافت، به دلیل نقض حق تکثیر محتوای خبری مرتبط با سیستمهای هوش مصنوعی شکایت کرد.)

آیا یادگیری تقویتی مؤثر است؟
در حوزههای خاصی مانند ریاضیات، علوم و برنامهنویسی کامپیوتر بسیار خوب عمل میکند. اینها حوزههایی هستند که شرکتها میتوانند به وضوح رفتار خوب و بد را تعریف کنند. مسائل ریاضی پاسخهای قطعی دارند.
یادگیری تقویتی در حوزههایی مانند نویسندگی خلاق، فلسفه و اخلاق، جایی که تمایز بین خوب و بد دشوارتر است، به خوبی عمل نمیکند. محققان میگویند این فرآیند به طور کلی میتواند عملکرد یک سیستم هوش مصنوعی را بهبود بخشد، حتی زمانی که به سؤالات خارج از حوزه ریاضیات و علوم پاسخ میدهد.
جرد کاپلان، مدیر ارشد علوم در Anthropic، گفت: «این سیستم به تدریج یاد میگیرد که کدام الگوهای استدلال آن را در مسیر درست هدایت میکنند و کدام نه.»
آیا یادگیری تقویتی و سیستمهای استدلالی یکی هستند؟
خیر. یادگیری تقویتی روشی است که شرکتها برای ساخت سیستمهای استدلالی استفاده میکنند. این مرحله آموزشی است که در نهایت به چتباتها امکان استدلال میدهد.
آیا این سیستمهای استدلالی هنوز هم اشتباه میکنند؟
قطعاً. هر کاری که یک چتبات انجام میدهد بر اساس احتمالات است. مسیری را انتخاب میکند که بیشترین شباهت را به دادههایی دارد که از آنها یاد گرفته است – چه آن دادهها از اینترنت آمده باشند یا از طریق یادگیری تقویتی تولید شده باشند. گاهی اوقات گزینهای را انتخاب میکند که اشتباه است یا منطقی به نظر نمیرسد.
آیا این مسیری به سوی ماشینی است که با هوش انسانی برابری کند؟
کارشناسان هوش مصنوعی در مورد این سؤال اختلاف نظر دارند. این روشها هنوز نسبتاً جدید هستند و محققان هنوز در تلاش برای درک محدودیتهای آنها هستند. در زمینه هوش مصنوعی، روشهای جدید اغلب در ابتدا بسیار سریع پیشرفت میکنند، پیش از آنکه کند شوند.