جایزه تورینگ ACM A.M. به اندرو بارتو و ریچارد ساتن اهدا شد

جایزه تورینگ ACM A.M. به دو محقق که توسعه دهنده فناوری هوش مصنوعی هستند، اهدا شد

اندرو بارتو و ریچارد ساتن به عنوان پیشگامان یادگیری تقویتی شناخته شدند

ACM، انجمن ماشین‌های محاسباتی، امروز اندرو بارتو و ریچارد ساتن را به عنوان دریافت کنندگان جایزه تورینگ ACM A.M. در سال 2024 برای توسعه مبانی مفهومی و الگوریتمی یادگیری تقویتی معرفی کرد. در مجموعه‌ای از مقالات که از دهه 1980 آغاز شد، بارتو و ساتن ایده‌های اصلی را معرفی کردند، مبانی ریاضی را ساختند و الگوریتم‌های مهمی را برای یادگیری تقویتی - یکی از مهم‌ترین رویکردها برای ایجاد سیستم‌های هوشمند - توسعه دادند.

بارتو، استاد بازنشسته علوم اطلاعات و کامپیوتر در دانشگاه ماساچوست، امهرست است. ساتن، استاد علوم کامپیوتر در دانشگاه آلبرتا و دانشمند تحقیقاتی در Keen Technologies است.

جایزه تورینگ ACM A.M. که اغلب به عنوان "جایزه نوبل در محاسبات" شناخته می‌شود، جایزه‌ای به مبلغ 1 میلیون دلار با حمایت مالی Google, Inc. را به همراه دارد. این جایزه به نام آلن ام. تورینگ، ریاضیدان بریتانیایی که مبانی ریاضی محاسبات را بیان کرد، نامگذاری شده است.

یادگیری تقویتی چیست؟

حوزه هوش مصنوعی (AI) عموماً به ساختن عامل‌ها - یعنی موجودیت‌هایی که درک می‌کنند و عمل می‌کنند - مربوط می‌شود. عامل‌های هوشمندتر، عامل‌هایی هستند که دوره‌های عملکرد بهتری را انتخاب می‌کنند. بنابراین، این ایده که برخی از دوره‌های عملکرد بهتر از سایرین هستند، برای هوش مصنوعی مرکزی است. پاداش - اصطلاحی که از روانشناسی و علوم اعصاب گرفته شده است - نشان دهنده سیگنالی است که به یک عامل مربوط به کیفیت رفتار آن ارائه می‌شود. یادگیری تقویتی (RL) فرآیند یادگیری رفتار موفق‌تر با توجه به این سیگنال است.

ایده یادگیری از پاداش برای هزاران سال برای مربیان حیوانات آشنا بوده است. بعدها، مقاله آلن تورینگ در سال 1950 با عنوان "ماشین‌های محاسباتی و هوش"، به این سؤال پرداخت که "آیا ماشین‌ها می‌توانند فکر کنند؟" و رویکردی را برای یادگیری ماشینی بر اساس پاداش‌ها و مجازات‌ها پیشنهاد کرد.

در حالی که تورینگ گزارش داد که آزمایش‌های اولیه‌ای را با این رویکرد انجام داده است و آرتور ساموئل برنامه‌ای برای بازی چکرز در اواخر دهه 1950 توسعه داد که از خودآموزی یاد می‌گرفت، پیشرفت چندانی در این زمینه از هوش مصنوعی در دهه‌های بعد رخ نداد. در اوایل دهه 1980، بارتو و دانشجوی دکترای او، ساتن، با انگیزه مشاهدات روانشناسی، شروع به فرمول‌بندی یادگیری تقویتی به عنوان یک چارچوب مسئله عمومی کردند.

آنها از مبانی ریاضی ارائه شده توسط فرآیندهای تصمیم‌گیری مارکوف (MDPs) استفاده کردند، که در آن یک عامل در یک محیط تصادفی (به طور تصادفی تعیین شده) تصمیم می‌گیرد، پس از هر انتقال یک سیگنال پاداش دریافت می‌کند و هدف آن به حداکثر رساندن پاداش تجمعی بلندمدت خود است. در حالی که نظریه MDP استاندارد فرض می‌کند که همه چیز در مورد MDP برای عامل شناخته شده است، چارچوب RL اجازه می‌دهد تا محیط و پاداش‌ها ناشناخته باشند. حداقل الزامات اطلاعاتی RL، همراه با عمومیت چارچوب MDP، به الگوریتم‌های RL اجازه می‌دهد تا در طیف گسترده‌ای از مسائل اعمال شوند، همانطور که در زیر توضیح داده شده است.

بارتو و ساتن، به طور مشترک و با دیگران، بسیاری از رویکردهای الگوریتمی اساسی برای RL را توسعه دادند. اینها شامل مهمترین مشارکت آنها، یادگیری تفاوت زمانی، است که پیشرفت مهمی در حل مسائل پیش‌بینی پاداش ایجاد کرد، همچنین روش‌های گرادیان خط‌مشی و استفاده از شبکه‌های عصبی به عنوان ابزاری برای نمایش توابع یاد گرفته شده. آنها همچنین طرح‌هایی را برای عامل‌ها پیشنهاد کردند که یادگیری و برنامه‌ریزی را با هم ترکیب می‌کرد، و ارزش کسب دانش از محیط را به عنوان پایه‌ای برای برنامه‌ریزی نشان می‌داد.

شاید به همان اندازه تأثیرگذار، کتاب درسی آنها، یادگیری تقویتی: یک مقدمه (1998) بود، که هنوز هم مرجع استاندارد در این زمینه است و بیش از 75000 بار به آن استناد شده است. این کتاب به هزاران محقق اجازه داد تا این حوزه نوظهور را درک کرده و در آن مشارکت کنند و همچنان الهام‌بخش بسیاری از فعالیت‌های تحقیقاتی مهم در علوم کامپیوتر امروز است.

اگرچه الگوریتم‌های بارتو و ساتن دهه‌ها پیش توسعه یافته بودند، اما پیشرفت‌های عمده در کاربردهای عملی RL در پانزده سال گذشته با ادغام RL با الگوریتم‌های یادگیری عمیق (که توسط تورینگ آواردیز 2018، بنجیو، هینتون و لکون پیشگام شدند) به وجود آمد. این امر منجر به تکنیک یادگیری تقویتی عمیق شد.

برجسته‌ترین مثال RL پیروزی برنامه رایانه‌ای AlphaGo بر بهترین بازیکنان انسانی Go در سال‌های 2016 و 2017 بود. یکی دیگر از دستاوردهای بزرگ اخیراً توسعه چت‌بات ChatGPT بوده است. ChatGPT یک مدل زبان بزرگ (LLM) است که در دو مرحله آموزش داده شده است، که مرحله دوم از تکنیکی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) برای ثبت انتظارات انسانی استفاده می‌کند.

RL در بسیاری از زمینه‌های دیگر نیز به موفقیت دست یافته است. یک مثال تحقیقاتی برجسته، یادگیری مهارت‌های حرکتی روبات در دستکاری رباتیک و حل یک مسئله فیزیکی (مکعب روبیک) است، که نشان داد می‌توان تمام یادگیری تقویتی را در شبیه‌سازی انجام داد، اما در نهایت در دنیای واقعی به طور قابل توجهی متفاوت موفق بود.

زمینه‌های دیگر شامل کنترل ازدحام شبکه، طراحی تراشه، تبلیغات اینترنتی، بهینه‌سازی، بهینه‌سازی زنجیره تامین جهانی، بهبود رفتار و قابلیت‌های استدلال چت‌بات‌ها و حتی بهبود الگوریتم‌ها برای یکی از قدیمی‌ترین مسائل در علوم کامپیوتر، ضرب ماتریس است.

در نهایت، فناوری‌ای که تا حدی از علوم اعصاب الهام گرفته بود، لطف را جبران کرده است. تحقیقات اخیر، از جمله کارهای بارتو، نشان داده است که الگوریتم‌های خاص RL توسعه یافته در هوش مصنوعی بهترین توضیحات را برای طیف گسترده‌ای از یافته‌ها در مورد سیستم دوپامین در مغز انسان ارائه می‌دهند.

یانیس ایوانیدیس، رئیس ACM توضیح می‌دهد: "کار بارتو و ساتن نشان می‌دهد پتانسیل عظیمی که استفاده از یک رویکرد چند رشته‌ای برای چالش‌های دیرینه در زمینه ما دارد." حوزه‌های تحقیقاتی از علوم شناختی و روانشناسی گرفته تا علوم اعصاب الهام‌بخش توسعه یادگیری تقویتی بوده‌اند، که پایه‌های برخی از مهم‌ترین پیشرفت‌ها در هوش مصنوعی را بنا نهاده و بینش بیشتری در مورد نحوه عملکرد مغز به ما داده است. کار بارتو و ساتن یک پله نیست که اکنون از آن عبور کرده باشیم. یادگیری تقویتی همچنان در حال رشد است و پتانسیل زیادی برای پیشرفت‌های بیشتر در محاسبات و بسیاری از رشته‌های دیگر ارائه می‌دهد. شایسته است که ما از آنها با معتبرترین جایزه در زمینه خود تجلیل کنیم."

جف دین، معاون ارشد گوگل، خاطرنشان کرد: "آلن تورینگ در یک سخنرانی در سال 1947 اظهار داشت: "آنچه ما می‌خواهیم ماشینی است که بتواند از تجربه یاد بگیرد." یادگیری تقویتی، همانطور که توسط بارتو و ساتن پیشگام شد، مستقیماً به چالش تورینگ پاسخ می‌دهد. کار آنها یک محور اصلی پیشرفت در هوش مصنوعی در چند دهه گذشته بوده است. ابزارهایی که آنها توسعه دادند، همچنان یک ستون اصلی رونق هوش مصنوعی هستند و پیشرفت‌های عمده‌ای را ایجاد کرده‌اند، لشکری از محققان جوان را جذب کرده‌اند و میلیاردها دلار سرمایه‌گذاری را هدایت کرده‌اند. تأثیر RL تا آینده نیز ادامه خواهد داشت. گوگل مفتخر است که حامی مالی جایزه تورینگ ACM A.M. است و از افرادی که فناوری‌هایی را شکل داده‌اند که زندگی ما را بهبود می‌بخشند، تجلیل می‌کند."

 

اطلاعات بیوگرافی

اندرو جی. بارتو
اندرو بارتو، استاد بازنشسته، گروه علوم اطلاعات و کامپیوتر، دانشگاه ماساچوست، امهرست است. او کار خود را در UMass Amherst به عنوان همکار تحقیقاتی فوق دکترا در سال 1977 آغاز کرد و پس از آن، در پست‌های مختلف از جمله دانشیار، استاد و رئیس گروه خدمت کرده است. بارتو مدرک BS در ریاضیات (با تمایز) را از دانشگاه میشیگان دریافت کرد، جایی که همچنین مدرک MS و PhD خود را در علوم کامپیوتر و ارتباطات دریافت کرد.

افتخارات بارتو شامل جایزه یک عمر دستاورد UMass Neurosciences، جایزه IJCAI برای تعالی در تحقیق و جایزه پیشگام انجمن شبکه‌های عصبی IEEE است. او عضو مؤسسه مهندسان برق و الکترونیک (IEEE) و عضو انجمن آمریکایی برای پیشرفت علم (AAAS) است.

ریچارد اس. ساتن
ریچارد ساتن، استاد علوم کامپیوتر در دانشگاه آلبرتا، دانشمند تحقیقاتی در Keen Technologies (یک شرکت هوش عمومی مصنوعی مستقر در دالاس، تگزاس) و مشاور ارشد علمی مؤسسه هوش ماشین آلبرتا (Amii) است. ساتن از سال 2017 تا 2023 دانشمند تحقیقاتی برجسته در Deep Mind بود. قبل از پیوستن به دانشگاه آلبرتا، از سال 1998 تا 2002 به عنوان عضو اصلی کادر فنی در بخش هوش مصنوعی در آزمایشگاه AT&T Shannon در فلورهام پارک، نیوجرسی خدمت کرد. همکاری ساتن با اندرو بارتو در سال 1978 در دانشگاه ماساچوست در امهرست آغاز شد، جایی که بارتو مشاور دکترا و فوق دکترای ساتن بود. ساتن مدرک BA خود را در روانشناسی از دانشگاه استنفورد دریافت کرد و مدرک MS و PhD خود را در علوم کامپیوتر و اطلاعات از دانشگاه ماساچوست در امهرست دریافت کرد.

افتخارات ساتن شامل دریافت جایزه تعالی در تحقیق IJCAI، جایزه یک عمر دستاورد از انجمن هوش مصنوعی کانادا و جایزه دستاورد برجسته در تحقیق از دانشگاه ماساچوست در امهرست است. ساتن عضو انجمن سلطنتی لندن، عضو انجمن پیشرفت هوش مصنوعی و عضو انجمن سلطنتی کانادا است.


جایزه تورینگ A.M.، معتبرترین جایزه فنی ACM، برای کمک‌های عمده با اهمیت پایدار به محاسبات اهدا می‌شود.

این سایت از تمام برندگان از زمان ایجاد جایزه در سال 1966 تجلیل می‌کند. این سایت شامل اطلاعات بیوگرافی، شرح دستاوردها، توضیحات صریح از زمینه‌های تخصصی آنها و متن یا فیلم سخنرانی جایزه تورینگ A. M. آنها است.