جایزه تورینگ ACM A.M. به دو محقق که توسعه دهنده فناوری هوش مصنوعی هستند، اهدا شد
اندرو بارتو و ریچارد ساتن به عنوان پیشگامان یادگیری تقویتی شناخته شدند
ACM، انجمن ماشینهای محاسباتی، امروز اندرو بارتو و ریچارد ساتن را به عنوان دریافت کنندگان جایزه تورینگ ACM A.M. در سال 2024 برای توسعه مبانی مفهومی و الگوریتمی یادگیری تقویتی معرفی کرد. در مجموعهای از مقالات که از دهه 1980 آغاز شد، بارتو و ساتن ایدههای اصلی را معرفی کردند، مبانی ریاضی را ساختند و الگوریتمهای مهمی را برای یادگیری تقویتی - یکی از مهمترین رویکردها برای ایجاد سیستمهای هوشمند - توسعه دادند.
بارتو، استاد بازنشسته علوم اطلاعات و کامپیوتر در دانشگاه ماساچوست، امهرست است. ساتن، استاد علوم کامپیوتر در دانشگاه آلبرتا و دانشمند تحقیقاتی در Keen Technologies است.
جایزه تورینگ ACM A.M. که اغلب به عنوان "جایزه نوبل در محاسبات" شناخته میشود، جایزهای به مبلغ 1 میلیون دلار با حمایت مالی Google, Inc. را به همراه دارد. این جایزه به نام آلن ام. تورینگ، ریاضیدان بریتانیایی که مبانی ریاضی محاسبات را بیان کرد، نامگذاری شده است.
یادگیری تقویتی چیست؟
حوزه هوش مصنوعی (AI) عموماً به ساختن عاملها - یعنی موجودیتهایی که درک میکنند و عمل میکنند - مربوط میشود. عاملهای هوشمندتر، عاملهایی هستند که دورههای عملکرد بهتری را انتخاب میکنند. بنابراین، این ایده که برخی از دورههای عملکرد بهتر از سایرین هستند، برای هوش مصنوعی مرکزی است. پاداش - اصطلاحی که از روانشناسی و علوم اعصاب گرفته شده است - نشان دهنده سیگنالی است که به یک عامل مربوط به کیفیت رفتار آن ارائه میشود. یادگیری تقویتی (RL) فرآیند یادگیری رفتار موفقتر با توجه به این سیگنال است.
ایده یادگیری از پاداش برای هزاران سال برای مربیان حیوانات آشنا بوده است. بعدها، مقاله آلن تورینگ در سال 1950 با عنوان "ماشینهای محاسباتی و هوش"، به این سؤال پرداخت که "آیا ماشینها میتوانند فکر کنند؟" و رویکردی را برای یادگیری ماشینی بر اساس پاداشها و مجازاتها پیشنهاد کرد.
در حالی که تورینگ گزارش داد که آزمایشهای اولیهای را با این رویکرد انجام داده است و آرتور ساموئل برنامهای برای بازی چکرز در اواخر دهه 1950 توسعه داد که از خودآموزی یاد میگرفت، پیشرفت چندانی در این زمینه از هوش مصنوعی در دهههای بعد رخ نداد. در اوایل دهه 1980، بارتو و دانشجوی دکترای او، ساتن، با انگیزه مشاهدات روانشناسی، شروع به فرمولبندی یادگیری تقویتی به عنوان یک چارچوب مسئله عمومی کردند.
آنها از مبانی ریاضی ارائه شده توسط فرآیندهای تصمیمگیری مارکوف (MDPs) استفاده کردند، که در آن یک عامل در یک محیط تصادفی (به طور تصادفی تعیین شده) تصمیم میگیرد، پس از هر انتقال یک سیگنال پاداش دریافت میکند و هدف آن به حداکثر رساندن پاداش تجمعی بلندمدت خود است. در حالی که نظریه MDP استاندارد فرض میکند که همه چیز در مورد MDP برای عامل شناخته شده است، چارچوب RL اجازه میدهد تا محیط و پاداشها ناشناخته باشند. حداقل الزامات اطلاعاتی RL، همراه با عمومیت چارچوب MDP، به الگوریتمهای RL اجازه میدهد تا در طیف گستردهای از مسائل اعمال شوند، همانطور که در زیر توضیح داده شده است.
بارتو و ساتن، به طور مشترک و با دیگران، بسیاری از رویکردهای الگوریتمی اساسی برای RL را توسعه دادند. اینها شامل مهمترین مشارکت آنها، یادگیری تفاوت زمانی، است که پیشرفت مهمی در حل مسائل پیشبینی پاداش ایجاد کرد، همچنین روشهای گرادیان خطمشی و استفاده از شبکههای عصبی به عنوان ابزاری برای نمایش توابع یاد گرفته شده. آنها همچنین طرحهایی را برای عاملها پیشنهاد کردند که یادگیری و برنامهریزی را با هم ترکیب میکرد، و ارزش کسب دانش از محیط را به عنوان پایهای برای برنامهریزی نشان میداد.
شاید به همان اندازه تأثیرگذار، کتاب درسی آنها، یادگیری تقویتی: یک مقدمه (1998) بود، که هنوز هم مرجع استاندارد در این زمینه است و بیش از 75000 بار به آن استناد شده است. این کتاب به هزاران محقق اجازه داد تا این حوزه نوظهور را درک کرده و در آن مشارکت کنند و همچنان الهامبخش بسیاری از فعالیتهای تحقیقاتی مهم در علوم کامپیوتر امروز است.
اگرچه الگوریتمهای بارتو و ساتن دههها پیش توسعه یافته بودند، اما پیشرفتهای عمده در کاربردهای عملی RL در پانزده سال گذشته با ادغام RL با الگوریتمهای یادگیری عمیق (که توسط تورینگ آواردیز 2018، بنجیو، هینتون و لکون پیشگام شدند) به وجود آمد. این امر منجر به تکنیک یادگیری تقویتی عمیق شد.
برجستهترین مثال RL پیروزی برنامه رایانهای AlphaGo بر بهترین بازیکنان انسانی Go در سالهای 2016 و 2017 بود. یکی دیگر از دستاوردهای بزرگ اخیراً توسعه چتبات ChatGPT بوده است. ChatGPT یک مدل زبان بزرگ (LLM) است که در دو مرحله آموزش داده شده است، که مرحله دوم از تکنیکی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) برای ثبت انتظارات انسانی استفاده میکند.
RL در بسیاری از زمینههای دیگر نیز به موفقیت دست یافته است. یک مثال تحقیقاتی برجسته، یادگیری مهارتهای حرکتی روبات در دستکاری رباتیک و حل یک مسئله فیزیکی (مکعب روبیک) است، که نشان داد میتوان تمام یادگیری تقویتی را در شبیهسازی انجام داد، اما در نهایت در دنیای واقعی به طور قابل توجهی متفاوت موفق بود.
زمینههای دیگر شامل کنترل ازدحام شبکه، طراحی تراشه، تبلیغات اینترنتی، بهینهسازی، بهینهسازی زنجیره تامین جهانی، بهبود رفتار و قابلیتهای استدلال چتباتها و حتی بهبود الگوریتمها برای یکی از قدیمیترین مسائل در علوم کامپیوتر، ضرب ماتریس است.
در نهایت، فناوریای که تا حدی از علوم اعصاب الهام گرفته بود، لطف را جبران کرده است. تحقیقات اخیر، از جمله کارهای بارتو، نشان داده است که الگوریتمهای خاص RL توسعه یافته در هوش مصنوعی بهترین توضیحات را برای طیف گستردهای از یافتهها در مورد سیستم دوپامین در مغز انسان ارائه میدهند.
یانیس ایوانیدیس، رئیس ACM توضیح میدهد: "کار بارتو و ساتن نشان میدهد پتانسیل عظیمی که استفاده از یک رویکرد چند رشتهای برای چالشهای دیرینه در زمینه ما دارد." حوزههای تحقیقاتی از علوم شناختی و روانشناسی گرفته تا علوم اعصاب الهامبخش توسعه یادگیری تقویتی بودهاند، که پایههای برخی از مهمترین پیشرفتها در هوش مصنوعی را بنا نهاده و بینش بیشتری در مورد نحوه عملکرد مغز به ما داده است. کار بارتو و ساتن یک پله نیست که اکنون از آن عبور کرده باشیم. یادگیری تقویتی همچنان در حال رشد است و پتانسیل زیادی برای پیشرفتهای بیشتر در محاسبات و بسیاری از رشتههای دیگر ارائه میدهد. شایسته است که ما از آنها با معتبرترین جایزه در زمینه خود تجلیل کنیم."
جف دین، معاون ارشد گوگل، خاطرنشان کرد: "آلن تورینگ در یک سخنرانی در سال 1947 اظهار داشت: "آنچه ما میخواهیم ماشینی است که بتواند از تجربه یاد بگیرد." یادگیری تقویتی، همانطور که توسط بارتو و ساتن پیشگام شد، مستقیماً به چالش تورینگ پاسخ میدهد. کار آنها یک محور اصلی پیشرفت در هوش مصنوعی در چند دهه گذشته بوده است. ابزارهایی که آنها توسعه دادند، همچنان یک ستون اصلی رونق هوش مصنوعی هستند و پیشرفتهای عمدهای را ایجاد کردهاند، لشکری از محققان جوان را جذب کردهاند و میلیاردها دلار سرمایهگذاری را هدایت کردهاند. تأثیر RL تا آینده نیز ادامه خواهد داشت. گوگل مفتخر است که حامی مالی جایزه تورینگ ACM A.M. است و از افرادی که فناوریهایی را شکل دادهاند که زندگی ما را بهبود میبخشند، تجلیل میکند."
اطلاعات بیوگرافی
اندرو جی. بارتو
اندرو بارتو، استاد بازنشسته، گروه علوم اطلاعات و کامپیوتر، دانشگاه ماساچوست، امهرست است. او کار خود را در UMass
Amherst به عنوان همکار تحقیقاتی فوق دکترا در سال 1977 آغاز کرد و پس از آن، در پستهای مختلف از جمله دانشیار،
استاد و رئیس گروه خدمت کرده است. بارتو مدرک BS در ریاضیات (با تمایز) را از دانشگاه میشیگان دریافت کرد، جایی که
همچنین مدرک MS و PhD خود را در علوم کامپیوتر و ارتباطات دریافت کرد.
افتخارات بارتو شامل جایزه یک عمر دستاورد UMass Neurosciences، جایزه IJCAI برای تعالی در تحقیق و جایزه پیشگام انجمن شبکههای عصبی IEEE است. او عضو مؤسسه مهندسان برق و الکترونیک (IEEE) و عضو انجمن آمریکایی برای پیشرفت علم (AAAS) است.
ریچارد اس. ساتن
ریچارد ساتن، استاد علوم کامپیوتر در دانشگاه آلبرتا، دانشمند تحقیقاتی در Keen Technologies (یک شرکت هوش
عمومی مصنوعی مستقر در دالاس، تگزاس) و مشاور ارشد علمی مؤسسه هوش ماشین آلبرتا (Amii) است. ساتن از سال 2017
تا 2023 دانشمند تحقیقاتی برجسته در Deep Mind بود. قبل از پیوستن به دانشگاه آلبرتا، از سال 1998 تا 2002 به
عنوان عضو اصلی کادر فنی در بخش هوش مصنوعی در آزمایشگاه AT&T Shannon در فلورهام پارک، نیوجرسی خدمت کرد.
همکاری ساتن با اندرو بارتو در سال 1978 در دانشگاه ماساچوست در امهرست آغاز شد، جایی که بارتو مشاور دکترا و فوق
دکترای ساتن بود. ساتن مدرک BA خود را در روانشناسی از دانشگاه استنفورد دریافت کرد و مدرک MS و PhD خود را در
علوم کامپیوتر و اطلاعات از دانشگاه ماساچوست در امهرست دریافت کرد.
افتخارات ساتن شامل دریافت جایزه تعالی در تحقیق IJCAI، جایزه یک عمر دستاورد از انجمن هوش مصنوعی کانادا و جایزه دستاورد برجسته در تحقیق از دانشگاه ماساچوست در امهرست است. ساتن عضو انجمن سلطنتی لندن، عضو انجمن پیشرفت هوش مصنوعی و عضو انجمن سلطنتی کانادا است.
جایزه تورینگ A.M.، معتبرترین جایزه فنی ACM، برای کمکهای عمده با اهمیت پایدار به محاسبات اهدا میشود.
این سایت از تمام برندگان از زمان ایجاد جایزه در سال 1966 تجلیل میکند. این سایت شامل اطلاعات بیوگرافی، شرح دستاوردها، توضیحات صریح از زمینههای تخصصی آنها و متن یا فیلم سخنرانی جایزه تورینگ A. M. آنها است.