
تا همین اواخر در سال ۲۰۲۲، صرفاً ساخت یک مدل زبانی بزرگ (LLM) یک شاهکار در لبهی فناوری مهندسی هوش مصنوعی (AI) بود. سه سال بعد، تحت تأثیر قرار دادن کارشناسان دشوارتر است. برای اینکه واقعاً در بازار شلوغ متمایز شوید، یک آزمایشگاه هوش مصنوعی نهتنها باید یک مدل با کیفیت بالا بسازد، بلکه باید آن را ارزان بسازد.
در دسامبر، یک شرکت چینی به نام دیپسیک، به دلیل کاهش هزینه دلاری آموزش یک مدل پیشرفته از ۶۱.۶ میلیون دلار (هزینه Llama 3.1، یک مدل زبانی بزرگ تولید شده توسط متا، یک شرکت فناوری) به تنها ۶ میلیون دلار، سرخط خبرها شد. در یک پیشچاپ که در ماه فوریه به صورت آنلاین منتشر شد، محققان دانشگاه استنفورد و دانشگاه واشنگتن ادعا میکنند که چندین مرتبه بهتر عمل کردهاند و مدل زبانی بزرگ S1 خود را تنها با ۶ دلار آموزش دادهاند. به عبارت دیگر، آموزش دیپسیک v3، ۲.۷ میلیون ساعت زمان رایانه را صرف کرد؛ در حالی که S1 کمتر از هفت ساعت زمان برد.
این ارقام خیرهکننده هستند، اما این مقایسه دقیقاً یکسان نیست. در حالی که چتبات v3 دیپسیک از ابتدا آموزش داده شد - اتهامات مربوط به سرقت دادهها از OpenAI، یک رقیب آمریکایی، و همتایان آن - S1 در عوض بر روی مدل زبانی بزرگ Qwen2.5 از پیش موجود، که توسط علیبابا، دیگر آزمایشگاه برتر هوش مصنوعی چین، تولید شده است، "تنظیم دقیق" میشود. به عبارت دیگر، قبل از شروع آموزش S1، مدل از قبل میتوانست بنویسد، سؤال بپرسد و کد تولید کند.
این نوع سوءاستفاده میتواند منجر به صرفهجویی شود، اما نمیتواند هزینهها را به تنهایی به ارقام یکرقمی کاهش دهد. برای انجام این کار، تیم آمریکایی مجبور بود از الگوی غالب در تحقیقات هوش مصنوعی رهایی یابد، که در آن تصور میشود مقدار داده و قدرت محاسباتی موجود برای آموزش یک مدل زبانی، عملکرد آن را بهبود میبخشد. آنها در عوض این فرضیه را مطرح کردند که مقدار کمتری از دادهها، با کیفیت به اندازه کافی بالا، میتواند همان کار را به خوبی انجام دهد. برای آزمایش این گزاره، آنها مجموعهای از ۵۹۰۰۰ سؤال را جمعآوری کردند که همه چیز از آزمونهای استاندارد انگلیسی گرفته تا مسائل سطح تحصیلات تکمیلی در احتمالات را شامل میشد، با این قصد که آنها را به مؤثرترین مجموعه آموزشی ممکن محدود کنند.
برای اینکه بفهمیم چگونه این کار را انجام دهیم، سؤالات به تنهایی کافی نیستند. پاسخها نیز مورد نیاز هستند. بنابراین تیم از یک مدل هوش مصنوعی دیگر، جمنای گوگل، خواست تا با استفاده از روش استدلال، که در آن "فرایند تفکر" مدل در کنار پاسخ به اشتراک گذاشته میشود، به سؤالات رسیدگی کند. این به آنها سه مجموعه داده داد تا از آنها برای آموزش S1 استفاده کنند: ۵۹۰۰۰ سؤال؛ پاسخهای همراه؛ و "زنجیرههای فکری" که برای اتصال این دو استفاده میشوند.
سپس آنها تقریباً همه آن را دور انداختند. از آنجایی که S1 مبتنی بر هوش مصنوعی Qwen علیبابا بود، هر چیزی که آن مدل از قبل میتوانست حل کند غیرضروری بود. هر چیزی که به طور ضعیف قالببندی شده بود نیز دور ریخته شد، همانطور که هر چیزی که مدل گوگل بدون نیاز به فکر کردن زیاد حل کرده بود. اگر یک مشکل معین به تنوع کلی مجموعه آموزشی اضافه نمیکرد، آن هم حذف میشد. نتیجه نهایی یک مجموعه ۱۰۰۰ سؤالی ساده بود که محققان ثابت کردند میتواند یک مدل را به همان اندازه با عملکرد بالا آموزش دهد که یک مدل آموزش دیده بر روی تمام ۵۹۰۰۰ سؤال - و با کسری از هزینه.
چنین ترفندهایی فراوان است. مانند تمام مدلهای استدلال، S1 قبل از پاسخ دادن "فکر میکند"، و قبل از اینکه اعلام کند کارش تمام شده و پاسخ نهایی را ارائه دهد، مشکل را بررسی میکند. اما بسیاری از مدلهای استدلال اگر اجازه داده شود بیشتر فکر کنند، پاسخهای بهتری میدهند، رویکردی که "محاسبات زمان آزمایش" نامیده میشود. بنابراین محققان به سادهترین رویکرد ممکن برای وادار کردن مدل به ادامه استدلال رسیدند: وقتی اعلام میکند که فکر کردنش تمام شده است، فقط آن پیام را حذف کنید و به جای آن کلمه "صبر کن" را اضافه کنید.
این ترفندها نیز کار میکنند. فکر کردن چهار برابر بیشتر به مدل این امکان را میدهد که در آزمونهای ریاضی و همچنین آزمونهای علمی بیش از ۲۰ درصد نمره بالاتری کسب کند. مجبور شدن به فکر کردن ۱۶ برابر بیشتر، مدل را از ناتوانی در کسب یک نمره واحد در یک آزمون سخت ریاضی به کسب نمره ۶۰٪ میرساند. البته فکر کردن سختتر هزینهبرتر است و هزینههای استنتاج با هر "صبر کن" اضافی افزایش مییابد. اما با در دسترس بودن آموزش به این ارزانی، هزینه اضافی ممکن است ارزشش را داشته باشد.
محققان میگویند مدل جدید آنها در حال حاضر در معیارهای توانایی ریاضی، تلاش اولیه OpenAI در این فضا، پیشنمایش o1 سپتامبر را شکست میدهد. تلاش برای کارایی، مرز جدید است. ¦