تصویرسازی: آلبرتو میراندا
تصویرسازی: آلبرتو میراندا

دیپ‌سیک را فراموش کنید. مدل‌های زبانی بزرگ همچنان ارزان‌تر می‌شوند

یک مدل زبانی بزرگ ۶ میلیون دلاری جالب نیست. یک مدل ۶ دلاری جالب است

یک تراشه کامپیوتری که روی
                        پشته‌ای از ۶ سکه تعادل دارد
تصویرسازی: آلبرتو میراندا

تا همین اواخر در سال ۲۰۲۲، صرفاً ساخت یک مدل زبانی بزرگ (LLM) یک شاهکار در لبه‌ی فناوری مهندسی هوش مصنوعی (AI) بود. سه سال بعد، تحت تأثیر قرار دادن کارشناسان دشوارتر است. برای اینکه واقعاً در بازار شلوغ متمایز شوید، یک آزمایشگاه هوش مصنوعی نه‌تنها باید یک مدل با کیفیت بالا بسازد، بلکه باید آن را ارزان بسازد.

در دسامبر، یک شرکت چینی به نام دیپ‌سیک، به دلیل کاهش هزینه دلاری آموزش یک مدل پیشرفته از ۶۱.۶ میلیون دلار (هزینه Llama 3.1، یک مدل زبانی بزرگ تولید شده توسط متا، یک شرکت فناوری) به تنها ۶ میلیون دلار، سرخط خبرها شد. در یک پیش‌چاپ که در ماه فوریه به صورت آنلاین منتشر شد، محققان دانشگاه استنفورد و دانشگاه واشنگتن ادعا می‌کنند که چندین مرتبه بهتر عمل کرده‌اند و مدل زبانی بزرگ S1 خود را تنها با ۶ دلار آموزش داده‌اند. به عبارت دیگر، آموزش دیپ‌سیک v3، ۲.۷ میلیون ساعت زمان رایانه را صرف کرد؛ در حالی که S1 کمتر از هفت ساعت زمان برد.

این ارقام خیره‌کننده هستند، اما این مقایسه دقیقاً یکسان نیست. در حالی که چت‌بات v3 دیپ‌سیک از ابتدا آموزش داده شد - اتهامات مربوط به سرقت داده‌ها از OpenAI، یک رقیب آمریکایی، و همتایان آن - S1 در عوض بر روی مدل زبانی بزرگ Qwen2.5 از پیش موجود، که توسط علی‌بابا، دیگر آزمایشگاه برتر هوش مصنوعی چین، تولید شده است، "تنظیم دقیق" می‌شود. به عبارت دیگر، قبل از شروع آموزش S1، مدل از قبل می‌توانست بنویسد، سؤال بپرسد و کد تولید کند.

این نوع سوءاستفاده می‌تواند منجر به صرفه‌جویی شود، اما نمی‌تواند هزینه‌ها را به تنهایی به ارقام یک‌رقمی کاهش دهد. برای انجام این کار، تیم آمریکایی مجبور بود از الگوی غالب در تحقیقات هوش مصنوعی رهایی یابد، که در آن تصور می‌شود مقدار داده و قدرت محاسباتی موجود برای آموزش یک مدل زبانی، عملکرد آن را بهبود می‌بخشد. آنها در عوض این فرضیه را مطرح کردند که مقدار کمتری از داده‌ها، با کیفیت به اندازه کافی بالا، می‌تواند همان کار را به خوبی انجام دهد. برای آزمایش این گزاره، آنها مجموعه‌ای از ۵۹۰۰۰ سؤال را جمع‌آوری کردند که همه چیز از آزمون‌های استاندارد انگلیسی گرفته تا مسائل سطح تحصیلات تکمیلی در احتمالات را شامل می‌شد، با این قصد که آنها را به مؤثرترین مجموعه آموزشی ممکن محدود کنند.

برای اینکه بفهمیم چگونه این کار را انجام دهیم، سؤالات به تنهایی کافی نیستند. پاسخ‌ها نیز مورد نیاز هستند. بنابراین تیم از یک مدل هوش مصنوعی دیگر، جمنای گوگل، خواست تا با استفاده از روش استدلال، که در آن "فرایند تفکر" مدل در کنار پاسخ به اشتراک گذاشته می‌شود، به سؤالات رسیدگی کند. این به آنها سه مجموعه داده داد تا از آنها برای آموزش S1 استفاده کنند: ۵۹۰۰۰ سؤال؛ پاسخ‌های همراه؛ و "زنجیره‌های فکری" که برای اتصال این دو استفاده می‌شوند.

سپس آنها تقریباً همه آن را دور انداختند. از آنجایی که S1 مبتنی بر هوش مصنوعی Qwen علی‌بابا بود، هر چیزی که آن مدل از قبل می‌توانست حل کند غیرضروری بود. هر چیزی که به طور ضعیف قالب‌بندی شده بود نیز دور ریخته شد، همانطور که هر چیزی که مدل گوگل بدون نیاز به فکر کردن زیاد حل کرده بود. اگر یک مشکل معین به تنوع کلی مجموعه آموزشی اضافه نمی‌کرد، آن هم حذف می‌شد. نتیجه نهایی یک مجموعه ۱۰۰۰ سؤالی ساده بود که محققان ثابت کردند می‌تواند یک مدل را به همان اندازه با عملکرد بالا آموزش دهد که یک مدل آموزش دیده بر روی تمام ۵۹۰۰۰ سؤال - و با کسری از هزینه.

چنین ترفندهایی فراوان است. مانند تمام مدل‌های استدلال، S1 قبل از پاسخ دادن "فکر می‌کند"، و قبل از اینکه اعلام کند کارش تمام شده و پاسخ نهایی را ارائه دهد، مشکل را بررسی می‌کند. اما بسیاری از مدل‌های استدلال اگر اجازه داده شود بیشتر فکر کنند، پاسخ‌های بهتری می‌دهند، رویکردی که "محاسبات زمان آزمایش" نامیده می‌شود. بنابراین محققان به ساده‌ترین رویکرد ممکن برای وادار کردن مدل به ادامه استدلال رسیدند: وقتی اعلام می‌کند که فکر کردنش تمام شده است، فقط آن پیام را حذف کنید و به جای آن کلمه "صبر کن" را اضافه کنید.

این ترفندها نیز کار می‌کنند. فکر کردن چهار برابر بیشتر به مدل این امکان را می‌دهد که در آزمون‌های ریاضی و همچنین آزمون‌های علمی بیش از ۲۰ درصد نمره بالاتری کسب کند. مجبور شدن به فکر کردن ۱۶ برابر بیشتر، مدل را از ناتوانی در کسب یک نمره واحد در یک آزمون سخت ریاضی به کسب نمره ۶۰٪ می‌رساند. البته فکر کردن سخت‌تر هزینه‌برتر است و هزینه‌های استنتاج با هر "صبر کن" اضافی افزایش می‌یابد. اما با در دسترس بودن آموزش به این ارزانی، هزینه اضافی ممکن است ارزشش را داشته باشد.

محققان می‌گویند مدل جدید آنها در حال حاضر در معیارهای توانایی ریاضی، تلاش اولیه OpenAI در این فضا، پیش‌نمایش o1 سپتامبر را شکست می‌دهد. تلاش برای کارایی، مرز جدید است. ¦