جنگهای کارایی هوش مصنوعی آغاز شده است
انتشار سریع DeepSeek-R1 - یکی از جدیدترین مدلها توسط شرکت هوش مصنوعی چینی DeepSeek - جهان را به جنون کشاند و بورس نزدک را به یک سقوط چشمگیر فرو برد. دلیل آن ساده است - DeepSeek-R1، نوعی مدل استدلال هوش مصنوعی که قبل از پاسخ دادن به سؤالات زمان میبرد تا «فکر کند»، تا 50 برابر ارزانتر از بسیاری از مدلهای هوش مصنوعی ایالات متحده است. نسخههای تقطیر شده آن نیز میتوانند با قدرت محاسباتی یک لپتاپ اجرا شوند، در حالی که مدلهای دیگر به چندین تراشه گرانقیمت Nvidia نیاز دارند. اما آنچه واقعاً توجهها را به خود جلب کرده، ادعای DeepSeek است که تنها حدود 6 میلیون دلار برای آموزش نهایی مدل خود هزینه کرده است - بسیار کمتر از o1 OpenAI. در حالی که این رقم گمراهکننده است و شامل هزینههای هنگفت تحقیقات قبلی، اصلاح و موارد دیگر نمیشود، حتی کاهش جزئی هزینه و افزایش کارایی ممکن است پیامدهای ژئوپلیتیکی قابل توجهی داشته باشد.
بنابراین، چرا آموزش، اجرا و استفاده از DeepSeek-R1 بسیار ارزانتر است؟ پاسخ در چندین بهبود کارایی محاسباتی ایجاد شده در مدل R1 نهفته است. اولاً، R1 از یک معماری یادگیری ماشینی متفاوت به نام "مخلوطی از متخصصان" استفاده کرد که یک مدل هوش مصنوعی بزرگتر را به شبکههای فرعی کوچکتر یا "متخصصان" تقسیم میکند. این رویکرد به این معنی است که R1 فقط باید متخصصان مربوط به یک کار معین را فعال کند، که هزینههای محاسباتی آن را تا حد زیادی کاهش میدهد.
ثانیاً، DeepSeek نحوه استفاده کارآمد الگوریتمهای R1 از منابع محاسباتی خود برای انجام کارهای مختلف را بهبود بخشید. به عنوان مثال، R1 از الگوریتمی استفاده میکند که DeepSeek قبلاً آن را معرفی کرده بود به نام Group Relative Policy Optimization، که از نظر محاسباتی نسبت به سایر الگوریتمهای رایج، فشردهتر است. فراتر از این حوزهها، DeepSeek بهینهسازیهای محاسباتی دیگری نیز انجام داد. به عنوان مثال، از اعشار کمتری برای نمایش برخی اعداد در محاسباتی که در طول آموزش مدل رخ میدهند - تکنیکی به نام آموزش با دقت ترکیبی - استفاده کرد و انتخاب دادهها را برای مدل، در میان بسیاری از بهبودهای دیگر، بهبود بخشید. در مجموع، این بهبودهای کارایی محاسباتی مدلی را تولید کرد که مقرون به صرفهتر از بسیاری از مدلهای موجود دیگر بود.
این دستاوردهای کارایی قابل توجه هستند و در میان بسیاری دیگر، چهار پیامد بالقوه - اگرچه تضمین نشده - برای بازار جهانی هوش مصنوعی ارائه میدهند. اولاً، این دستاوردهای کارایی میتواند به طور بالقوه محرک ورود بازیگران جدید به عرصه هوش مصنوعی باشد، از جمله از کشورهایی که قبلاً فاقد مدلهای هوش مصنوعی بزرگ بودند. تا کنون، دیدگاه غالب در مورد توسعه مدل هوش مصنوعی پیشرفته این بود که راه اصلی برای افزایش قابل توجه عملکرد یک مدل هوش مصنوعی از طریق مقادیر بیشتر و بیشتری از محاسبات است - اساساً قدرت پردازش خام. بازیکنان کوچکتر برای دسترسی به این میزان محاسبات با مشکل مواجه میشوند و بسیاری از آنها را از بازار دور نگه میدارند.
با این حال، R1، حتی اگر هزینههای آموزش آن واقعاً 6 میلیون دلار نباشد، بسیاری را متقاعد کرده است که آموزش مدلهای استدلال - بالاترین سطح عملکرد مدلهای هوش مصنوعی - میتواند بسیار کمتر هزینه داشته باشد و از تراشههای بسیار کمتری نسبت به آنچه قبلاً تصور میشد، استفاده کند. نتیجه، همراه با این واقعیت که DeepSeek عمدتاً فارغ التحصیلان مهندسی داخلی چین را در استخدام خود استخدام میکند، احتمالاً سایر کشورها، شرکتها و نوآوران را متقاعد میکند که آنها نیز ممکن است سرمایه و منابع لازم برای آموزش مدلهای جدید را داشته باشند.
در واقع، چنین تصوری در حال ریشه دواندن است. در پی R1، مدیرعامل Perplexity، Aravind Srinivas از هند خواستار شد تا یک مدل پایه خود را بر اساس مثال DeepSeek توسعه دهد. دولتهایی مانند فرانسه، به عنوان مثال، قبلاً از شرکتهای داخلی، مانند Mistral AI، برای افزایش رقابتپذیری هوش مصنوعی خود حمایت کردهاند، به طوری که بانک سرمایهگذاری دولتی فرانسه در یکی از دورههای جمعآوری سرمایه قبلی Mistral سرمایهگذاری کرده است. با تصور مانع کمتر برای ورود ایجاد شده توسط DeepSeek، ممکن است علاقه دولتها به حمایت از شرکتهای جدید هوش مصنوعی داخلی فقط افزایش یابد.
این موانع کمتر برای ورود ممکن است پیچیدگی بیشتری را به رقابت جهانی هوش مصنوعی اضافه کند. در ماههای اخیر، بسیاری فرض کردهاند که هوش مصنوعی به یک رقابت پیادهروی بین واشنگتن و پکن تبدیل میشود. اما اکنون، در حالی که ایالات متحده و چین احتمالاً توسعهدهندگان اصلی بزرگترین مدلها باقی خواهند ماند، رقابت هوش مصنوعی ممکن است یک بعد بینالمللی پیچیدهتر پیدا کند. شرکتهای آمریکایی و چینی به شدت به دنبال مشارکت بینالمللی با توسعهدهندگان هوش مصنوعی در خارج از کشور بودهاند، همانطور که در مشارکت مایکروسافت با توسعهدهنده مدل هوش مصنوعی زبان عربی G42 یا سرمایهگذاریهای هواوی در مرکز نوآوری هوش مصنوعی چین-آسه آن دیده میشود. با ورود بازیگران بیشتر، رقابت برای تامین این مشارکتها ممکن است پیچیدهتر از همیشه شود.
علاوه بر این، کارایی به زودی میتواند به عنوان یکی دیگر از محورهای اصلی سیاستهای صنعتی دولتی در رقابت جهانی هوش مصنوعی به محاسبات بپیوندد. پیش از R1، دولتها در سراسر جهان در حال مسابقه برای ایجاد ظرفیت محاسباتی بودند تا به آنها اجازه دهند مدلهای هوش مصنوعی مولد را آزادانهتر اجرا و استفاده کنند، زیرا معتقد بودند که فقط محاسبات بیشتر راه اصلی برای افزایش قابل توجه عملکرد مدلهای هوش مصنوعی است.
به عنوان مثال، Mukesh Ambani از هند در حال برنامهریزی برای ساخت یک مرکز داده عظیم 3 گیگاواتی در گجرات، هند است. با این حال، راهاندازی R1 برخی از سرمایهگذاران را به این باور رسانده است که محاسبات و قدرت بسیار کمتری برای هوش مصنوعی مورد نیاز است و باعث فروش گسترده سهام مرتبط با هوش مصنوعی در سراسر ایالات متحده شده است، به طوری که تولیدکنندگان محاسبات مانند Nvidia شاهد کاهش 600 میلیارد دلاری در ارزش سهام خود هستند.
علیرغم این فروشهای اخیر، محاسبات احتمالاً همچنان برای دو دلیل ضروری خواهد بود. اولاً، مورد اقتصادی کلاسیک پارادوکس Jevons وجود دارد - اینکه وقتی فناوری استفاده از یک منبع را کارآمدتر میکند، هزینه هر بار استفاده از آن منبع ممکن است کاهش یابد، اما این دستاوردهای کارایی در واقع باعث میشود افراد بیشتری از آن منبع استفاده کنند و تقاضا را افزایش دهند.
شواهدی برای حمایت از پارادوکس Jevons در بازارهای انرژی وجود داشته است، به طوری که تقاضای کل محاسبات ممکن است در هر سناریویی افزایش یابد. کاهش قیمت سهام Nvidia قابل توجه بود، اما ارزش 2.9 تریلیون دلاری پایدار این شرکت نشان میدهد که بازار همچنان محاسبات را به عنوان یک بخش حیاتی از توسعه هوش مصنوعی آینده میبیند. ثانیاً، دستاوردهای R1 این واقعیت را نیز رد نمیکند که محاسبات بیشتر منجر به مدلهای هوش مصنوعی میشود که عملکرد بهتری دارند. این فقط تأیید میکند که مکانیسم دیگری، از طریق دستاوردهای کارایی، میتواند عملکرد بهتری را نیز به همراه داشته باشد.
این دلایل نشان میدهد که تقاضای محاسبات در واقع میتواند افزایش یابد، نه کاهش یابد - اما در عین حال، بهبود کارایی احتمالاً اولویت شرکتها و دولتها خواهد بود. به طور خاص، شرکتهای مستقر در ایالات متحده - که از راهاندازی R1 توسط DeepSeek وحشتزده شدهاند - احتمالاً به دنبال اتخاذ بهبودهای کارایی محاسباتی آن در کنار ساخت و سازهای محاسباتی عظیم خود خواهند بود، در حالی که شرکتهای چینی ممکن است سعی کنند با افزایش تولید داخلی محاسبات برای دور زدن محدودیتهای صادرات ایالات متحده، این مزیت موجود را دوبرابر کنند.
دولتها در هر دو کشور ممکن است سعی کنند از شرکتها در این دستاوردهای کارایی حمایت کنند، به ویژه از آنجایی که اسنادی مانند یادداشت امنیت ملی دولت بایدن در سال 2024، داشتن کارآمدترین سیستمهای هوش مصنوعی جهان را یک اولویت ملی قرار داده است.
قیمت پایینتر R1، به ویژه در مقایسه با مدلهای غربی، این پتانسیل را دارد که به شدت باعث پذیرش مدلهایی مانند آن در سراسر جهان، به ویژه در بخشهایی از جنوب جهانی شود. این نوع پذیرش سریع هوش مصنوعی ممکن است مزایای هوش مصنوعی را برای رشد اقتصادی در این کشورها تسریع بخشد، به طور بالقوه قدرت ژئوپلیتیکی بلندمدت آنها را افزایش داده و چالشهای جدیدی را برای سیاستگذاران ایالات متحده نگران استفاده جهانی از ابزارهای هوش مصنوعی چینی ایجاد کند.
با این حال، همانطور که DeepSeek این بازار جهانی وسیع را میبیند، بسیاری از توسعهدهندگان هوش مصنوعی قدرتمند آمریکا نیز ممکن است بر ساخت مدلهای با کارایی محاسباتی و قیمت پایینتر برای ارائه پیشنهادات رقابتی در بازارهای هوش مصنوعی در این کشورها متمرکز شوند، که نشان میدهد رقابت هوش مصنوعی در سراسر جنوب جهانی - در سطح پذیرش، علاوه بر مشارکت - ممکن است رخ دهد.
در رقابتی به سرعت در حال حرکت مانند این رقابت، نمیتوان چیز زیادی را تضمین کرد. با این حال، دستاوردهای کارایی DeepSeek چالشی را برای مفروضات موجود در مورد رقابت جهانی هوش مصنوعی ارائه کرده است و ممکن است پویایی رقابتی آن را به گونهای تغییر دهد که قبلاً پیشبینی نشده بود. در بیشتر نقاط جهان، این احتمال وجود دارد که قیمتگذاری ارزانتر و محاسبات کارآمدتر DeepSeek ممکن است به آن یک مزیت موقت بدهد، که میتواند در زمینه پذیرش بلندمدت قابل توجه باشد.
با این حال، ممکن است مدت زیادی طول نکشد که جایگزینهای آمریکایی و داخلی یا منطقهای نیز وارد این عرصه شوند و رقابت بیشتری را بر سر اینکه چه کسی از کدام پلتفرمها استفاده خواهد کرد، به راه اندازند. با وجود مدلها و قیمتهای بیشتر از همیشه، فقط یک چیز قطعی است - رقابت جهانی هوش مصنوعی به هیچ وجه به پایان نرسیده است و از آنچه هر کسی فکر میکرد، پیچیدهتر است.
Sarosh Nagar پژوهشگر در University College London است. کار او در زمینه هوش مصنوعی قبلاً توسط سازمان ملل و در Hill، Newsweek و Diplomat منتشر شده است. X: @saroshnagar
David Eaves استادیار دولت دیجیتال و معاون مدیر موسسه نوآوری و هدف عمومی University College London است. Bluesky: @deaves.bsky.social X: @daeaves