لوگوی استارتاپ هوش مصنوعی چینی DeepSeek که روی صفحه رایانه نمایش داده می‌شود، در عینک یک دانشجوی فناوری اطلاعات در فرانکفورت، آلمان، در 31 ژانویه منعکس شده است. Frank Rumpenhorst/picture alliance via Getty Images
لوگوی استارتاپ هوش مصنوعی چینی DeepSeek که روی صفحه رایانه نمایش داده می‌شود، در عینک یک دانشجوی فناوری اطلاعات در فرانکفورت، آلمان، در 31 ژانویه منعکس شده است. Frank Rumpenhorst/picture alliance via Getty Images

جنگ‌های کارایی هوش مصنوعی آغاز شده است

شوک DeepSeek ممکن است یک رقابت جهانی را تغییر دهد.

جنگ‌های کارایی هوش مصنوعی آغاز شده است

انتشار سریع DeepSeek-R1 - یکی از جدیدترین مدل‌ها توسط شرکت هوش مصنوعی چینی DeepSeek - جهان را به جنون کشاند و بورس نزدک را به یک سقوط چشمگیر فرو برد. دلیل آن ساده است - DeepSeek-R1، نوعی مدل استدلال هوش مصنوعی که قبل از پاسخ دادن به سؤالات زمان می‌برد تا «فکر کند»، تا 50 برابر ارزان‌تر از بسیاری از مدل‌های هوش مصنوعی ایالات متحده است. نسخه‌های تقطیر شده آن نیز می‌توانند با قدرت محاسباتی یک لپ‌تاپ اجرا شوند، در حالی که مدل‌های دیگر به چندین تراشه گران‌قیمت Nvidia نیاز دارند. اما آنچه واقعاً توجه‌ها را به خود جلب کرده، ادعای DeepSeek است که تنها حدود 6 میلیون دلار برای آموزش نهایی مدل خود هزینه کرده است - بسیار کمتر از o1 OpenAI. در حالی که این رقم گمراه‌کننده است و شامل هزینه‌های هنگفت تحقیقات قبلی، اصلاح و موارد دیگر نمی‌شود، حتی کاهش جزئی هزینه و افزایش کارایی ممکن است پیامدهای ژئوپلیتیکی قابل توجهی داشته باشد.

بنابراین، چرا آموزش، اجرا و استفاده از DeepSeek-R1 بسیار ارزان‌تر است؟ پاسخ در چندین بهبود کارایی محاسباتی ایجاد شده در مدل R1 نهفته است. اولاً، R1 از یک معماری یادگیری ماشینی متفاوت به نام "مخلوطی از متخصصان" استفاده کرد که یک مدل هوش مصنوعی بزرگتر را به شبکه‌های فرعی کوچکتر یا "متخصصان" تقسیم می‌کند. این رویکرد به این معنی است که R1 فقط باید متخصصان مربوط به یک کار معین را فعال کند، که هزینه‌های محاسباتی آن را تا حد زیادی کاهش می‌دهد.

ثانیاً، DeepSeek نحوه استفاده کارآمد الگوریتم‌های R1 از منابع محاسباتی خود برای انجام کارهای مختلف را بهبود بخشید. به عنوان مثال، R1 از الگوریتمی استفاده می‌کند که DeepSeek قبلاً آن را معرفی کرده بود به نام Group Relative Policy Optimization، که از نظر محاسباتی نسبت به سایر الگوریتم‌های رایج، فشرده‌تر است. فراتر از این حوزه‌ها، DeepSeek بهینه‌سازی‌های محاسباتی دیگری نیز انجام داد. به عنوان مثال، از اعشار کمتری برای نمایش برخی اعداد در محاسباتی که در طول آموزش مدل رخ می‌دهند - تکنیکی به نام آموزش با دقت ترکیبی - استفاده کرد و انتخاب داده‌ها را برای مدل، در میان بسیاری از بهبودهای دیگر، بهبود بخشید. در مجموع، این بهبودهای کارایی محاسباتی مدلی را تولید کرد که مقرون به صرفه‌تر از بسیاری از مدل‌های موجود دیگر بود.

این دستاوردهای کارایی قابل توجه هستند و در میان بسیاری دیگر، چهار پیامد بالقوه - اگرچه تضمین نشده - برای بازار جهانی هوش مصنوعی ارائه می‌دهند. اولاً، این دستاوردهای کارایی می‌تواند به طور بالقوه محرک ورود بازیگران جدید به عرصه هوش مصنوعی باشد، از جمله از کشورهایی که قبلاً فاقد مدل‌های هوش مصنوعی بزرگ بودند. تا کنون، دیدگاه غالب در مورد توسعه مدل هوش مصنوعی پیشرفته این بود که راه اصلی برای افزایش قابل توجه عملکرد یک مدل هوش مصنوعی از طریق مقادیر بیشتر و بیشتری از محاسبات است - اساساً قدرت پردازش خام. بازیکنان کوچکتر برای دسترسی به این میزان محاسبات با مشکل مواجه می‌شوند و بسیاری از آنها را از بازار دور نگه می‌دارند.

با این حال، R1، حتی اگر هزینه‌های آموزش آن واقعاً 6 میلیون دلار نباشد، بسیاری را متقاعد کرده است که آموزش مدل‌های استدلال - بالاترین سطح عملکرد مدل‌های هوش مصنوعی - می‌تواند بسیار کمتر هزینه داشته باشد و از تراشه‌های بسیار کمتری نسبت به آنچه قبلاً تصور می‌شد، استفاده کند. نتیجه، همراه با این واقعیت که DeepSeek عمدتاً فارغ التحصیلان مهندسی داخلی چین را در استخدام خود استخدام می‌کند، احتمالاً سایر کشورها، شرکت‌ها و نوآوران را متقاعد می‌کند که آنها نیز ممکن است سرمایه و منابع لازم برای آموزش مدل‌های جدید را داشته باشند.

در واقع، چنین تصوری در حال ریشه دواندن است. در پی R1، مدیرعامل Perplexity، Aravind Srinivas از هند خواستار شد تا یک مدل پایه خود را بر اساس مثال DeepSeek توسعه دهد. دولت‌هایی مانند فرانسه، به عنوان مثال، قبلاً از شرکت‌های داخلی، مانند Mistral AI، برای افزایش رقابت‌پذیری هوش مصنوعی خود حمایت کرده‌اند، به طوری که بانک سرمایه‌گذاری دولتی فرانسه در یکی از دوره‌های جمع‌آوری سرمایه قبلی Mistral سرمایه‌گذاری کرده است. با تصور مانع کمتر برای ورود ایجاد شده توسط DeepSeek، ممکن است علاقه دولت‌ها به حمایت از شرکت‌های جدید هوش مصنوعی داخلی فقط افزایش یابد.

این موانع کمتر برای ورود ممکن است پیچیدگی بیشتری را به رقابت جهانی هوش مصنوعی اضافه کند. در ماه‌های اخیر، بسیاری فرض کرده‌اند که هوش مصنوعی به یک رقابت پیاده‌روی بین واشنگتن و پکن تبدیل می‌شود. اما اکنون، در حالی که ایالات متحده و چین احتمالاً توسعه‌دهندگان اصلی بزرگترین مدل‌ها باقی خواهند ماند، رقابت هوش مصنوعی ممکن است یک بعد بین‌المللی پیچیده‌تر پیدا کند. شرکت‌های آمریکایی و چینی به شدت به دنبال مشارکت بین‌المللی با توسعه‌دهندگان هوش مصنوعی در خارج از کشور بوده‌اند، همانطور که در مشارکت مایکروسافت با توسعه‌دهنده مدل هوش مصنوعی زبان عربی G42 یا سرمایه‌گذاری‌های هواوی در مرکز نوآوری هوش مصنوعی چین-آسه آن دیده می‌شود. با ورود بازیگران بیشتر، رقابت برای تامین این مشارکت‌ها ممکن است پیچیده‌تر از همیشه شود.

علاوه بر این، کارایی به زودی می‌تواند به عنوان یکی دیگر از محورهای اصلی سیاست‌های صنعتی دولتی در رقابت جهانی هوش مصنوعی به محاسبات بپیوندد. پیش از R1، دولت‌ها در سراسر جهان در حال مسابقه برای ایجاد ظرفیت محاسباتی بودند تا به آنها اجازه دهند مدل‌های هوش مصنوعی مولد را آزادانه‌تر اجرا و استفاده کنند، زیرا معتقد بودند که فقط محاسبات بیشتر راه اصلی برای افزایش قابل توجه عملکرد مدل‌های هوش مصنوعی است.

به عنوان مثال، Mukesh Ambani از هند در حال برنامه‌ریزی برای ساخت یک مرکز داده عظیم 3 گیگاواتی در گجرات، هند است. با این حال، راه‌اندازی R1 برخی از سرمایه‌گذاران را به این باور رسانده است که محاسبات و قدرت بسیار کمتری برای هوش مصنوعی مورد نیاز است و باعث فروش گسترده سهام مرتبط با هوش مصنوعی در سراسر ایالات متحده شده است، به طوری که تولیدکنندگان محاسبات مانند Nvidia شاهد کاهش 600 میلیارد دلاری در ارزش سهام خود هستند.

علیرغم این فروش‌های اخیر، محاسبات احتمالاً همچنان برای دو دلیل ضروری خواهد بود. اولاً، مورد اقتصادی کلاسیک پارادوکس Jevons وجود دارد - اینکه وقتی فناوری استفاده از یک منبع را کارآمدتر می‌کند، هزینه هر بار استفاده از آن منبع ممکن است کاهش یابد، اما این دستاوردهای کارایی در واقع باعث می‌شود افراد بیشتری از آن منبع استفاده کنند و تقاضا را افزایش دهند.

شواهدی برای حمایت از پارادوکس Jevons در بازارهای انرژی وجود داشته است، به طوری که تقاضای کل محاسبات ممکن است در هر سناریویی افزایش یابد. کاهش قیمت سهام Nvidia قابل توجه بود، اما ارزش 2.9 تریلیون دلاری پایدار این شرکت نشان می‌دهد که بازار همچنان محاسبات را به عنوان یک بخش حیاتی از توسعه هوش مصنوعی آینده می‌بیند. ثانیاً، دستاوردهای R1 این واقعیت را نیز رد نمی‌کند که محاسبات بیشتر منجر به مدل‌های هوش مصنوعی می‌شود که عملکرد بهتری دارند. این فقط تأیید می‌کند که مکانیسم دیگری، از طریق دستاوردهای کارایی، می‌تواند عملکرد بهتری را نیز به همراه داشته باشد.

این دلایل نشان می‌دهد که تقاضای محاسبات در واقع می‌تواند افزایش یابد، نه کاهش یابد - اما در عین حال، بهبود کارایی احتمالاً اولویت شرکت‌ها و دولت‌ها خواهد بود. به طور خاص، شرکت‌های مستقر در ایالات متحده - که از راه‌اندازی R1 توسط DeepSeek وحشت‌زده شده‌اند - احتمالاً به دنبال اتخاذ بهبودهای کارایی محاسباتی آن در کنار ساخت و سازهای محاسباتی عظیم خود خواهند بود، در حالی که شرکت‌های چینی ممکن است سعی کنند با افزایش تولید داخلی محاسبات برای دور زدن محدودیت‌های صادرات ایالات متحده، این مزیت موجود را دوبرابر کنند.

دولت‌ها در هر دو کشور ممکن است سعی کنند از شرکت‌ها در این دستاوردهای کارایی حمایت کنند، به ویژه از آنجایی که اسنادی مانند یادداشت امنیت ملی دولت بایدن در سال 2024، داشتن کارآمدترین سیستم‌های هوش مصنوعی جهان را یک اولویت ملی قرار داده است.

قیمت پایین‌تر R1، به ویژه در مقایسه با مدل‌های غربی، این پتانسیل را دارد که به شدت باعث پذیرش مدل‌هایی مانند آن در سراسر جهان، به ویژه در بخش‌هایی از جنوب جهانی شود. این نوع پذیرش سریع هوش مصنوعی ممکن است مزایای هوش مصنوعی را برای رشد اقتصادی در این کشورها تسریع بخشد، به طور بالقوه قدرت ژئوپلیتیکی بلندمدت آنها را افزایش داده و چالش‌های جدیدی را برای سیاست‌گذاران ایالات متحده نگران استفاده جهانی از ابزارهای هوش مصنوعی چینی ایجاد کند.

با این حال، همانطور که DeepSeek این بازار جهانی وسیع را می‌بیند، بسیاری از توسعه‌دهندگان هوش مصنوعی قدرتمند آمریکا نیز ممکن است بر ساخت مدل‌های با کارایی محاسباتی و قیمت پایین‌تر برای ارائه پیشنهادات رقابتی در بازارهای هوش مصنوعی در این کشورها متمرکز شوند، که نشان می‌دهد رقابت هوش مصنوعی در سراسر جنوب جهانی - در سطح پذیرش، علاوه بر مشارکت - ممکن است رخ دهد.

در رقابتی به سرعت در حال حرکت مانند این رقابت، نمی‌توان چیز زیادی را تضمین کرد. با این حال، دستاوردهای کارایی DeepSeek چالشی را برای مفروضات موجود در مورد رقابت جهانی هوش مصنوعی ارائه کرده است و ممکن است پویایی رقابتی آن را به گونه‌ای تغییر دهد که قبلاً پیش‌بینی نشده بود. در بیشتر نقاط جهان، این احتمال وجود دارد که قیمت‌گذاری ارزان‌تر و محاسبات کارآمدتر DeepSeek ممکن است به آن یک مزیت موقت بدهد، که می‌تواند در زمینه پذیرش بلندمدت قابل توجه باشد.

با این حال، ممکن است مدت زیادی طول نکشد که جایگزین‌های آمریکایی و داخلی یا منطقه‌ای نیز وارد این عرصه شوند و رقابت بیشتری را بر سر اینکه چه کسی از کدام پلتفرم‌ها استفاده خواهد کرد، به راه اندازند. با وجود مدل‌ها و قیمت‌های بیشتر از همیشه، فقط یک چیز قطعی است - رقابت جهانی هوش مصنوعی به هیچ وجه به پایان نرسیده است و از آنچه هر کسی فکر می‌کرد، پیچیده‌تر است.

Sarosh Nagar پژوهشگر در University College London است. کار او در زمینه هوش مصنوعی قبلاً توسط سازمان ملل و در Hill، Newsweek و Diplomat منتشر شده است. X: @saroshnagar

David Eaves استادیار دولت دیجیتال و معاون مدیر موسسه نوآوری و هدف عمومی University College London است. Bluesky: @deaves.bsky.social X: @daeaves