تصویرسازی: آلبرتو میراندا
تصویرسازی: آلبرتو میراندا

چرا هوش مصنوعی چین جهان را شگفت‌زده کرده است

مدل‌های DeepSeek بسیار ارزان‌تر و تقریباً به خوبی رقبای آمریکایی هستند

نمودار: اکونومیست
نمودار: اکونومیست

نخستین "مدل استدلال" جهان، نوع پیشرفته‌ای از هوش مصنوعی، در ماه سپتامبر توسط OpenAI، یک شرکت آمریکایی، منتشر شد. o1، همانطور که نامیده می‌شود، از "زنجیره تفکر" برای پاسخ دادن به سوالات دشوار در علم و ریاضیات استفاده می‌کند، مسائل را به مراحل تشکیل دهنده آن‌ها تجزیه می‌کند و رویکردهای مختلفی را برای کار در پشت صحنه آزمایش می‌کند، قبل از ارائه یک نتیجه به کاربر. رونمایی از آن، مسابقه‌ای را برای کپی کردن این روش به راه انداخت. گوگل در ماه دسامبر یک مدل استدلال به نام "Gemini Flash Thinking" ارائه کرد. OpenAI با o3، به‌روزرسانی o1، چند روز بعد پاسخ داد.

نمودار: اکونومیست
نمودار: اکونومیست

اما گوگل، با تمام منابع خود، در واقع اولین شرکتی نبود که از OpenAI تقلید می‌کرد. کمتر از سه ماه پس از راه‌اندازی o1، علی‌بابا، غول تجارت الکترونیک چینی، نسخه جدیدی از چت‌بات Qwen خود، QwQ، را با همان قابلیت‌های "استدلال" منتشر کرد. این شرکت در یک پست وبلاگی پرطمطراق با پیوندی به نسخه رایگان این مدل پرسید: "فکر کردن، سوال کردن، فهمیدن به چه معناست؟" یک شرکت چینی دیگر، DeepSeek، یک هفته قبل از آن، "پیش نمایشی" از یک مدل استدلال با نام R1 منتشر کرده بود. علی‌رغم تلاش‌های دولت آمریکا برای عقب نگه داشتن صنعت AI چین، دو شرکت چینی رهبری فناوری همتایان آمریکایی خود را به چند هفته کاهش داده بودند.

فقط در مدل‌های استدلال نیست که شرکت‌های چینی در پیشتاز هستند: در دسامبر DeepSeek یک مدل زبان بزرگ جدید (LLM)، نوعی AI که متن را تجزیه و تحلیل و تولید می‌کند، منتشر کرد. v3 تقریباً 700 گیگابایت بود، بسیار بزرگتر از آن که روی چیزی جز سخت افزار تخصصی اجرا شود، و دارای 685 میلیارد پارامتر بود، مفاهیم فردی که برای تشکیل شبکه عصبی مدل ترکیب می شوند. این باعث شد که بزرگتر از هر چیزی باشد که قبلاً برای دانلود رایگان منتشر شده است. Llama 3.1، LLM شاخص متا، شرکت مادر فیس بوک، که در ماه ژوئیه منتشر شد، تنها 405 میلیارد پارامتر دارد.

LLM دیپ‌سیک نه تنها بزرگ‌تر از بسیاری از همتایان غربی‌اش است، بلکه بهتر هم هست و فقط با مدل‌های اختصاصی گوگل و OpenAI مطابقت دارد. پل گوتیه، بنیانگذار پلتفرم کدنویسی هوش مصنوعی Aider، مدل جدید DeepSeek را از طریق معیار کدنویسی خود اجرا کرد و دریافت که از تمام رقبای خود به جز خود o1 پیشی گرفته است. Lmsys، رتبه‌بندی جمع‌سپاری چت‌بات‌ها، آن را در رتبه هفتم قرار می‌دهد، بالاتر از هر مدل منبع باز دیگری و بالاترین رتبه تولید شده توسط شرکتی غیر از گوگل یا OpenAI (به نمودار مراجعه کنید).

ورود اژدها

هوش مصنوعی چین اکنون از نظر کیفیت به قدری به رقبای آمریکایی خود نزدیک شده است که رئیس OpenAI، سم آلتمن، مجبور شد تنگی این فاصله را توضیح دهد. اندکی پس از انتشار v3 توسط دیپ‌سیک، او با کج‌خلقی توییت کرد: «کپی کردن چیزی که می‌دانید کار می‌کند (نسبتاً) آسان است. انجام کاری جدید، پرخطر و دشوار زمانی که نمی‌دانید کار می‌کند یا نه، بسیار دشوار است.»

صنعت AI چین در ابتدا درجه دو به نظر می‌رسید. این ممکن است تا حدی به این دلیل باشد که مجبور بوده با تحریم‌های آمریکا مقابله کند. در سال 2022 آمریکا صادرات تراشه‌های پیشرفته به چین را ممنوع کرد. انویدیا، یک سازنده پیشرو تراشه، مجبور شده است نسخه‌های ویژه‌ای از محصولات خود را برای بازار چین طراحی کند. آمریکا همچنین با ممنوع کردن صادرات تجهیزات لازم و تهدید به مجازات شرکت‌های غیرآمریکایی که ممکن است کمک کنند، تلاش کرده است از توسعه ظرفیت چین برای تولید تراشه‌های درجه یک در داخل کشور جلوگیری کند.

مانع دیگری هم در داخل وجود دارد. شرکت‌های چینی تا حدی به دلیل نگرانی‌های نظارتی، دیر به LLMها وارد شدند. آنها نگران این بودند که سانسورگرها به مدل‌هایی که ممکن است "توهم" داشته باشند و اطلاعات نادرست ارائه دهند یا - بدتر از آن - اظهارات خطرناک سیاسی ارائه دهند، چه واکنشی نشان می‌دهند. بایدو، یک غول جستجو، سال‌ها به‌طور داخلی با LLMها آزمایش کرده بود و یکی به نام "ERNIE" ایجاد کرده بود، اما در انتشار آن برای عموم مردد بود. حتی زمانی که موفقیت ChatGPT باعث شد که آن را دوباره در نظر بگیرد، در ابتدا دسترسی به ERNIEbot را فقط با دعوت نامه مجاز کرد.

در نهایت مقامات چینی مقرراتی را برای تقویت صنعت AI صادر کردند. اگرچه آنها از سازندگان مدل خواستند که بر محتوای معتبر تأکید کنند و به "ارزش‌های سوسیالیستی" پایبند باشند، اما متعهد شدند که "توسعه نوآورانه AI مولد را تشویق کنند". ویویان توه، سردبیر سایت خبری TechTechChina، می گوید چین به دنبال رقابت در سطح جهانی بود. علی بابا یکی از اولین موج شرکت‌هایی بود که با محیط جدید مسامحه‌آمیز سازگار شد و LLM خود را راه‌اندازی کرد که در ابتدا Tongyi Qianwen نام داشت و بعداً به "Qwen" مخفف شد.

حدود یک سال، چیزی که علی بابا تولید کرد چیزی نبود که هیجان انگیز باشد: یک "انشعاب" نسبتاً نامتمایز بر اساس LLM متن باز لاما متا. اما در طول سال 2024، با انتشار مکرر نسخه‌های Qwen توسط علی بابا، کیفیت شروع به بهبود کرد. جک کلارک از Anthropic، یک آزمایشگاه AI غربی، یک سال پیش گفت: "به نظر می رسد این مدل ها با مدل های بسیار قدرتمندی که توسط آزمایشگاه های پیشرو در غرب توسعه یافته اند، رقابت می کنند." این زمانی بود که علی بابا نسخه ای از Qwen را منتشر کرد که قادر به تجزیه و تحلیل تصاویر و همچنین متن است.

دیگر غول‌های اینترنتی چین، از جمله تنسنت و هوآوی، در حال ساختن مدل‌های خود هستند. اما DeepSeek منشأ متفاوتی دارد. حتی زمانی که علی بابا اولین مدل Qwen را منتشر کرد، وجود نداشت. این شرکت از High-Flyer، یک صندوق تامینی که در سال 2015 تأسیس شد تا از AI برای به دست آوردن مزیت در معاملات سهام استفاده کند، نشأت گرفته است. انجام تحقیقات اساسی به High-Flyer کمک کرد تا به یکی از بزرگترین صندوق های کمّی در کشور تبدیل شود.

به گفته لیانگ ونفنگ، بنیانگذار High-Flyer، انگیزه صرفاً تجاری نبود. او مشاهده کرده است که اولین حامیان OpenAI به دنبال بازگشت سرمایه نبودند. انگیزه آنها "دنبال کردن ماموریت" بود. در همان ماهی که Qwen در سال 2023 راه اندازی شد، High-Flyer اعلام کرد که آن نیز وارد رقابت برای ایجاد هوش مصنوعی در سطح انسان شده است و واحد تحقیقات AI خود را به عنوان DeepSeek جدا کرده است.

DeepSeek، همانطور که OpenAI قبلاً انجام داده بود، وعده داد که AI را برای خیر عمومی توسعه دهد. آقای لیانگ گفت که این شرکت بیشتر نتایج آموزش خود را عمومی خواهد کرد تا از "انحصار" این فناوری توسط افراد یا شرکت‌های معدودی جلوگیری کند. برخلاف OpenAI، که مجبور شد به دنبال بودجه خصوصی برای پوشش هزینه‌های فزاینده آموزش باشد، DeepSeek همواره به ذخایر عظیم قدرت محاسباتی High-Flyer دسترسی داشته است.

llm غول پیکر DeepSeek نه تنها به دلیل مقیاس خود، بلکه به دلیل کارایی آموزش آن قابل توجه است، به این معنا که مدل از داده هایی که از آن پارامترهای خود را استنباط می کند، تغذیه می شود. نیک لین از دانشگاه کمبریج می گوید این موفقیت نه از یک نوآوری بزرگ، بلکه از یک سری پیشرفت های جزئی حاصل شده است. به عنوان مثال، فرآیند آموزش اغلب از گرد کردن برای آسان کردن محاسبات استفاده می کرد، اما در صورت لزوم اعداد را دقیق نگه می داشت. مزرعه سرور برای این پیکربندی شده بود که تراشه‌های منفرد بتوانند با کارایی بیشتری با یکدیگر صحبت کنند. و پس از آموزش مدل، بر روی خروجی DeepSeek R1، سیستم استدلال، تنظیم شد و یاد گرفت که چگونه کیفیت آن را با هزینه کمتری تقلید کند.

به لطف این نوآوری‌ها و نوآوری‌های دیگر، به دست آوردن میلیاردها پارامتر v3 کمتر از 3 میلیون ساعت تراشه طول کشید، با هزینه‌ای تخمینی کمتر از 6 میلیون دلار - حدود یک دهم قدرت محاسباتی و هزینه‌ای که برای Llama 3.1 صرف شد. آموزش v3 فقط به 2000 تراشه نیاز داشت، در حالی که Llama 3.1 از 16000 تراشه استفاده می کرد. و به دلیل تحریم های آمریکا، تراشه هایی که v3 استفاده می کرد حتی قدرتمندترین تراشه ها نبودند. به نظر می رسد شرکت های غربی بیشتر و بیشتر با تراشه ها اسراف می کنند: متا قصد دارد یک مزرعه سرور با استفاده از 350000 تراشه بسازد. آندره کارپاتی، رئیس سابق AI در تسلا، می‌گوید دیپ‌سیک مانند جینجر راجرز که برعکس و با کفش‌های پاشنه بلند می‌رقصد، آموزش یک مدل مرزی را "با بودجه‌ای مسخره" "آسان" کرده است.

نه تنها این مدل ارزان آموزش داده شد، بلکه اجرای آن نیز هزینه کمتری دارد. DeepSeek وظایف را به طور موثرتری نسبت به همتایان خود در چندین تراشه تقسیم می کند و قبل از اتمام مرحله قبلی، مرحله بعدی یک فرآیند را شروع می کند. این به آن اجازه می دهد تا تراشه ها را با ظرفیت کامل و با افزونگی کم کار نگه دارد. در نتیجه، در ماه فوریه، زمانی که DeepSeek به شرکت‌های دیگر اجازه می‌دهد تا خدماتی ایجاد کنند که از v3 استفاده می‌کنند، کمتر از یک دهم هزینه‌ای را که Anthropic برای استفاده از Claude، LLM خود، دریافت می‌کند، دریافت خواهد کرد. سایمون ویلیسون، متخصص AI می گوید: «اگر مدل ها واقعاً از کیفیت برابری برخوردار باشند، این یک چرخش جدید و چشمگیر در جنگ های قیمت گذاری مداوم LLM است.»

تلاش DeepSeek برای کارایی به اینجا ختم نشده است. این هفته، حتی در حالی که R1 را به طور کامل منتشر کرد، مجموعه ای از انواع "تقطیر شده" کوچکتر، ارزان تر و سریع تر را نیز منتشر کرد که تقریباً به اندازه مدل بزرگتر قدرتمند هستند. این تقلید از نسخه های مشابه از علی بابا و متا و بار دیگر ثابت کرد که می تواند با بزرگترین نام های این تجارت رقابت کند.

راه اژدها

علی بابا و دیپ‌سیک از جنبه دیگری نیز آزمایشگاه‌های پیشرفته غربی را به چالش می‌کشند. برخلاف OpenAI و گوگل، آزمایشگاه‌های چینی از متا پیروی می‌کنند و سیستم‌های خود را تحت لیسانس منبع باز در دسترس قرار می‌دهند. اگر می خواهید یک AI Qwen را دانلود کنید و برنامه نویسی خود را بر روی آن ایجاد کنید، می توانید - هیچ مجوز خاصی لازم نیست. این تساهل با گشودگی قابل توجهی همراه است: دو شرکت هر زمان که مدل های جدیدی را منتشر می کنند، مقالاتی را منتشر می کنند که جزئیات زیادی را در مورد تکنیک های مورد استفاده برای بهبود عملکرد آنها ارائه می دهند.

زمانی که علی بابا QwQ، مخفف "سوالات با Qwen" را منتشر کرد، اولین شرکتی در جهان شد که چنین مدلی را تحت لیسانس باز منتشر کرد و به هر کسی اجازه می داد فایل کامل 20 گیگابایتی را دانلود کرده و روی سیستم های خود اجرا کند یا آن را جدا کند تا ببیند چگونه کار می کند. این یک رویکرد کاملاً متفاوت از OpenAI است که عملکرد داخلی o1 را پنهان نگه می دارد.

به طور کلی، هر دو مدل از چیزی استفاده می کنند که به عنوان "محاسبه زمان آزمایش" شناخته می شود: به جای تمرکز بر استفاده از قدرت محاسباتی در طول آموزش مدل، آنها در هنگام پاسخ دادن به پرس و جوها نیز بسیار بیشتر مصرف می کنند نسبت به نسل‌های قبلی LLMها. این نسخه دیجیتالی چیزی است که دانیل کانمن، روانشناس، آن را تفکر "نوع دو" نامیده است: کندتر، سنجیده‌تر و تحلیلی‌تر از تفکر سریع و غریزی "نوع یک". این امر نتایج امیدوارکننده‌ای در زمینه‌هایی مانند ریاضیات و برنامه‌نویسی به دست داده است.

اگر از شما یک سوال ساده واقعی پرسیده شود - مثلاً نام پایتخت فرانسه را بگویید - احتمالاً با اولین کلمه ای که به ذهنتان می رسد پاسخ خواهید داد و احتمالاً درست خواهید بود. یک چت‌بات معمولی نیز به همین شکل عمل می‌کند: اگر نمایش آماری زبان پاسخ ترجیحی غالب را بدهد، جمله را بر این اساس کامل می‌کند.

اما اگر از شما سؤال پیچیده تری پرسیده شود، تمایل دارید به روش ساختار یافته تری در مورد آن فکر کنید. اگر از شما خواسته شود نام پنجمین شهر پرجمعیت فرانسه را بگویید، احتمالاً با ارائه یک لیست طولانی از شهرهای بزرگ فرانسه شروع می کنید. سپس سعی کنید آنها را بر اساس جمعیت مرتب کنید و فقط پس از آن پاسخ دهید.

ترفند برای o1 و مقلدان آن این است که یک LLM را وادار کنیم تا به همان شکل تفکر ساختاریافته بپردازد: به جای اینکه محتمل ترین پاسخی را که به ذهنش می رسد بیان کند، سیستم به جای آن مسئله را جدا می کند و گام به گام به سمت پاسخ می رود.

اما o1 افکار خود را برای خود نگه می دارد و فقط خلاصه ای از روند و نتیجه نهایی خود را به کاربران نشان می دهد. OpenAI به برخی توجیهات برای این انتخاب اشاره کرد. به عنوان مثال، گاهی اوقات مدل فکر می کند که آیا از کلمات توهین آمیز استفاده کند یا اطلاعات خطرناک را فاش کند، اما سپس تصمیم می گیرد که این کار را نکند. اگر استدلال کامل آن آشکار شود، مواد حساس نیز آشکار خواهد شد. اما احتیاط مدل همچنین مکانیک دقیق استدلال آن را از کپی‌کننده‌های احتمالی پنهان نگه می‌دارد.

علی بابا چنین تردیدی ندارد. از QwQ بخواهید یک مسئله ریاضی پیچیده را حل کند و با خوشحالی تمام مراحل سفر خود را با جزئیات شرح می دهد، گاهی هزاران کلمه با خود صحبت می کند زیرا رویکردهای مختلفی را برای این کار امتحان می کند. مدل شروع به این می کند: "بنابراین من باید کوچکترین عامل اول فرد 20198 + 1 را پیدا کنم. هوم، به نظر می رسد خیلی بزرگ است، اما فکر می کنم می توانم آن را گام به گام تجزیه کنم." و قبل از اینکه به این نتیجه برسد که پاسخ 97 است، 2000 کلمه تحلیل ایجاد می کند.

ایسو کانت، یکی از بنیانگذاران Poolside، شرکتی مستقر در پرتغال که یک ابزار AI برای برنامه نویسان می سازد، می گوید، باز بودن علی بابا تصادفی نیست. او خاطرنشان می کند که آزمایشگاه های چینی در نبرد برای به دست آوردن همان استعدادهای بقیه صنعت درگیر هستند. "اگر شما یک محققی هستید که قصد دارید به خارج از کشور نقل مکان کنید، چه چیزی است که آزمایشگاه های غربی نمی توانند به شما بدهند؟ ما دیگر نمی توانیم چیزهای خود را باز کنیم. ما به دلیل ماهیت مسابقه ای که در آن هستیم، همه چیز را تحت قفل و کلید نگه می داریم." آقای کانت می گوید حتی اگر مهندسان شرکت های چینی اولین کسانی نباشند که یک تکنیک را کشف می کنند، اغلب اولین کسانی هستند که آن را منتشر می کنند. "اگر می خواهید ببینید که تکنیک های مخفی بیرون می آیند، محققان منبع باز چینی را دنبال کنید. آنها همه چیز را منتشر می کنند و کار فوق العاده ای در این زمینه انجام می دهند." آقای لین خاطرنشان می کند که مقاله ای که همراه با انتشار v3 بود، 139 نویسنده را با نام ذکر کرده است. چنین تحسینی ممکن است جذاب تر از کار کردن در گمنامی در یک آزمایشگاه آمریکایی باشد.

عزم دولت آمریکا برای متوقف کردن جریان فناوری پیشرفته به چین نیز زندگی را برای محققان چینی در آمریکا ناخوشایندتر کرده است. مشکل فقط بار اداری ناشی از قوانین جدید نیست که هدف آن پنهان نگه داشتن آخرین نوآوری ها است. اغلب فضای مبهمی از سوء ظن نیز وجود دارد. اتهامات جاسوسی حتی در رویدادهای اجتماعی نیز مطرح می شود.

رئیس بزرگ

کار در چین نیز جنبه های منفی خود را دارد. به عنوان مثال، از DeepSeek v3 در مورد تایوان بپرسید، و مدل با خوشحالی شروع به توضیح می کند که این جزیره در شرق آسیا است که "رسماً به عنوان جمهوری چین شناخته می شود". اما پس از نوشتن چند جمله در این راستا، خودش را متوقف می کند، پاسخ اولیه خود را حذف می کند و در عوض به طور خلاصه پیشنهاد می دهد: "بیا در مورد چیز دیگری صحبت کنیم."

آزمایشگاه‌های چینی تا حدی شفاف‌تر از دولت خود هستند، زیرا می‌خواهند اکوسیستمی از شرکت‌ها را در اطراف AI خود ایجاد کنند. این امر از نظر تجاری ارزشی دارد، زیرا شرکت‌هایی که بر روی مدل‌های منبع باز ساخته می‌شوند ممکن است در نهایت متقاعد شوند که محصولات یا خدماتی را از سازندگان خود خریداری کنند. همچنین یک مزیت استراتژیک برای چین به ارمغان می آورد، به این معنا که متحدانی را در درگیری خود با آمریکا بر سر AI ایجاد می کند.

شرکت های چینی طبیعتا ترجیح می دهند بر روی مدل های چینی بسازند، زیرا در این صورت نیازی به نگرانی در مورد این که ممنوعیت ها یا محدودیت های جدید آنها را از پلتفرم زیربنایی قطع کند، ندارند. آنها همچنین می دانند که بعید است از الزامات سانسور در چین که مدل های غربی به آن توجه نمی کنند، تخطی کنند. فرانسیس یانگ، سرمایه گذار فناوری مستقر در شانگهای، خاطرنشان می کند که برای شرکت هایی مانند اپل و سامسونگ که مشتاق ساخت ابزارهای AI در دستگاه هایی هستند که در چین می فروشند، شرکای محلی ضروری هستند. و حتی برخی از شرکت‌های خارجی دلایل خاصی برای استفاده از مدل‌های چینی دارند: Qwen عمداً با تسلط بر زبان‌های «منابع کم» مانند اردو و بنگالی پر شده است، در حالی که مدل‌های آمریکایی با استفاده از داده‌های عمدتاً انگلیسی آموزش دیده‌اند. و سپس جذابیت عظیم هزینه های کمتر مدل های چینی وجود دارد.

این لزوماً به این معنا نیست که مدل های چینی جهان را درو خواهند کرد. AI آمریکایی هنوز قابلیت هایی دارد که رقبای چینی آن هنوز نمی توانند با آنها مطابقت داشته باشند. یک برنامه تحقیقاتی از گوگل مرورگر وب کاربر را به چت بات Gemini خود تحویل می‌دهد و چشم انداز "عاملان" AI را که با وب تعامل دارند افزایش می دهد. چت بات های Anthropic و OpenAI نه تنها به شما در نوشتن کد کمک می کنند، بلکه آن را برای شما نیز اجرا می کنند. کلود کل برنامه ها را می سازد و میزبانی می کند. و استدلال گام به گام تنها راه حل مسائل پیچیده نیست. از نسخه متعارف ChatGPT سوال ریاضی بالا را بپرسید و یک برنامه ساده برای یافتن پاسخ می نویسد.

به گفته آقای آلتمن، نوآوری های بیشتری در دست بررسی است. انتظار می رود وی به زودی اعلام کند که OpenAI "عامل های فوق العاده در سطح PhD" ساخته است که به اندازه متخصصان انسانی در طیف وسیعی از وظایف فکری توانمند هستند. رقابتی که در پی پاهای AI آمریکا است، ممکن است هنوز آن را به چیزهای بزرگتری سوق دهد.