چگونه استارتاپ کوچک هوش مصنوعی چینی DeepSeek سیلیکون ولی را شوکه کرد

یک آزمایشگاه کوچک هوش مصنوعی چینی این هفته با افشای دستورالعمل فنی مدل پیشرفته خود، جهان را شگفت‌زده کرد و رهبر گوشه‌گیر خود را به یک قهرمان ملی تبدیل کرد که تلاش‌های آمریکا برای متوقف کردن جاه‌طلبی‌های فناوری پیشرفته چین را به چالش کشیده است.

DeepSeek که توسط مدیر صندوق پوشش ریسک، لیانگ ونفنگ، تأسیس شده است، روز دوشنبه مدل R1 خود را منتشر کرد و در یک مقاله مفصل توضیح داد که چگونه یک مدل زبان بزرگ را با بودجه محدود ساخت که می‌تواند به طور خودکار یاد بگیرد و بدون نظارت انسان خود را بهبود بخشد.

شرکت‌های آمریکایی از جمله OpenAI و Google DeepMind پیشگام توسعه در مدل‌های استدلال بودند، یک زمینه نسبتاً جدید تحقیقات هوش مصنوعی که تلاش می‌کند مدل‌ها را با قابلیت‌های شناختی انسان مطابقت دهد. در دسامبر، OpenAI مستقر در سانفرانسیسکو نسخه کامل مدل o1 خود را منتشر کرد، اما روش‌های خود را مخفی نگه داشت.

انتشار R1 توسط DeepSeek بحثی دیوانه‌وار را در سیلیکون ولی برانگیخت که آیا شرکت‌های هوش مصنوعی آمریکایی با منابع بهتر، از جمله متا و آنتروپیک، می‌توانند از برتری فنی خود دفاع کنند یا خیر.

در همین حال، لیانگ به یک کانون غرور ملی در خانه تبدیل شده است. این هفته، او تنها رهبر هوش مصنوعی بود که برای شرکت در جلسه عمومی کارآفرینان با دومین رهبر قدرتمند کشور، لی چیانگ، انتخاب شد. به کارآفرینان گفته شد که "تلاش‌ها را برای شکستن فناوری‌های اصلی کلیدی متمرکز کنند."

در سال 2021، لیانگ در حالی که صندوق معاملات کمی خود، High-Flyer، را اداره می‌کرد، شروع به خرید هزاران واحد پردازش گرافیکی Nvidia برای پروژه جانبی هوش مصنوعی خود کرد. فعالان صنعت این اقدام را به عنوان اقدامات غیرعادی یک میلیاردر که به دنبال سرگرمی جدیدی است، تلقی کردند.

یکی از شرکای تجاری لیانگ گفت: "وقتی اولین بار با او ملاقات کردیم، او یک آدم خیلی درس‌خوان با مدل موی وحشتناک بود که در مورد ساخت یک خوشه 10000 تراشه برای آموزش مدل‌های خود صحبت می‌کرد. ما او را جدی نگرفتیم."

این شخص افزود: "او نمی‌توانست چشم‌انداز خود را به جز اینکه بگوید: من می‌خواهم این را بسازم و این یک تغییر دهنده بازی خواهد بود، بیان کند. ما فکر می‌کردیم این فقط از غول‌هایی مانند ByteDance و Alibaba ممکن است."

وضعیت لیانگ به عنوان یک فرد خارجی در زمینه هوش مصنوعی منبع غیرمنتظره‌ای از قدرت بود. در High-Flyer، او با استفاده از هوش مصنوعی و الگوریتم‌ها برای شناسایی الگوهایی که می‌توانند بر قیمت سهام تأثیر بگذارند، ثروتی به دست آورد. تیم او در استفاده از تراشه‌های Nvidia برای کسب درآمد از معاملات سهام ماهر شدند. در سال 2023، او DeepSeek را راه‌اندازی کرد و قصد خود را برای توسعه هوش مصنوعی در سطح انسان اعلام کرد.

یکی از بنیانگذاران یک شرکت رقیب LLM گفت: "لیانگ یک تیم زیرساخت استثنایی ساخت که واقعاً می‌دانند تراشه‌ها چگونه کار می‌کنند." "او بهترین افراد خود را از صندوق پوشش ریسک به DeepSeek برد."

پس از اینکه واشنگتن صادرات قدرتمندترین تراشه‌های خود را به چین ممنوع کرد، شرکت‌های هوش مصنوعی محلی مجبور شده‌اند راه‌های نوآورانه‌ای برای به حداکثر رساندن قدرت محاسباتی تعداد محدودی از تراشه‌های داخلی پیدا کنند - مشکلی که تیم لیانگ قبلاً نحوه حل آن را می‌دانست.

یکی از محققان هوش مصنوعی نزدیک به این شرکت گفت: "مهندسان DeepSeek می‌دانند چگونه پتانسیل این GPUها را باز کنند، حتی اگر پیشرفته‌ترین نباشند."

فعالان صنعت می‌گویند تمرکز خاص DeepSeek بر تحقیقات، آن را به یک رقیب خطرناک تبدیل می‌کند، زیرا حاضر است دستاوردهای خود را به اشتراک بگذارد تا اینکه از آنها برای منافع تجاری محافظت کند. DeepSeek از صندوق‌های خارجی پول جمع‌آوری نکرده یا اقدامات قابل توجهی برای کسب درآمد از مدل‌های خود انجام نداده است.

یکی از سرمایه گذاران هوش مصنوعی در پکن گفت: "DeepSeek مانند روزهای اولیه DeepMind اداره می‌شود." "این شرکت صرفاً بر تحقیق و مهندسی متمرکز است."

لیانگ که شخصاً در تحقیقات DeepSeek دخیل است، از عواید معاملات صندوق پوشش ریسک خود برای پرداخت حقوق بالای بهترین استعدادهای هوش مصنوعی استفاده می‌کند. DeepSeek به همراه ByteDance مالک TikTok، به دلیل دادن بالاترین دستمزد موجود به مهندسان هوش مصنوعی در چین، که کارمندان آن در دفاتر هانگژو و پکن مستقر هستند، شناخته شده است.

یکی از شرکای تجاری گفت: "دفاتر DeepSeek شبیه یک پردیس دانشگاهی برای محققان جدی است." "تیم به چشم انداز لیانگ ایمان دارد: تا به جهانیان نشان دهد که چینی‌ها می‌توانند خلاق باشند و چیزی را از صفر بسازند."

DeepSeek و High-Flyer به درخواست برای اظهار نظر پاسخی ندادند.

لیانگ DeepSeek را به عنوان یک شرکت منحصراً "محلی" معرفی کرده است که پر از دکترا از بهترین مدارس چینی، دانشگاه‌های پکن، تسینگ هوا و بیهانگ است تا کارشناسان مؤسسات آمریکایی.

وی در مصاحبه‌ای با مطبوعات داخلی در سال گذشته گفت که تیم اصلی او «افرادی نداشت که از خارج بازگشته باشند. همه آنها محلی هستند. . . ما باید خودمان استعدادهای برتر را توسعه دهیم». هویت DeepSeek به عنوان یک شرکت LLM صرفاً چینی باعث شده تا در داخل کشور مورد تحسین قرار گیرد.

DeepSeek ادعا کرد که برای آموزش مدلی با 671 میلیارد پارامتر، تنها از 2048 عدد Nvidia H800 و 5.6 میلیون دلار استفاده کرده است، کسری از آنچه OpenAI و گوگل برای آموزش مدل‌های با اندازه قابل مقایسه صرف کرده‌اند.

ریتویگ گوپتا، محقق سیاست هوش مصنوعی در دانشگاه کالیفرنیا، برکلی، گفت که نسخه‌های اخیر مدل DeepSeek نشان می‌دهد که "وقتی صحبت از قابلیت‌های هوش مصنوعی به میان می‌آید، هیچ خندقی وجود ندارد".

او گفت: "اولین کسی که مدل‌ها را آموزش می‌دهد باید منابع زیادی را برای رسیدن به آنجا صرف کند." "اما حرکت کننده دوم می‌تواند ارزان‌تر و سریع‌تر به آنجا برسد."

گوپتا افزود که چین در مقایسه با ایالات متحده، استعداد بیشتری از مهندسان سیستم دارد که می‌دانند چگونه از منابع محاسباتی برای آموزش و اجرای مدل‌ها به صورت ارزان‌تر استفاده کنند.

فعالان صنعت می‌گویند حتی اگر DeepSeek نتایج چشمگیری را با منابع محدود نشان داده است، این سوال همچنان باز است که آیا می‌تواند با تکامل صنعت به رقابت ادامه دهد یا خیر.

بازده در High-Flyer، پشتیبان بزرگ آن، در سال 2024 کاهش یافت، که یکی از نزدیکان لیانگ دلیل آن را تمرکز بیشتر بنیانگذار بر DeepSeek عنوان کرد.

رقبای آمریکایی آن ساکت ننشسته‌اند. آنها در حال ساخت "خوشه‌های" بزرگ تراشه‌های بلک ول نسل بعدی Nvidia هستند و قدرت محاسباتی را ایجاد می‌کنند که تهدید می‌کند بار دیگر شکاف عملکرد را با رقبای چینی ایجاد کند.

این هفته، OpenAI اعلام کرد که در حال ایجاد یک سرمایه گذاری مشترک با سافت بانک ژاپن است که استارگیت نام دارد، با برنامه ریزی برای صرف حداقل 100 میلیارد دلار برای زیرساخت هوش مصنوعی در ایالات متحده. xAI متعلق به ایلان ماسک در حال گسترش گسترده ابررایانه کلوسوس خود است تا بیش از 1 میلیون GPU برای کمک به آموزش مدل‌های هوش مصنوعی Grok خود در خود جای دهد.

یکی از شرکای تجاری لیانگ گفت: "DeepSeek یکی از بزرگترین خوشه‌های محاسباتی پیشرفته در چین را دارد." "آنها در حال حاضر ظرفیت کافی دارند، اما نه برای مدت طولانی."

گزارش تکمیلی از ونژی دینگ در پکن

https://www.ft.com/content/747a7b11-dcba-4aa5-8d25-403f56216d7e