شرکت Ant با پشتیبانی جک ما، از پیشرفت هوش مصنوعی ساخته شده بر روی تراشه‌های چینی خبر داد

به گفته منابع آگاه، شرکت گروه Ant با پشتیبانی جک ما، از نیمه‌رساناهای ساخت چین برای توسعه تکنیک‌هایی برای آموزش مدل‌های هوش مصنوعی استفاده کرده است که هزینه‌ها را تا ۲۰٪ کاهش می‌دهد.

به گفته این منابع، Ant از تراشه‌های داخلی، از جمله تراشه‌های شرکت‌های وابسته Alibaba Group Holding Ltd. و Huawei Technologies Co.، برای آموزش مدل‌ها با استفاده از رویکرد یادگیری ماشین به اصطلاح Mixture of Experts استفاده کرده است. به گفته آن‌ها، نتایج مشابهی با تراشه‌های Nvidia Corp. مانند H800 به دست آمده است. این منابع خواستند نامشان فاش نشود زیرا این اطلاعات عمومی نیست. یکی از این افراد گفت که Ant هنوز از Nvidia برای توسعه هوش مصنوعی استفاده می‌کند، اما اکنون بیشتر به جایگزین‌هایی از جمله Advanced Micro Devices Inc. و تراشه‌های چینی برای جدیدترین مدل‌های خود متکی است.

این مدل‌ها نشان‌دهنده ورود Ant به مسابقه‌ای بین شرکت‌های چینی و آمریکایی است که از زمانی که DeepSeek نشان داد که چگونه مدل‌های توانمند را می‌توان با هزینه بسیار کمتری نسبت به میلیاردها سرمایه‌گذاری شده توسط OpenAI و Alphabet Inc.’s Google آموزش داد، شتاب گرفته است. این موضوع تأکید می‌کند که چگونه شرکت‌های چینی در تلاشند تا از جایگزین‌های محلی برای پیشرفته‌ترین نیمه‌رساناهای Nvidia استفاده کنند. H800، در حالی که پیشرفته‌ترین نیست، یک پردازنده نسبتاً قدرتمند است و در حال حاضر توسط ایالات متحده از چین منع شده است.

این شرکت در این ماه یک مقاله تحقیقاتی منتشر کرد که ادعا می‌کرد مدل‌های آن گاهی اوقات در برخی معیارها از Meta Platforms Inc. عملکرد بهتری دارند، که بلومبرگ نیوز به طور مستقل آن را تأیید نکرده است. اما اگر پلتفرم‌های Ant همانطور که تبلیغ شده کار کنند، می‌توانند گام دیگری به جلو برای توسعه هوش مصنوعی چین با کاهش هزینه استنتاج یا پشتیبانی از خدمات هوش مصنوعی باشند.

از آنجایی که شرکت‌ها پول قابل توجهی را در هوش مصنوعی سرمایه‌گذاری می‌کنند، مدل‌های MoE به عنوان یک گزینه محبوب ظاهر شده‌اند و به دلیل استفاده توسط گوگل و استارت‌آپ Hangzhou DeepSeek و دیگران، شناخته شده‌اند. این تکنیک وظایف را به مجموعه‌های کوچکتر داده تقسیم می‌کند، درست مانند داشتن تیمی از متخصصان که هر کدام روی بخشی از یک کار تمرکز می‌کنند و روند را کارآمدتر می‌کنند. Ant در یک بیانیه ایمیلی از اظهار نظر خودداری کرد.

با این حال، آموزش مدل‌های MoE معمولاً به تراشه‌های با کارایی بالا مانند واحدهای پردازش گرافیکی که Nvidia به فروش می‌رساند، متکی است. هزینه تا به امروز برای بسیاری از شرکت‌های کوچک بازدارنده بوده و پذیرش گسترده‌تر را محدود کرده است. Ant در حال کار بر روی راه‌هایی برای آموزش LLMها به طور کارآمدتر و حذف این محدودیت بوده است. عنوان مقاله آن این موضوع را روشن می‌کند، زیرا این شرکت هدف خود را مقیاس‌بندی یک مدل "بدون GPUهای ممتاز" تعیین می‌کند.

این موضوع برخلاف نظر Nvidia است. جنسن هوانگ، مدیر اجرایی، استدلال کرده است که تقاضای محاسباتی حتی با ظهور مدل‌های کارآمدتر مانند R1 DeepSeek افزایش خواهد یافت، و بیان می‌کند که شرکت‌ها برای تولید درآمد بیشتر به تراشه‌های بهتری نیاز دارند، نه تراشه‌های ارزان‌تر برای کاهش هزینه‌ها. او به استراتژی ساخت GPUهای بزرگ با هسته‌های پردازشی بیشتر، ترانزیستورها و ظرفیت حافظه افزایش یافته پایبند بوده است.

آنچه بلومبرگ اینتلیجنس می‌گوید

مقاله گروه Ant نوآوری رو به رشد و سرعت فزاینده پیشرفت‌های فناوری در بخش هوش مصنوعی چین را برجسته می‌کند. ادعای این شرکت، در صورت تأیید، نشان می‌دهد که چین در راه خودکفایی در هوش مصنوعی قرار دارد زیرا این کشور به مدل‌های کم‌هزینه‌تر و کارآمدتر از نظر محاسباتی روی می‌آورد تا کنترل‌های صادراتی بر روی تراشه‌های Nvidia را دور بزند.

— رابرت لی، تحلیلگر ارشد BI

Ant گفت که آموزش ۱ تریلیون توکن با استفاده از سخت‌افزار با کارایی بالا حدود ۶.۳۵ میلیون یوان (۸۸۰,۰۰۰ دلار) هزینه دارد، اما رویکرد بهینه‌سازی شده آن با استفاده از سخت‌افزار با مشخصات پایین‌تر، این هزینه را به ۵.۱ میلیون یوان کاهش می‌دهد. توکن‌ها واحدهای اطلاعاتی هستند که یک مدل برای یادگیری در مورد جهان و ارائه پاسخ‌های مفید به پرسش‌های کاربر، مصرف می‌کند.

به گفته این منابع، این شرکت قصد دارد از پیشرفت اخیر در مدل‌های زبان بزرگ توسعه یافته خود، Ling-Plus و Ling-Lite، برای راهکارهای هوش مصنوعی صنعتی از جمله مراقبت‌های بهداشتی و مالی استفاده کند.

Ant در سال جاری پلتفرم آنلاین چینی Haodf.com را خریداری کرد تا خدمات هوش مصنوعی خود را در مراقبت‌های بهداشتی تقویت کند. همچنین دارای یک برنامه "دستیار زندگی" هوش مصنوعی به نام Zhixiaobao و یک سرویس مشاوره مالی هوش مصنوعی به نام Maxiaocai است.

Ant در مقاله خود گفت که مدل Ling-Lite در درک زبان انگلیسی در مقایسه با یکی از مدل‌های Llama Meta در یک معیار کلیدی عملکرد بهتری داشته است. مدل‌های Ling-Lite و Ling-Plus هر دو در معیارهای زبان چینی از معادل‌های DeepSeek عملکرد بهتری داشتند.

رابین یو، مدیر ارشد فناوری شرکت ارائه‌دهنده راهکارهای هوش مصنوعی Shengshang Tech Co. مستقر در پکن، گفت: «اگر بتوانید یک نقطه حمله پیدا کنید تا بهترین استاد کونگ‌فو جهان را شکست دهید، باز هم می‌توانید بگویید که او را شکست داده‌اید، به همین دلیل است که کاربرد در دنیای واقعی مهم است.»

Ant مدل‌های Ling را منبع باز کرده است. Ling-Lite شامل ۱۶.۸ میلیارد پارامتر است که تنظیمات قابل تنظیمی هستند که مانند دستگیره‌ها و شماره‌گیرها برای هدایت عملکرد مدل عمل می‌کنند. Ling-Plus دارای ۲۹۰ میلیارد پارامتر است که در قلمرو مدل‌های زبان نسبتاً بزرگ در نظر گرفته می‌شود. برای مقایسه، کارشناسان تخمین می‌زنند که GPT-4.5 ChatGPT دارای ۱.۸ تریلیون پارامتر است، به گفته MIT Technology Review. DeepSeek-R1 دارای ۶۷۱ میلیارد پارامتر است.

Ant در برخی زمینه‌های آموزش، از جمله ثبات، با چالش‌هایی روبرو شد. در این مقاله آمده است که حتی تغییرات کوچک در سخت‌افزار یا ساختار مدل منجر به مشکلاتی از جمله جهش در نرخ خطای مدل‌ها شده است.

— با همکاری دبی وو