به گفته منابع آگاه، شرکت گروه Ant با پشتیبانی جک ما، از نیمهرساناهای ساخت چین برای توسعه تکنیکهایی برای آموزش مدلهای هوش مصنوعی استفاده کرده است که هزینهها را تا ۲۰٪ کاهش میدهد.
به گفته این منابع، Ant از تراشههای داخلی، از جمله تراشههای شرکتهای وابسته Alibaba Group Holding Ltd. و Huawei Technologies Co.، برای آموزش مدلها با استفاده از رویکرد یادگیری ماشین به اصطلاح Mixture of Experts استفاده کرده است. به گفته آنها، نتایج مشابهی با تراشههای Nvidia Corp. مانند H800 به دست آمده است. این منابع خواستند نامشان فاش نشود زیرا این اطلاعات عمومی نیست. یکی از این افراد گفت که Ant هنوز از Nvidia برای توسعه هوش مصنوعی استفاده میکند، اما اکنون بیشتر به جایگزینهایی از جمله Advanced Micro Devices Inc. و تراشههای چینی برای جدیدترین مدلهای خود متکی است.
این مدلها نشاندهنده ورود Ant به مسابقهای بین شرکتهای چینی و آمریکایی است که از زمانی که DeepSeek نشان داد که چگونه مدلهای توانمند را میتوان با هزینه بسیار کمتری نسبت به میلیاردها سرمایهگذاری شده توسط OpenAI و Alphabet Inc.’s Google آموزش داد، شتاب گرفته است. این موضوع تأکید میکند که چگونه شرکتهای چینی در تلاشند تا از جایگزینهای محلی برای پیشرفتهترین نیمهرساناهای Nvidia استفاده کنند. H800، در حالی که پیشرفتهترین نیست، یک پردازنده نسبتاً قدرتمند است و در حال حاضر توسط ایالات متحده از چین منع شده است.
این شرکت در این ماه یک مقاله تحقیقاتی منتشر کرد که ادعا میکرد مدلهای آن گاهی اوقات در برخی معیارها از Meta Platforms Inc. عملکرد بهتری دارند، که بلومبرگ نیوز به طور مستقل آن را تأیید نکرده است. اما اگر پلتفرمهای Ant همانطور که تبلیغ شده کار کنند، میتوانند گام دیگری به جلو برای توسعه هوش مصنوعی چین با کاهش هزینه استنتاج یا پشتیبانی از خدمات هوش مصنوعی باشند.
از آنجایی که شرکتها پول قابل توجهی را در هوش مصنوعی سرمایهگذاری میکنند، مدلهای MoE به عنوان یک گزینه محبوب ظاهر شدهاند و به دلیل استفاده توسط گوگل و استارتآپ Hangzhou DeepSeek و دیگران، شناخته شدهاند. این تکنیک وظایف را به مجموعههای کوچکتر داده تقسیم میکند، درست مانند داشتن تیمی از متخصصان که هر کدام روی بخشی از یک کار تمرکز میکنند و روند را کارآمدتر میکنند. Ant در یک بیانیه ایمیلی از اظهار نظر خودداری کرد.
با این حال، آموزش مدلهای MoE معمولاً به تراشههای با کارایی بالا مانند واحدهای پردازش گرافیکی که Nvidia به فروش میرساند، متکی است. هزینه تا به امروز برای بسیاری از شرکتهای کوچک بازدارنده بوده و پذیرش گستردهتر را محدود کرده است. Ant در حال کار بر روی راههایی برای آموزش LLMها به طور کارآمدتر و حذف این محدودیت بوده است. عنوان مقاله آن این موضوع را روشن میکند، زیرا این شرکت هدف خود را مقیاسبندی یک مدل "بدون GPUهای ممتاز" تعیین میکند.
این موضوع برخلاف نظر Nvidia است. جنسن هوانگ، مدیر اجرایی، استدلال کرده است که تقاضای محاسباتی حتی با ظهور مدلهای کارآمدتر مانند R1 DeepSeek افزایش خواهد یافت، و بیان میکند که شرکتها برای تولید درآمد بیشتر به تراشههای بهتری نیاز دارند، نه تراشههای ارزانتر برای کاهش هزینهها. او به استراتژی ساخت GPUهای بزرگ با هستههای پردازشی بیشتر، ترانزیستورها و ظرفیت حافظه افزایش یافته پایبند بوده است.
آنچه بلومبرگ اینتلیجنس میگوید
مقاله گروه Ant نوآوری رو به رشد و سرعت فزاینده پیشرفتهای فناوری در بخش هوش مصنوعی چین را برجسته میکند. ادعای این شرکت، در صورت تأیید، نشان میدهد که چین در راه خودکفایی در هوش مصنوعی قرار دارد زیرا این کشور به مدلهای کمهزینهتر و کارآمدتر از نظر محاسباتی روی میآورد تا کنترلهای صادراتی بر روی تراشههای Nvidia را دور بزند.
— رابرت لی، تحلیلگر ارشد BI
Ant گفت که آموزش ۱ تریلیون توکن با استفاده از سختافزار با کارایی بالا حدود ۶.۳۵ میلیون یوان (۸۸۰,۰۰۰ دلار) هزینه دارد، اما رویکرد بهینهسازی شده آن با استفاده از سختافزار با مشخصات پایینتر، این هزینه را به ۵.۱ میلیون یوان کاهش میدهد. توکنها واحدهای اطلاعاتی هستند که یک مدل برای یادگیری در مورد جهان و ارائه پاسخهای مفید به پرسشهای کاربر، مصرف میکند.
به گفته این منابع، این شرکت قصد دارد از پیشرفت اخیر در مدلهای زبان بزرگ توسعه یافته خود، Ling-Plus و Ling-Lite، برای راهکارهای هوش مصنوعی صنعتی از جمله مراقبتهای بهداشتی و مالی استفاده کند.
Ant در سال جاری پلتفرم آنلاین چینی Haodf.com را خریداری کرد تا خدمات هوش مصنوعی خود را در مراقبتهای بهداشتی تقویت کند. همچنین دارای یک برنامه "دستیار زندگی" هوش مصنوعی به نام Zhixiaobao و یک سرویس مشاوره مالی هوش مصنوعی به نام Maxiaocai است.
Ant در مقاله خود گفت که مدل Ling-Lite در درک زبان انگلیسی در مقایسه با یکی از مدلهای Llama Meta در یک معیار کلیدی عملکرد بهتری داشته است. مدلهای Ling-Lite و Ling-Plus هر دو در معیارهای زبان چینی از معادلهای DeepSeek عملکرد بهتری داشتند.
رابین یو، مدیر ارشد فناوری شرکت ارائهدهنده راهکارهای هوش مصنوعی Shengshang Tech Co. مستقر در پکن، گفت: «اگر بتوانید یک نقطه حمله پیدا کنید تا بهترین استاد کونگفو جهان را شکست دهید، باز هم میتوانید بگویید که او را شکست دادهاید، به همین دلیل است که کاربرد در دنیای واقعی مهم است.»
Ant مدلهای Ling را منبع باز کرده است. Ling-Lite شامل ۱۶.۸ میلیارد پارامتر است که تنظیمات قابل تنظیمی هستند که مانند دستگیرهها و شمارهگیرها برای هدایت عملکرد مدل عمل میکنند. Ling-Plus دارای ۲۹۰ میلیارد پارامتر است که در قلمرو مدلهای زبان نسبتاً بزرگ در نظر گرفته میشود. برای مقایسه، کارشناسان تخمین میزنند که GPT-4.5 ChatGPT دارای ۱.۸ تریلیون پارامتر است، به گفته MIT Technology Review. DeepSeek-R1 دارای ۶۷۱ میلیارد پارامتر است.
Ant در برخی زمینههای آموزش، از جمله ثبات، با چالشهایی روبرو شد. در این مقاله آمده است که حتی تغییرات کوچک در سختافزار یا ساختار مدل منجر به مشکلاتی از جمله جهش در نرخ خطای مدلها شده است.
— با همکاری دبی وو