«خوشا به حال فقیران GPU، زیرا آنان وارث هوش مصنوعی عمومی خواهند بود.»
تا همین اواخر، اجرای یک مدل زبانی بزرگ (LLM) به معنای تکیه بر واحدهای پردازش گرافیکی (GPU) عظیم و سختافزار گرانقیمت بود. اما اکنون، اوضاع در حال تغییر است. موج جدیدی از مدلهای زبانی بزرگ کوچکتر و کارآمدتر در حال ظهور است که قادر به اجرا بر روی یک GPU بدون افت عملکرد هستند. این مدلها، هوش مصنوعی سطح بالا را در دسترستر میکنند، وابستگی به زیرساختهای بزرگ را کاهش میدهند و نحوه استقرار هوش مصنوعی را تغییر میدهند.
همانطور که بویان تونگوز، مهندس ارشد نرمافزار سابق NVIDIA، به گفت: «خوشا به حال فقیران GPU، زیرا آنان وارث هوش مصنوعی عمومی خواهند بود.»
در هفته گذشته، مجموعهای از اعلامیهها در زمینه هوش مصنوعی منتشر شده است. آخرین مدل میسترال، Small 3.1، Gemma 3 گوگل و Command A کوهر، همگی ادعا میکنند که با عملکرد مدلهای اختصاصی برابری میکنند در حالی که به منابع محاسباتی کمتری نیاز دارند.
این مدلها، توسعهدهندگان، کسبوکارهای کوچک و حتی علاقهمندان دارای سختافزار در سطح مصرفکننده (به عنوان مثال، یک کارت NVIDIA RTX) را قادر میسازند تا مدلهای هوش مصنوعی پیشرفته را به صورت محلی اجرا کنند.
علاوه بر این، اجرای LLMها به صورت محلی بر روی یک GPU، وابستگی به ارائهدهندگان ابری مانند AWS یا Google Cloud را کاهش میدهد و به کسبوکارها کنترل بیشتری بر دادهها و حریم خصوصی خود میدهد. این امر برای صنایعی که اطلاعات حساس را مدیریت میکنند و مناطقی که دسترسی محدودی به اینترنت دارند، بسیار حیاتی است.
چه چیزی آنها را خاص میکند؟
با این حال، یکی از برجستهترین ویژگیهای این مدل این است که میتواند بر روی یک RTX 4090 یا یک Mac با 32 گیگابایت رم اجرا شود، که آن را برای موارد استفاده روی دستگاه بسیار مناسب میسازد. این شرکت اعلام کرده است که این مدل میتواند برای تخصص در زمینههای خاص، تنظیم دقیق شود و متخصصان موضوعی دقیقی ایجاد کند. این امر به ویژه در زمینههایی مانند مشاوره حقوقی، تشخیص پزشکی و پشتیبانی فنی مفید است.
از سوی دیگر، گوگل ادعا میکند که Gemma 3 در ارزیابیهای اولیه ترجیح انسانی در تابلوی امتیازات LMArena، از Llama 3-405B، DeepSeek-V3 و o3-mini عملکرد بهتری دارد. مانند Mistral 3.1، این مدل نیز میتواند بر روی یک GPU یا یک واحد پردازش تانسور (TPU) اجرا شود.
یکی از کاربران X گفت: «در مقایسه با Mistral Large یا Llama 3 405B که به 32 GPU نیاز دارند، Gemma 3 هزینهها را کاهش میدهد و درها را برای سازندگان باز میکند.» شایان ذکر است، یک GPU NVIDIA RTX یا H100 بسیار مقرون به صرفهتر از خوشههای چند GPU است، که هوش مصنوعی را برای استارتآپها و توسعهدهندگان فردی مقرون به صرفه میسازد.
Gemma 3 27B با اجرای بر روی یک NVIDIA H100 GPU با دقت کاهش یافته، به طور خاص با استفاده از عملیات ممیز شناور 16 بیتی (FP16)، که برای بهینهسازی عملکرد در مدلهای هوش مصنوعی مدرن رایج است، به کارایی خود دست مییابد.
LLMها به طور معمول از نمایشهای ممیز شناور 32 بیتی (FP32) برای وزنها و فعالسازیها استفاده میکنند که به حافظه و قدرت محاسباتی زیادی نیاز دارد. کوانتیزاسیون این دقت را به 16 بیت (FP16)، 8 بیت (INT8) یا حتی 4 بیت (INT4) کاهش میدهد، که به طور قابل توجهی اندازه مدل را کاهش میدهد و استنتاج را بر روی GPUها و دستگاههای لبه تسریع میکند.
در مورد معماری، Gemma 3 از یک سر مدل زبانی (LM) مشترک یا مرتبط برای جاسازی کلمات خود استفاده میکند، همانطور که پیکربندی لایه خطی آن نشان میدهد، جایی که وزنهای سر LM به جاسازیهای ورودی گره خوردهاند.
به طور مشابه، کوهر اخیراً Command A را راهاندازی کرده است، مدلی که عملکرد برتر را با هزینههای سختافزاری کمتر از مدلهای اختصاصی و وزن باز پیشرو مانند GPT-4o و DeepSeek-V3 ارائه میدهد.
به گفته این شرکت، این مدل برای استقرارهای خصوصی مناسب است و در وظایف عاملمحور و چندزبانه حیاتی برای کسبوکار عالی عمل میکند در حالی که فقط روی دو GPU اجرا میشود، در حالی که مدلهای دیگر اغلب به 32 GPU نیاز دارند.
این شرکت در پست وبلاگ خود اعلام کرد: «با ردپای خدمترسانی فقط دو A100 یا H100، به محاسبات بسیار کمتری نسبت به سایر مدلهای قابل مقایسه در بازار نیاز دارد. این امر به ویژه برای استقرارهای خصوصی مهم است.»
این مدل طول متن 256 هزار را ارائه میدهد - دو برابر بیشتر از اکثر مدلهای پیشرو - که به آن امکان میدهد اسناد سازمانی بسیار طولانیتری را پردازش کند. سایر ویژگیهای کلیدی عبارتند از تولید پیشرفته با استفاده از بازیابی (RAG) کوهر با استنادهای قابل تأیید، استفاده از ابزار عاملمحور، امنیت در سطح سازمانی و عملکرد چندزبانه قوی.
مایکروسافت اخیراً Phi-4-multimodal و Phi-4-mini را راهاندازی کرده است، آخرین اضافات به خانواده Phi خود از مدلهای زبانی کوچک (SLM). این مدلها در اکوسیستم مایکروسافت، از جمله برنامههای Windows و Copilot+ PC ادغام شدهاند.
در اوایل سال جاری، NVIDIA یک ابررایانه جمع و جور به نام DIGITS را برای محققان هوش مصنوعی، دانشمندان داده و دانشجویان در سراسر جهان راهاندازی کرد. به گفته NVIDIA، این ابررایانه میتواند LLMها را با حداکثر 200 میلیارد پارامتر به صورت محلی اجرا کند و با اتصال دو واحد به یکدیگر، از مدلهایی با دو برابر اندازه پشتیبانی کرد.
علاوه بر این، چارچوبهای منبع باز اجرای LLMها را بر روی یک GPU واحد تسهیل میکنند. پروژه منبع باز Predibase، LoRAX، به کاربران اجازه میدهد تا هزاران مدل تنظیمشده را بر روی یک GPU واحد ارائه دهند، و هزینهها را بدون کاهش سرعت یا عملکرد کاهش میدهد.
LoRAX از تعدادی LLM به عنوان مدل پایه از جمله Llama (از جمله Code Llama)، Mistral (از جمله Zephyr) و Qwen پشتیبانی میکند.
این مدل دارای بارگذاری آداپتور پویا است، و چندین آداپتور را در هر درخواست به طور فوری ادغام میکند تا گروههای قدرتمندی را بدون مسدود کردن درخواستهای همزمان ایجاد کند. دستهبندی پیوسته ناهمگن درخواستها را با استفاده از آداپتورهای مختلف در یک دسته بستهبندی میکند و از تأخیر کم و توان عملیاتی پایدار اطمینان میدهد.
زمانبندی تبادل آداپتور با پیش بارگذاری و تخلیه ناهمزمان آداپتورها بین حافظه GPU و CPU، مدیریت حافظه را بهینه میکند. بهینهسازیهای استنتاج با عملکرد بالا، از جمله موازیسازی تانسور، هستههای CUDA از پیش کامپایل شده، کوانتیزاسیون و جریان توکن، سرعت و کارایی را بیشتر بهبود میبخشند.
اجرای LLMها بدون GPU؟
لیمگروبر از یک نسخه کوانتیزه شده و غیر تقطیر شده از مدل، توسعه یافته توسط Unsloth AI - یک مدل 2.51 بیت در هر پارامتر، که به گفته او با وجود فشرده شدن به تنها 212 گیگابایت، کیفیت خوبی را حفظ کرده است، استفاده کرد.
با این حال، این مدل به طور ذاتی بر روی 8 بیت ساخته شده است، که آن را به طور پیش فرض کارآمد میکند.
لیمگروبر این مدل را پس از غیرفعال کردن NVIDIA RTX 3090 Ti GPU خود بر روی دستگاه بازی خود، با 96 گیگابایت رم و 24 گیگابایت VRAM اجرا کرد.
او توضیح داد که ترفند مخفی این است که فقط کش KV را در رم بارگیری کنید در حالی که به llama.cpp اجازه میدهید فایلهای مدل را با استفاده از رفتار پیشفرض خود مدیریت کند - نگاشت حافظه (mmap) مستقیم آنها از یک SSD سریع NVMe. او گفت: «بقیه رم سیستم شما به عنوان کش دیسک برای وزنهای فعال عمل میکند.»
با اجرای LLMها اکنون بر روی یک GPU واحد - یا حتی بدون GPU - هوش مصنوعی برای همه کاربردیتر میشود. با بهبود سختافزار و ظهور تکنیکهای جدید، هوش مصنوعی در سالهای آینده حتی در دسترستر، مقرون به صرفهتر و قدرتمندتر خواهد شد.