نماد سایت گیلان پلاس رسانه هوش مصنوعی و کارآفرینی گیلان

DeepSeek-V3: ۹۰٪ کاهش هزینه و ۸۵٪ کاهش حافظه هوش مصنوعی با MLA/DeepSeekMoE

خلاصه مقاله:
این مقاله به بررسی چالش‌های مقیاس‌پذیری در مدل‌های زبان بزرگ (LLM) و نقش سخت‌افزار در توسعه‌ی کارآمد این مدل‌ها می‌پردازد. با تمرکز بر معماری DeepSeek-V3 که روی 2048 گره از GPUهای نویدیا H800 آموزش دیده، نشان می‌دهد چگونه طراحی هماهنگ مدل و سخت‌افزار می‌تواند چالش‌های حافظه، هزینه و سرعت را حل کند. نوآوری‌هایی مانند MLA برای کاهش حافظه، DeepSeekMoE برای محاسبه پراکنده، آموزش با دقت FP8 و شبکه MPFT برای ارتباطات کارآمد، کلیدکلمه‌های اصلی این رویکرد هستند. مقاله همچنین راهکارهایی برای آینده سخت‌افزار هوش مصنوعی پیشنهاد می‌دهد.

مقدمه: هماهنگی هوشمند مدل و سخت‌افزار

با افزایش اندازه مدل‌های زبان بزرگ، محدودیت‌های سخت‌افزاری بیش از پیش آشکار شده است. حافظه، پهنای باند و هزینه محاسباتی، نقاط بحرانی شده‌اند. DeepSeek-V3 به عنوان یک نمونه پیشرو، نشان می‌دهد چگونه ترکیب هوشمند معماری مدل با قابلیت‌های سخت‌افزار می‌تواند این چالش‌ها را پشت سر بگذارد. طراحی هماهنگ این دو جزء، کلید پیشرفت مقرون‌به‌صرفه و مقیاس‌پذیر هوش مصنوعی است.

کاهش مصرف حافظه با MLA

مدل‌های بزرگ با رشد توانی حافظه مواجه هستند، اما حافظه‌های سریع (مثل HBM) به کندی پیشرفت می‌کنند. DeepSeek-V3 برای رفع این مشکل از تکنیک Multi-head Latent Attention (MLA) استفاده می‌کند.

MLA با فشرده‌سازی خروجی‌های Key و Value در یک بردار کوچک‌تر (Latent Vector)، حجم کش ذخیره‌شده را به طور چشمگیری کاهش می‌دهد. این بردار در حین استنتاج ذخیره می‌شود، نه خروجی تمام سرها.

این روش نسبت به مدل‌های پیشرو عملکرد بهتری دارد:

مدل حافظه کش KV (KB برای هر توکن)
DeepSeek-V3 70
Qwen-2.5 72B 327
LLaMA-3.1 405B 516

سایر روش‌های کاهش حافظه کش

مدل‌های بهینه و کم‌هزینه با DeepSeekMoE

برای کاهش هزینه محاسباتی، DeepSeek از معماری DeepSeekMoE (مخلوطی از کارشناسان) استفاده می‌کند. این مدل تنها بخشی از پارامترها را فعال می‌کند، در حالی که اندازه کلی آن بسیار بزرگ است.

DeepSeek-V3 دارای 671 میلیارد پارامتر است، اما فقط 37 میلیارد پارامتر در هر توکن فعال می‌شود. این در حالی است که مدل‌های متراکم (مانند LLaMA یا Qwen) تمام پارامترها را اجرا می‌کنند.

مصرف محاسباتی مدل در مقایسه:

مدل محاسبات (GFLOPS بر توکن)
DeepSeek-V3 (MoE) 250
Qwen-72B (متراکم) 394
LLaMA-405B (متراکم) 2448

مزیت DeepSeekMoE در استفاده شخصی

فعال‌سازی انتخابی پارامترها، استفاده در دستگاه‌های محلی را ممکن می‌کند. مدل در حین استنتاج تنها 21 میلیارد پارامتر فعال دارد. این امر به اجرای 20+ توکن در ثانیه روی رایانه‌های شخصی با چیپ‌های هوش مصنوعی کمک می‌کند.

افزایش سرعت استنتاج با موازی‌سازی هوشمند

DeepSeek هم به حداکثر توان پردازشی و هم به تأخیر پاسخ‌های انفرادی توجه دارد. این کار از طریق همپوشانی محاسبه و ارتباطات انجام می‌شود.

مدل از دو میکروباتچ استفاده می‌کند: در حالی که یکی محاسبات MLA یا MoE را انجام می‌دهد، دیگری انتقال ارتباطات مربوطه را آغاز می‌کند. این روند چرخه‌ای باعث ادامه تقریباً بدون توقف محاسبات و ارتباطات می‌شود.

همچنین، فرآیندهای prefill و decode در گروه‌های مختلف از کارشناسان اجرا می‌شوند. این کار ترافیک را بهینه و کلی سیستم را کارآمدتر می‌کند.

آموزش با دقت پایین‌تر: FP8

استفاده از FP8 در آموزش مدل‌های بزرگ گام بزرگی است. DeepSeek-V3 اولین مدل بزرگ شناخته‌شده است که از FP8 در آموزش (هم فوروارد و هم بک‌وارد) استفاده می‌کند.

این دقت پایین‌تر با همکاری نزدیک تیم سخت‌افزار و الگوریتم ممکن شده است و هزینه محاسبات را کاهش می‌دهد، بدون آنکه کیفیت مدل تحت تأثیر قرار بگیرد.

کاهش حجم ارتباطات: LogFMT و FP8

در موازی‌سازی از نوع EP، انتقال توکن‌ها با FP8 کوانتیزه می‌شود. این کار حجم ارتباطات را 50٪ نسبت به BF16 کاهش می‌دهد.

همچنین، DeepSeek از یک فرمت داده جدید به نام LogFMT-nBit استفاده کرده است که بر اساس اعداد مبنا لگاریتمی است و بهینه‌سازی بیشتری برای انتقال داده‌ها فراهم می‌کند.

سخت‌افزار فعلی و محدودیت‌های آن

مدل روی GPUهای H800 نویدیا اجرا شده است که نسخه تنظیم شده H100 است. این چیپ دارای پهنای باند NVLink کاهش‌یافته (400 گیگابایت/ثانیه) است.

برای جبران این ضعف، هر گره با ۸ کارت شبکه InfiniBand 400G (CX7) تقویت شده تا ارتباطات بین گره‌ای قوی‌تر شود.

هماهنگی مدل و موازی‌سازی هوشمند

برای جبران محدودیت NVLink، DeepSeek از راهکارهای هوشمندانه استفاده می‌کند:

مسیریابی آگاه از گره (Node-aware Routing)

تفاوت بزرگ بین پهنای باند درون‌گره‌ای (NVLink ≈160 گیگابایت/ثانیه) و بین‌گره‌ای (IB ≈40 گیگابایت/ثانیه در هر NIC) وجود دارد.

برای کاهش ارتباط بین گره‌ها، 256 کارشناس در ۸ گروه 32 تایی توزیع می‌شوند که هر گروه روی یک گره قرار دارد. این ساختار مسیریابی را به گونه‌ای تنظیم می‌کند که حداکثر به ۴ گره نیاز باشد.

در صورت تعلق مقصد به گره فعلی، داده از طریق IB یک بار وارد می‌شود و سپس با NVLink به GPU مقصد فرستاده می‌شود. این کار ترافیک زائد IB را کاهش می‌دهد.

آینده: ادغام شبکه Scale-Up و Scale-Out

تفاوت بزرگ بین ارتباطات داخلی و خارجی، کد و سخت‌افزار را پیچیده کرده است. هسته‌های GPU (SMها) هم باید داده‌ها را پردازش کنند و هم انتقال شبکه را مدیریت کنند.

راهکار پیشنهادی: ادغام این دو بخش در یک چارچوب یکپارچه.

ویژگی‌های پیشنهادی برای سخت‌افزار آینده

چالش تعارض در پهنای باند و تأخیر

سخت‌افزار فعلی امکان تخصیص پویا و اولویت‌دهی بین ترافیک‌های مختلف روی NVLink و PCIe را فراهم نمی‌کند.

مثلاً، انتقال کش KV از حافظه CPU به GPU می‌تواند PCIe را اشباع کند و با ارتباطات EP رقابت کند و سبب تأخیر شود.

راهکارهای پیشنهادی

شبکه MPFT: شبکه مقیاس‌پذیر و مقرون‌به‌صرفه

DeepSeek از یک شبکه Multi-Plane Fat-Tree (MPFT) برای آموزش استفاده کرده است. این شبکه:

این ساختار به خاطر محدودیت‌های قانونی روی 2000+ GPU اجرا شده است.

مزایای MPFT

چالش در عملکرد واقعی

در عمل، MPFT به دلیل محدودیت NICهای ConnectX-7، کامل پیاده‌سازی نشده است.

در نسخه ایده‌آل، هر NIC باید چند پورت فیزیکی داشته باشد که به چند لایه شبکه متصل شوند، اما به عنوان یک رابط منطقی ظاهر شود (Port Bonding).

این امر مستلزم حمایت سخت‌افزاری از ارسال بسته‌ها در مسیرهای مختلف و پشتیبانی از مرتب‌سازی صحیح (دریافت out-of-order) است.

ConnectX-8 به طور طبیعی از ۴ Plane پشتیبانی می‌کند و آینده به سمت این فناوری است.

شبکه‌های کم‌تأخیر برای استنتاج بهینه

استنتاج در مقیاس بزرگ به ارتباطات All-to-All وابسته است که حساس به تأخیر است. حتی تأخیرهای میکروثانیه‌ای تأثیر زیادی دارند.

مقایسه IB و RoCE:

شبکه تأخیر ملاحظات
InfiniBand (IB) کم‌تر مناسب برای سیستم‌های حساس به تأخیر
RoCE بیشتر ارزان‌تر اما با محدودیت در مقیاس و تأخیر

بهبودهای پیشنهادی برای RoCE

IBGDA: حذف تأخیر CPU در شبکه

DeepSeek از IBGUDirect Async (IBGDA) استفاده می‌کند تا GPU‌ها مستقیماً درخواست‌های شبکه را مدیریت کنند.

این امر نیاز به پروسه‌های واسطه CPU را حذف می‌کند و تأخیرها، به‌ویژه در ارسال بسته‌های کوچک، را به شدت کاهش می‌دهد.

با استفاده از تهدی توابع پارالل در GPU، بار ارتباط کنترل‌شده می‌شود. این فناوری مورد توصیه DeepSeek برای همه دستگاه‌های شتاب‌دهنده است.

مسیرهای آینده برای طراحی سخت‌افزار

مقاله با بررسی جامع، مسیرهای کلی برای توسعه سخت‌افزار هوش مصنوعی پیش می‌آورد:

خروج از نسخه موبایل