DeepSeek-V3: ۹۰٪ کاهش هزینه و ۸۵٪ کاهش حافظه هوش مصنوعی با MLA/DeepSeekMoE

خلاصه مقاله:
این مقاله به بررسی چالش‌های مقیاس‌پذیری در مدل‌های زبان بزرگ (LLM) و نقش سخت‌افزار در توسعه‌ی کارآمد این مدل‌ها می‌پردازد. با تمرکز بر معماری DeepSeek-V3 که روی 2048 گره از GPUهای نویدیا H800 آموزش دیده، نشان می‌دهد چگونه طراحی هماهنگ مدل و سخت‌افزار می‌تواند چالش‌های حافظه، هزینه و سرعت را حل کند. نوآوری‌هایی مانند MLA برای کاهش حافظه، DeepSeekMoE برای محاسبه پراکنده، آموزش با دقت FP8 و شبکه MPFT برای ارتباطات کارآمد، کلیدکلمه‌های اصلی این رویکرد هستند. مقاله همچنین راهکارهایی برای آینده سخت‌افزار هوش مصنوعی پیشنهاد می‌دهد.

مقدمه: هماهنگی هوشمند مدل و سخت‌افزار

با افزایش اندازه مدل‌های زبان بزرگ، محدودیت‌های سخت‌افزاری بیش از پیش آشکار شده است. حافظه، پهنای باند و هزینه محاسباتی، نقاط بحرانی شده‌اند. DeepSeek-V3 به عنوان یک نمونه پیشرو، نشان می‌دهد چگونه ترکیب هوشمند معماری مدل با قابلیت‌های سخت‌افزار می‌تواند این چالش‌ها را پشت سر بگذارد. طراحی هماهنگ این دو جزء، کلید پیشرفت مقرون‌به‌صرفه و مقیاس‌پذیر هوش مصنوعی است.

کاهش مصرف حافظه با MLA

مدل‌های بزرگ با رشد توانی حافظه مواجه هستند، اما حافظه‌های سریع (مثل HBM) به کندی پیشرفت می‌کنند. DeepSeek-V3 برای رفع این مشکل از تکنیک Multi-head Latent Attention (MLA) استفاده می‌کند.

MLA با فشرده‌سازی خروجی‌های Key و Value در یک بردار کوچک‌تر (Latent Vector)، حجم کش ذخیره‌شده را به طور چشمگیری کاهش می‌دهد. این بردار در حین استنتاج ذخیره می‌شود، نه خروجی تمام سرها.

این روش نسبت به مدل‌های پیشرو عملکرد بهتری دارد:

مدل	حافظه کش KV (KB برای هر توکن)
DeepSeek-V3	70
Qwen-2.5 72B	327
LLaMA-3.1 405B	516

سایر روش‌های کاهش حافظه کش

Shared KV (GQA / MQA): اشتراک استفاده سرها از Key و Value
Window KV: محدود کردن محدوده حافظه به بخش فعلی
فشرده‌سازی کوانتیزه: کاهش دقت ذخیره مقادیر KV

مدل‌های بهینه و کم‌هزینه با DeepSeekMoE

برای کاهش هزینه محاسباتی، DeepSeek از معماری DeepSeekMoE (مخلوطی از کارشناسان) استفاده می‌کند. این مدل تنها بخشی از پارامترها را فعال می‌کند، در حالی که اندازه کلی آن بسیار بزرگ است.

DeepSeek-V3 دارای 671 میلیارد پارامتر است، اما فقط 37 میلیارد پارامتر در هر توکن فعال می‌شود. این در حالی است که مدل‌های متراکم (مانند LLaMA یا Qwen) تمام پارامترها را اجرا می‌کنند.

مصرف محاسباتی مدل در مقایسه:

مدل	محاسبات (GFLOPS بر توکن)
DeepSeek-V3 (MoE)	250
Qwen-72B (متراکم)	394
LLaMA-405B (متراکم)	2448

مزیت DeepSeekMoE در استفاده شخصی

فعال‌سازی انتخابی پارامترها، استفاده در دستگاه‌های محلی را ممکن می‌کند. مدل در حین استنتاج تنها 21 میلیارد پارامتر فعال دارد. این امر به اجرای 20+ توکن در ثانیه روی رایانه‌های شخصی با چیپ‌های هوش مصنوعی کمک می‌کند.

افزایش سرعت استنتاج با موازی‌سازی هوشمند

DeepSeek هم به حداکثر توان پردازشی و هم به تأخیر پاسخ‌های انفرادی توجه دارد. این کار از طریق همپوشانی محاسبه و ارتباطات انجام می‌شود.

مدل از دو میکروباتچ استفاده می‌کند: در حالی که یکی محاسبات MLA یا MoE را انجام می‌دهد، دیگری انتقال ارتباطات مربوطه را آغاز می‌کند. این روند چرخه‌ای باعث ادامه تقریباً بدون توقف محاسبات و ارتباطات می‌شود.

همچنین، فرآیندهای prefill و decode در گروه‌های مختلف از کارشناسان اجرا می‌شوند. این کار ترافیک را بهینه و کلی سیستم را کارآمدتر می‌کند.

آموزش با دقت پایین‌تر: FP8

استفاده از FP8 در آموزش مدل‌های بزرگ گام بزرگی است. DeepSeek-V3 اولین مدل بزرگ شناخته‌شده است که از FP8 در آموزش (هم فوروارد و هم بک‌وارد) استفاده می‌کند.

این دقت پایین‌تر با همکاری نزدیک تیم سخت‌افزار و الگوریتم ممکن شده است و هزینه محاسبات را کاهش می‌دهد، بدون آنکه کیفیت مدل تحت تأثیر قرار بگیرد.

کاهش حجم ارتباطات: LogFMT و FP8

در موازی‌سازی از نوع EP، انتقال توکن‌ها با FP8 کوانتیزه می‌شود. این کار حجم ارتباطات را 50٪ نسبت به BF16 کاهش می‌دهد.

همچنین، DeepSeek از یک فرمت داده جدید به نام LogFMT-nBit استفاده کرده است که بر اساس اعداد مبنا لگاریتمی است و بهینه‌سازی بیشتری برای انتقال داده‌ها فراهم می‌کند.

سخت‌افزار فعلی و محدودیت‌های آن

مدل روی GPUهای H800 نویدیا اجرا شده است که نسخه تنظیم شده H100 است. این چیپ دارای پهنای باند NVLink کاهش‌یافته (400 گیگابایت/ثانیه) است.

برای جبران این ضعف، هر گره با ۸ کارت شبکه InfiniBand 400G (CX7) تقویت شده تا ارتباطات بین گره‌ای قوی‌تر شود.

هماهنگی مدل و موازی‌سازی هوشمند

برای جبران محدودیت NVLink، DeepSeek از راهکارهای هوشمندانه استفاده می‌کند:

اجتناب از Tensor Parallelism (TP)
تقویت Pipeline Parallelism (PP)
تسریع Expert Parallelism (EP)

مسیریابی آگاه از گره (Node-aware Routing)

تفاوت بزرگ بین پهنای باند درون‌گره‌ای (NVLink ≈160 گیگابایت/ثانیه) و بین‌گره‌ای (IB ≈40 گیگابایت/ثانیه در هر NIC) وجود دارد.

برای کاهش ارتباط بین گره‌ها، 256 کارشناس در ۸ گروه 32 تایی توزیع می‌شوند که هر گروه روی یک گره قرار دارد. این ساختار مسیریابی را به گونه‌ای تنظیم می‌کند که حداکثر به ۴ گره نیاز باشد.

در صورت تعلق مقصد به گره فعلی، داده از طریق IB یک بار وارد می‌شود و سپس با NVLink به GPU مقصد فرستاده می‌شود. این کار ترافیک زائد IB را کاهش می‌دهد.

آینده: ادغام شبکه Scale-Up و Scale-Out

تفاوت بزرگ بین ارتباطات داخلی و خارجی، کد و سخت‌افزار را پیچیده کرده است. هسته‌های GPU (SMها) هم باید داده‌ها را پردازش کنند و هم انتقال شبکه را مدیریت کنند.

راهکار پیشنهادی: ادغام این دو بخش در یک چارچوب یکپارچه.

ویژگی‌های پیشنهادی برای سخت‌افزار آینده

پردازشگر اختصاصی ارتباطات برای مدیریت ترافیک و انتقال بین NVLink و IB
پشتیبانی سخت‌افزاری از deduplication پویا برای بهینه‌سازی مسیریابی
پذیرش پروتکل‌های جدید شبکه مانند UEC و UALink
استفاده از چارچوب Unified Bus (UB) برای یکسان‌سازی Scale-up و Scale-out

چالش تعارض در پهنای باند و تأخیر

سخت‌افزار فعلی امکان تخصیص پویا و اولویت‌دهی بین ترافیک‌های مختلف روی NVLink و PCIe را فراهم نمی‌کند.

مثلاً، انتقال کش KV از حافظه CPU به GPU می‌تواند PCIe را اشباع کند و با ارتباطات EP رقابت کند و سبب تأخیر شود.

راهکارهای پیشنهادی

اولویت‌دهی پویا به ترافیک NVLink/PCIe
افزودن I/O chiplet به طراحی
یکپارچه‌سازی سریع‌تر CPU و GPU در محیط scale-up

شبکه MPFT: شبکه مقیاس‌پذیر و مقرون‌به‌صرفه

DeepSeek از یک شبکه Multi-Plane Fat-Tree (MPFT) برای آموزش استفاده کرده است. این شبکه:

هر GPU را به یک NIC اختصاصی وصل می‌کند
هر گره دارای یک NIC اترنت 400 گیگابیتی برای دسترسی به فایل سیستم توزیع‌شده (3FS) است
از سوئیچ‌های 400G IB 64-پورته استفاده می‌کند (ظرفیت نظری: تا 16,384 GPU)

این ساختار به خاطر محدودیت‌های قانونی روی 2000+ GPU اجرا شده است.

مزایای MPFT

سازگاری با بهینه‌سازی‌های موجود در NCCL و NVIDIA
هزینه بهینه
جدا سازی ترافیک
تأخیر کم‌تر و بردودی بیشتر

چالش در عملکرد واقعی

در عمل، MPFT به دلیل محدودیت NICهای ConnectX-7، کامل پیاده‌سازی نشده است.

در نسخه ایده‌آل، هر NIC باید چند پورت فیزیکی داشته باشد که به چند لایه شبکه متصل شوند، اما به عنوان یک رابط منطقی ظاهر شود (Port Bonding).

این امر مستلزم حمایت سخت‌افزاری از ارسال بسته‌ها در مسیرهای مختلف و پشتیبانی از مرتب‌سازی صحیح (دریافت out-of-order) است.

ConnectX-8 به طور طبیعی از ۴ Plane پشتیبانی می‌کند و آینده به سمت این فناوری است.

شبکه‌های کم‌تأخیر برای استنتاج بهینه

استنتاج در مقیاس بزرگ به ارتباطات All-to-All وابسته است که حساس به تأخیر است. حتی تأخیرهای میکروثانیه‌ای تأثیر زیادی دارند.

مقایسه IB و RoCE:

شبکه	تأخیر	ملاحظات
InfiniBand (IB)	کم‌تر	مناسب برای سیستم‌های حساس به تأخیر
RoCE	بیشتر	ارزان‌تر اما با محدودیت در مقیاس و تأخیر

بهبودهای پیشنهادی برای RoCE

ساخت سوئیچ‌های اختصاصی کم‌تأخیر
سیاست‌های مسیریابی بهینه
مکانیزم‌های بهتر کنترل ترافیک و عدم ازدحام

IBGDA: حذف تأخیر CPU در شبکه

DeepSeek از IBGUDirect Async (IBGDA) استفاده می‌کند تا GPU‌ها مستقیماً درخواست‌های شبکه را مدیریت کنند.

این امر نیاز به پروسه‌های واسطه CPU را حذف می‌کند و تأخیرها، به‌ویژه در ارسال بسته‌های کوچک، را به شدت کاهش می‌دهد.

با استفاده از تهدی توابع پارالل در GPU، بار ارتباط کنترل‌شده می‌شود. این فناوری مورد توصیه DeepSeek برای همه دستگاه‌های شتاب‌دهنده است.

مسیرهای آینده برای طراحی سخت‌افزار

مقاله با بررسی جامع، مسیرهای کلی برای توسعه سخت‌افزار هوش مصنوعی پیش می‌آورد:

قدرت اطمینان بالا: مکانیزم‌های پیشرفته کشف و تصحیح خطا برای زیرساخت بدون وقفه
حذف گلوگاه CPU: بهبود ارتباط CPU-شتاب‌دهنده و عبور از محدودیت‌های PCIe
شبکه‌های هوشمند: استفاده از فیبر هم‌جای، مکانیزم بدون اتلاف و مسیریابی پویا
ارتباطات معناشناختی حافظه: تضمین سخت‌افزاری از ترتیب و سازگاری داده
محاسبه و فشرده‌سازی در شبکه: انتقال بخشی از پردازش به تراشه شبکه (مخصوصاً برای MoE)
معماری متمرکز بر حافظه: استفاده از فناوری‌های درام لایه‌ای و یکپارچه‌سازی در سطح ویفر برای مقابله با بحران پهنای باند