خلاصه مقاله:
این مقاله به بررسی چالشهای مقیاسپذیری در مدلهای زبان بزرگ (LLM) و نقش سختافزار در توسعهی کارآمد این مدلها میپردازد. با تمرکز بر معماری DeepSeek-V3 که روی 2048 گره از GPUهای نویدیا H800 آموزش دیده، نشان میدهد چگونه طراحی هماهنگ مدل و سختافزار میتواند چالشهای حافظه، هزینه و سرعت را حل کند. نوآوریهایی مانند MLA برای کاهش حافظه، DeepSeekMoE برای محاسبه پراکنده، آموزش با دقت FP8 و شبکه MPFT برای ارتباطات کارآمد، کلیدکلمههای اصلی این رویکرد هستند. مقاله همچنین راهکارهایی برای آینده سختافزار هوش مصنوعی پیشنهاد میدهد.
مقدمه: هماهنگی هوشمند مدل و سختافزار
با افزایش اندازه مدلهای زبان بزرگ، محدودیتهای سختافزاری بیش از پیش آشکار شده است. حافظه، پهنای باند و هزینه محاسباتی، نقاط بحرانی شدهاند. DeepSeek-V3 به عنوان یک نمونه پیشرو، نشان میدهد چگونه ترکیب هوشمند معماری مدل با قابلیتهای سختافزار میتواند این چالشها را پشت سر بگذارد. طراحی هماهنگ این دو جزء، کلید پیشرفت مقرونبهصرفه و مقیاسپذیر هوش مصنوعی است.
کاهش مصرف حافظه با MLA
مدلهای بزرگ با رشد توانی حافظه مواجه هستند، اما حافظههای سریع (مثل HBM) به کندی پیشرفت میکنند. DeepSeek-V3 برای رفع این مشکل از تکنیک Multi-head Latent Attention (MLA) استفاده میکند.
MLA با فشردهسازی خروجیهای Key و Value در یک بردار کوچکتر (Latent Vector)، حجم کش ذخیرهشده را به طور چشمگیری کاهش میدهد. این بردار در حین استنتاج ذخیره میشود، نه خروجی تمام سرها.
این روش نسبت به مدلهای پیشرو عملکرد بهتری دارد:
مدل | حافظه کش KV (KB برای هر توکن) |
---|---|
DeepSeek-V3 | 70 |
Qwen-2.5 72B | 327 |
LLaMA-3.1 405B | 516 |
سایر روشهای کاهش حافظه کش
- Shared KV (GQA / MQA): اشتراک استفاده سرها از Key و Value
- Window KV: محدود کردن محدوده حافظه به بخش فعلی
- فشردهسازی کوانتیزه: کاهش دقت ذخیره مقادیر KV
مدلهای بهینه و کمهزینه با DeepSeekMoE
برای کاهش هزینه محاسباتی، DeepSeek از معماری DeepSeekMoE (مخلوطی از کارشناسان) استفاده میکند. این مدل تنها بخشی از پارامترها را فعال میکند، در حالی که اندازه کلی آن بسیار بزرگ است.
DeepSeek-V3 دارای 671 میلیارد پارامتر است، اما فقط 37 میلیارد پارامتر در هر توکن فعال میشود. این در حالی است که مدلهای متراکم (مانند LLaMA یا Qwen) تمام پارامترها را اجرا میکنند.
مصرف محاسباتی مدل در مقایسه:
مدل | محاسبات (GFLOPS بر توکن) |
---|---|
DeepSeek-V3 (MoE) | 250 |
Qwen-72B (متراکم) | 394 |
LLaMA-405B (متراکم) | 2448 |
مزیت DeepSeekMoE در استفاده شخصی
فعالسازی انتخابی پارامترها، استفاده در دستگاههای محلی را ممکن میکند. مدل در حین استنتاج تنها 21 میلیارد پارامتر فعال دارد. این امر به اجرای 20+ توکن در ثانیه روی رایانههای شخصی با چیپهای هوش مصنوعی کمک میکند.
افزایش سرعت استنتاج با موازیسازی هوشمند
DeepSeek هم به حداکثر توان پردازشی و هم به تأخیر پاسخهای انفرادی توجه دارد. این کار از طریق همپوشانی محاسبه و ارتباطات انجام میشود.
مدل از دو میکروباتچ استفاده میکند: در حالی که یکی محاسبات MLA یا MoE را انجام میدهد، دیگری انتقال ارتباطات مربوطه را آغاز میکند. این روند چرخهای باعث ادامه تقریباً بدون توقف محاسبات و ارتباطات میشود.
همچنین، فرآیندهای prefill و decode در گروههای مختلف از کارشناسان اجرا میشوند. این کار ترافیک را بهینه و کلی سیستم را کارآمدتر میکند.
آموزش با دقت پایینتر: FP8
استفاده از FP8 در آموزش مدلهای بزرگ گام بزرگی است. DeepSeek-V3 اولین مدل بزرگ شناختهشده است که از FP8 در آموزش (هم فوروارد و هم بکوارد) استفاده میکند.
این دقت پایینتر با همکاری نزدیک تیم سختافزار و الگوریتم ممکن شده است و هزینه محاسبات را کاهش میدهد، بدون آنکه کیفیت مدل تحت تأثیر قرار بگیرد.
کاهش حجم ارتباطات: LogFMT و FP8
در موازیسازی از نوع EP، انتقال توکنها با FP8 کوانتیزه میشود. این کار حجم ارتباطات را 50٪ نسبت به BF16 کاهش میدهد.
همچنین، DeepSeek از یک فرمت داده جدید به نام LogFMT-nBit استفاده کرده است که بر اساس اعداد مبنا لگاریتمی است و بهینهسازی بیشتری برای انتقال دادهها فراهم میکند.
سختافزار فعلی و محدودیتهای آن
مدل روی GPUهای H800 نویدیا اجرا شده است که نسخه تنظیم شده H100 است. این چیپ دارای پهنای باند NVLink کاهشیافته (400 گیگابایت/ثانیه) است.
برای جبران این ضعف، هر گره با ۸ کارت شبکه InfiniBand 400G (CX7) تقویت شده تا ارتباطات بین گرهای قویتر شود.
هماهنگی مدل و موازیسازی هوشمند
برای جبران محدودیت NVLink، DeepSeek از راهکارهای هوشمندانه استفاده میکند:
- اجتناب از Tensor Parallelism (TP)
- تقویت Pipeline Parallelism (PP)
- تسریع Expert Parallelism (EP)
مسیریابی آگاه از گره (Node-aware Routing)
تفاوت بزرگ بین پهنای باند درونگرهای (NVLink ≈160 گیگابایت/ثانیه) و بینگرهای (IB ≈40 گیگابایت/ثانیه در هر NIC) وجود دارد.
برای کاهش ارتباط بین گرهها، 256 کارشناس در ۸ گروه 32 تایی توزیع میشوند که هر گروه روی یک گره قرار دارد. این ساختار مسیریابی را به گونهای تنظیم میکند که حداکثر به ۴ گره نیاز باشد.
در صورت تعلق مقصد به گره فعلی، داده از طریق IB یک بار وارد میشود و سپس با NVLink به GPU مقصد فرستاده میشود. این کار ترافیک زائد IB را کاهش میدهد.
آینده: ادغام شبکه Scale-Up و Scale-Out
تفاوت بزرگ بین ارتباطات داخلی و خارجی، کد و سختافزار را پیچیده کرده است. هستههای GPU (SMها) هم باید دادهها را پردازش کنند و هم انتقال شبکه را مدیریت کنند.
راهکار پیشنهادی: ادغام این دو بخش در یک چارچوب یکپارچه.
ویژگیهای پیشنهادی برای سختافزار آینده
- پردازشگر اختصاصی ارتباطات برای مدیریت ترافیک و انتقال بین NVLink و IB
- پشتیبانی سختافزاری از deduplication پویا برای بهینهسازی مسیریابی
- پذیرش پروتکلهای جدید شبکه مانند UEC و UALink
- استفاده از چارچوب Unified Bus (UB) برای یکسانسازی Scale-up و Scale-out
چالش تعارض در پهنای باند و تأخیر
سختافزار فعلی امکان تخصیص پویا و اولویتدهی بین ترافیکهای مختلف روی NVLink و PCIe را فراهم نمیکند.
مثلاً، انتقال کش KV از حافظه CPU به GPU میتواند PCIe را اشباع کند و با ارتباطات EP رقابت کند و سبب تأخیر شود.
راهکارهای پیشنهادی
- اولویتدهی پویا به ترافیک NVLink/PCIe
- افزودن I/O chiplet به طراحی
- یکپارچهسازی سریعتر CPU و GPU در محیط scale-up
شبکه MPFT: شبکه مقیاسپذیر و مقرونبهصرفه
DeepSeek از یک شبکه Multi-Plane Fat-Tree (MPFT) برای آموزش استفاده کرده است. این شبکه:
- هر GPU را به یک NIC اختصاصی وصل میکند
- هر گره دارای یک NIC اترنت 400 گیگابیتی برای دسترسی به فایل سیستم توزیعشده (3FS) است
- از سوئیچهای 400G IB 64-پورته استفاده میکند (ظرفیت نظری: تا 16,384 GPU)
این ساختار به خاطر محدودیتهای قانونی روی 2000+ GPU اجرا شده است.
مزایای MPFT
- سازگاری با بهینهسازیهای موجود در NCCL و NVIDIA
- هزینه بهینه
- جدا سازی ترافیک
- تأخیر کمتر و بردودی بیشتر
چالش در عملکرد واقعی
در عمل، MPFT به دلیل محدودیت NICهای ConnectX-7، کامل پیادهسازی نشده است.
در نسخه ایدهآل، هر NIC باید چند پورت فیزیکی داشته باشد که به چند لایه شبکه متصل شوند، اما به عنوان یک رابط منطقی ظاهر شود (Port Bonding).
این امر مستلزم حمایت سختافزاری از ارسال بستهها در مسیرهای مختلف و پشتیبانی از مرتبسازی صحیح (دریافت out-of-order) است.
ConnectX-8 به طور طبیعی از ۴ Plane پشتیبانی میکند و آینده به سمت این فناوری است.
شبکههای کمتأخیر برای استنتاج بهینه
استنتاج در مقیاس بزرگ به ارتباطات All-to-All وابسته است که حساس به تأخیر است. حتی تأخیرهای میکروثانیهای تأثیر زیادی دارند.
مقایسه IB و RoCE:
شبکه | تأخیر | ملاحظات |
---|---|---|
InfiniBand (IB) | کمتر | مناسب برای سیستمهای حساس به تأخیر |
RoCE | بیشتر | ارزانتر اما با محدودیت در مقیاس و تأخیر |
بهبودهای پیشنهادی برای RoCE
- ساخت سوئیچهای اختصاصی کمتأخیر
- سیاستهای مسیریابی بهینه
- مکانیزمهای بهتر کنترل ترافیک و عدم ازدحام
IBGDA: حذف تأخیر CPU در شبکه
DeepSeek از IBGUDirect Async (IBGDA) استفاده میکند تا GPUها مستقیماً درخواستهای شبکه را مدیریت کنند.
این امر نیاز به پروسههای واسطه CPU را حذف میکند و تأخیرها، بهویژه در ارسال بستههای کوچک، را به شدت کاهش میدهد.
با استفاده از تهدی توابع پارالل در GPU، بار ارتباط کنترلشده میشود. این فناوری مورد توصیه DeepSeek برای همه دستگاههای شتابدهنده است.
مسیرهای آینده برای طراحی سختافزار
مقاله با بررسی جامع، مسیرهای کلی برای توسعه سختافزار هوش مصنوعی پیش میآورد:
- قدرت اطمینان بالا: مکانیزمهای پیشرفته کشف و تصحیح خطا برای زیرساخت بدون وقفه
- حذف گلوگاه CPU: بهبود ارتباط CPU-شتابدهنده و عبور از محدودیتهای PCIe
- شبکههای هوشمند: استفاده از فیبر همجای، مکانیزم بدون اتلاف و مسیریابی پویا
- ارتباطات معناشناختی حافظه: تضمین سختافزاری از ترتیب و سازگاری داده
- محاسبه و فشردهسازی در شبکه: انتقال بخشی از پردازش به تراشه شبکه (مخصوصاً برای MoE)
- معماری متمرکز بر حافظه: استفاده از فناوریهای درام لایهای و یکپارچهسازی در سطح ویفر برای مقابله با بحران پهنای باند
دیدگاهتان را بنویسید