شکستن مرزها: چطور مدل‌های تراگان اینتل با همکاری Perplexity در هر ابری اجرا می‌شوند

خلاصه

Perplexity توانست مدل‌های ترا-پارامتر یعنی کای-ک ۲ (۱ تریلیون) و دیپ‌سیک-وی ۳ (۶۷۱ میلیارد) را روی هر ابر اجرا کند؛ چیزی که قبلاً فقط روی سرورهای اختصاصی ممکن بود.

با معماری ترکیبی CPU-GPU، فناوری‌های RDMA و NVLink، و بهینه‌سازی بافر‌های ارتباطی، تأخیر تا ۳۰٪ کاهش و توان پردازش تا دو برابر افزایش یافته.

پیش‌زمینه

محدودیت‌های حافظه باعث می‌شود مدل‌های ترا-پارامتر در چند سرور اجرا شوند؛ اما ارتباط بین گره‌ها در MoE ناجور و کُند است. Perplexity این چالش را با دو نوآوری اصلی حل کرد: هسته‌های ارتباطی بهینه و زیرساخت شبکه سریع.

معماری MoE چرا متفاوت است؟

در MoE هر ورودی فقط چند «کارشناس» فعال می‌‌کند، نه کل مدل را. همین موضوع مصرف محاسبه و حافظه را کاهش می‌دهد، ولی نیاز به مسیریابی هوشمند توکن‌ها در سراسر گره‌ها پیدا می‌کنید.

چالش‌های فنی اجرا روی چند گره

1- تبادل مداوم توکن (Dispatch/Combine)

در هر لایه MoE ممکن است میلیون‌ها توکن جهش کند؛ هر تأخیر جزئی روی کل مدل سایه می‌اندازد.

2- حافظه توزیع‌شده

وزن‌ کارشناسان در سراسر گره‌ها پخش شده؛ اگر ارتباط ضعیف باشد، بحران حافظه رخ می‌دهد.

3- محدودیت اینترکانکت

InfinBand و EFA سریع هستند ولی هنوز سقف دارند؛ باید کوتاه‌ترین مسیر و کم‌تأخیرترین بافر استفاده شود.

نوآوری‌های Perplexity

به‌روزرسانی هسته‌های ارتباطی

  • معماری ترکیبی: هسته مسیریاب روی CPU برای چیدمان توکن و محاسبات سنگین روی GPU انجام می‌شود.
  • الزام ردیابی مستقیم حافظه: GDRCopy + NVLink باعث می‌شود داده بدون کپی اضافه بین GPU و NIC حرکت کند.
  • بافرهای Send/Receive دوبلر: با دو بافر متناوب، هنگامی‌که یکی در حال ارسال است، دیگری پر می‌شود؛ تأخیر پنهان می‌شود.

فناوری‌های شبکه سطح بالا

استفاده از RDMA، قطعه‌بندی بسته‌های کوچک و الگوی All2All سفارشی باعث شده پهنای باند ConnectX-7 تا سقف ۴۰۰ گیگابیت کاملاً استفاده شود.

نتایج عملی

مدلاندازه بستهبهبود زمان کلافزایش throughput
Kimi-K2۱۶۰k توکن۲۸٪1.9×
DeepSeek-V3۱۲۸k توکن۱۹٪1.6×

حین تست‌های واقعی روی سه گره AWS P4d، مدل‌ها بدون افت کیفیت پاسخ، درخواست‌های متوالی متوسط و سنگین را با تأخیر زیر ۲۵ میلی‌ثانیه برای هر توکن پردازش کردند.

کاربردها چه می‌شود؟

پردازش زبان طبیعی پیشرفته

ترجمه هم‌زمان، جمع‌بندی چندساعت فیلم و پشتیبانی مشتری کاملاً خودکار در مقیاس جهانی.

سیستم‌های پیشنهادِ زنده

فروشگاه‌های بزرگ و استریمینگ با کم‌ترین تأخیر محتوا یا کالایی که کاربر احتمالاً می‌خواهد را پیشنهاد می‌دهند.

کمک به فعالیت‌های علمی

پژوهشگران بدون دردسر میلیاردها مقاله را با هم تطبیق می‌دهند و فرضیه‌های جدید را در کمترین زمان می‌سنجند.

مراحل بعدی

Perplexity با AWS روی نسخه جدید EFA-direct کار می‌کند تا کامیونیکیشن از فضای کاربر به فضای کرنل منتقل شود؛ نتیجه‌اش حذف یک کپی بافر و کاهش دیگر تأخیرهاست. همچنین میکرو-بچینگ در راه است تا بتوان درخواست‌های کوچک را باهم ترکیب کرد و از خالی ماندن هسته‌ها جلوگیری کرد.

جمع‌بندی

با دو نوآوری ارتباطی و زیرساخت سریع، مدل‌های ترا-پارامتر دیگر محبود به ابر خاص نیستند؛ هر کسب‌وکار می‌تواند با همان ابزارهای معمولی ابر، هوش مصنوعی عظیم را اجرا کند.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *