خلاصه
Perplexity توانست مدلهای ترا-پارامتر یعنی کای-ک ۲ (۱ تریلیون) و دیپسیک-وی ۳ (۶۷۱ میلیارد) را روی هر ابر اجرا کند؛ چیزی که قبلاً فقط روی سرورهای اختصاصی ممکن بود.
با معماری ترکیبی CPU-GPU، فناوریهای RDMA و NVLink، و بهینهسازی بافرهای ارتباطی، تأخیر تا ۳۰٪ کاهش و توان پردازش تا دو برابر افزایش یافته.
پیشزمینه
محدودیتهای حافظه باعث میشود مدلهای ترا-پارامتر در چند سرور اجرا شوند؛ اما ارتباط بین گرهها در MoE ناجور و کُند است. Perplexity این چالش را با دو نوآوری اصلی حل کرد: هستههای ارتباطی بهینه و زیرساخت شبکه سریع.
معماری MoE چرا متفاوت است؟
در MoE هر ورودی فقط چند «کارشناس» فعال میکند، نه کل مدل را. همین موضوع مصرف محاسبه و حافظه را کاهش میدهد، ولی نیاز به مسیریابی هوشمند توکنها در سراسر گرهها پیدا میکنید.
چالشهای فنی اجرا روی چند گره
1- تبادل مداوم توکن (Dispatch/Combine)
در هر لایه MoE ممکن است میلیونها توکن جهش کند؛ هر تأخیر جزئی روی کل مدل سایه میاندازد.
2- حافظه توزیعشده
وزن کارشناسان در سراسر گرهها پخش شده؛ اگر ارتباط ضعیف باشد، بحران حافظه رخ میدهد.
3- محدودیت اینترکانکت
InfinBand و EFA سریع هستند ولی هنوز سقف دارند؛ باید کوتاهترین مسیر و کمتأخیرترین بافر استفاده شود.
نوآوریهای Perplexity
بهروزرسانی هستههای ارتباطی
- معماری ترکیبی: هسته مسیریاب روی CPU برای چیدمان توکن و محاسبات سنگین روی GPU انجام میشود.
- الزام ردیابی مستقیم حافظه: GDRCopy + NVLink باعث میشود داده بدون کپی اضافه بین GPU و NIC حرکت کند.
- بافرهای Send/Receive دوبلر: با دو بافر متناوب، هنگامیکه یکی در حال ارسال است، دیگری پر میشود؛ تأخیر پنهان میشود.
فناوریهای شبکه سطح بالا
استفاده از RDMA، قطعهبندی بستههای کوچک و الگوی All2All سفارشی باعث شده پهنای باند ConnectX-7 تا سقف ۴۰۰ گیگابیت کاملاً استفاده شود.
نتایج عملی
| مدل | اندازه بسته | بهبود زمان کل | افزایش throughput |
|---|---|---|---|
| Kimi-K2 | ۱۶۰k توکن | ۲۸٪ | 1.9× |
| DeepSeek-V3 | ۱۲۸k توکن | ۱۹٪ | 1.6× |
حین تستهای واقعی روی سه گره AWS P4d، مدلها بدون افت کیفیت پاسخ، درخواستهای متوالی متوسط و سنگین را با تأخیر زیر ۲۵ میلیثانیه برای هر توکن پردازش کردند.
کاربردها چه میشود؟
پردازش زبان طبیعی پیشرفته
ترجمه همزمان، جمعبندی چندساعت فیلم و پشتیبانی مشتری کاملاً خودکار در مقیاس جهانی.
سیستمهای پیشنهادِ زنده
فروشگاههای بزرگ و استریمینگ با کمترین تأخیر محتوا یا کالایی که کاربر احتمالاً میخواهد را پیشنهاد میدهند.
کمک به فعالیتهای علمی
پژوهشگران بدون دردسر میلیاردها مقاله را با هم تطبیق میدهند و فرضیههای جدید را در کمترین زمان میسنجند.
مراحل بعدی
Perplexity با AWS روی نسخه جدید EFA-direct کار میکند تا کامیونیکیشن از فضای کاربر به فضای کرنل منتقل شود؛ نتیجهاش حذف یک کپی بافر و کاهش دیگر تأخیرهاست. همچنین میکرو-بچینگ در راه است تا بتوان درخواستهای کوچک را باهم ترکیب کرد و از خالی ماندن هستهها جلوگیری کرد.
جمعبندی
با دو نوآوری ارتباطی و زیرساخت سریع، مدلهای ترا-پارامتر دیگر محبود به ابر خاص نیستند؛ هر کسبوکار میتواند با همان ابزارهای معمولی ابر، هوش مصنوعی عظیم را اجرا کند.
