خلاصه
مدل جدید CALM که توسط Tencent AI و دانشگاه Tsinghua معرفی شده، چندین توکن را به یک بردار پیوسته فشرده میکند و مراحل تولید متن را کم میکند. نتیجهاش صرفهجویی ۴۴ درصدی در محاسبات آموزش و ۳۴ درصدی در استنتاج است؛ بدون افت کیفیت. چارچوب likelihood-free آن هم امکان نمونهگیری و ارزیابی جدیدی فراهم کرده که به زودی هزینه هوش مصنوعی در سازمانها را پایین میآورد.
مقدمه
هوش مصنوعی بزرگ برای شرکتها گران تمام میشود؛ چون هر توکن را یکییکی میسازد. این مقاله روش CALM را معرفی میکند که با فشردهسازی چندتوکن در یک بردار، هزینه آموزش و استنتاج را تا ۴۴٪ کاهش میدهد.
مشکل کجاست؟
فرایند رگرسیونی پشت مدلهای متنی مانند GPT، توکنها را پشت سرهم تولید میکند. در نتیجه:
- زمان تحلیل بلند برای شبکههای اینترنت اشیا یا بازارهای مالی زیاد میشود.
- هزینه برق و سرمایهگذاری اولیه کلان میطلبد.
- رشد نامحدود تعداد پارامترها بازده کمتری دارد.
راهحل CALM چیست؟
مدل CALM رگرسیون گسسته را به فضای پیوسته بردار میبرد و چند توکن را بهصورت یکجا پیشبینی میکند.
فشردهسازی توکنها
یک اتوانکُدر K توکن را میگیرد و آنها را به یک بردار پیوسته با پهنای باند معنایی بالا تبدیل میکند؛ مثلاً «the»، «cat» و «sat» در یک بردار خلاصه میشوند.
کاهش گامهای تولید
هر چه تعداد بردارهای تولیدی کمتر شود، درصد قابل توجهی از محاسبات حذف میشود.
نتایج عملیاتی
| شاخص | کاهش نسبت به مبدأ |
|---|---|
| عملیات آموزش (FLOPs) | ۴۴٪ |
| عملیات استنتاج (FLOPs) | ۳۴٪ |
| کیفیت نهایی | رقابتی با ترانسفورمر مرجع |
چالش احیای ابزارهای LLM
انتقال به فضای بردار پیوسته یعنی خداحافظی با احتمالگسسته و متریکهایی مثل پرپلکسیتی. پژوهشگران:
- از Energy Transformer برای هدف likelihood-free استفاده کردند.
- متریک BrierLM را جایگزین کردند که همبستگی −۰/۹۹۱ با خطای سنتی دارد.
- الگوریتم نمونهگیری بدون احتمال ساختند تا کنترل temperature بازگردد.
چه چیزی برای مدیران فنی مهم است؟
بهجای چشم بستن به پارامترهای بیشتر، از فروشندهها بخواهید:
- FLOPs مورد نیاز برای هر توکن را کاهش دهند.
- معماریهای نوآورانه مانند CALM را در نقشه راه قرار دهند.
- الزامات پایداری و هزینهی عملیاتی را در اولویت بگذارند.
افق پیش رو
CALM مسیر مقرونبهصرفهتری برای توسعه زبانمدلها نشان میدهد. انتظار میرود:
- هزینه مراکز داده پایین بیاید.
- کاربردهای پرحجم مانند تحلیل بورس یا اینترنت اشیا ارزانتر شود.
- رقابت بعدی بر سر بازده معماری، نه فقط اندازه مدل، شکل بگیرد.
