خلاصه مقاله
لینگ ۱T با معماری «ترکیب متخصصان» فقط ۵۰ میلیارد پارامتر از ۱ تریلیون را در هر وظیفه فعال میکند؛ سرعت، دقت و مصرف انرژی را بهبود میدهد. در بنچمارکهای AME25 و BFCL v3 از GPT-5 و جمینی ۲.۵ پرو جلو زده و برای برنامهنویسی، ریاضی و استدلال تصویری بهترین نتیجه را میدهد.
مقدمه
آیا اندازه همهچیز است؟ لینگ ۱T ثابت میکند هوشمندیِ طراحی از حجم خام قدرت مهمتر است. این مدل تریلیونپارامتر با استدلال دقیق و آموزش هدفمند، حالا رقیبهای بزرگ را کنار زده است.
معماری لینگ ۲.۰: کوچککارِ بزرگ
ترکیب متخصصان (MoE)
فقط ۱/۳۲ پارامترها در هر توکن فعال میشوند؛ هزینه محاسباتی پایین، سرعت بالا.
امضاهای فنی
- MTP Layers: پردازش چندوظیفه همزمان
- Sigmoid Scoring: فعالسازی پایدار
- Expert Routing: تخصیص منابع هوشمند
- QK Normalization: ثبات در مکانیزم توجه
- FP8 Mixed-Precision: آموزش سریعتر با GPU کمتر
روش آموزش: ۲۰ تریلیون توکن استدلالی
دادههای هدفمند
۴۰٪ دادهها ریاضی، کد و زبان نمادین است؛ مدل از همان ابتدا «فکر کردن» را یاد میگیرد.
دو تکنیک جدید
- Reasoning Pre-Activation: مسیر منطقی را قبل از پردازش شناسایی میکند.
- EVO-CoT: مراحل استدلال را مانند انسان بازنویسی و بهینه میکند.
برنامه یادگیری WSM
یادگیری تدریجی شبیه انسان؛ عملکرد robust در کارهای پیچیده.
برتری در بنچمارکها
| بنچمارک | موضوع | رتبه لینگ ۱T |
|---|---|---|
| AME25 | استدلال منطقی | ۱ |
| BFCL v3 | کار با API و ابزار | ۱ |
کاربردهای عملی
برنامهنویسی front-end
کد تمیز + طراحی زیبا؛ نیازهای فنی و aesthetic را همزمان تأمین میکند.
استدلال تصویری
تحلیل دیاگرامهای مهندسی، تبدیل اسکچ به طرح سهبعدی، خلق لوگو از توصیف متنی.
حل مسئله گامبهگام
از تمرینهای «تئوری ذهن» تا بهینهسازی زنجیره تأمین؛ مناسب تصمیمگیریهای پیچیده.
پیامدها برای آینده هوش مصنوعی
لینگ ۱T نشان داد با طراحی هوشمند میتوان مصرف انرژی را کم و کیفیت را بالا برد. موفقیت این مدل منبعباز انگیزهای است برای همکاری جهانی و توسعه فناوریهای در دسترستر و سبزتر.
