خلاصه
TRم، شبکهی ۷ میلیون پارامتری سامسونگ، با بازگشتِ خود-اصلاحگر در ۱۶ مرحله، تست هوش ARC-AGI را از بزرگترین LLمها پیشی گرفت؛ مصرف کم، دقت ۴۴٫۶٫
مقدمه
فکر میکردید فقط مدلهای چندمیلیارد پارامتری میتوانند استدلال پیچیده انجام دهند؟ TRم نشان میدهد کوچک و چابک هم میشود قوی بود.
چرا LLمهای بزرگ در استدلال لغزش دارند؟
ارور یک توکن کافی است تا کل زنجیره پاسخ را بهم بریزد؛ چین-آو-توت هم هزینهٔ سنگین دارد و باز هم جلوی خطا را نمیگیرد.
TRم چیست و چه فرقی با HRM دارد؟
ساختار سادهتر
یک شبکهٔ ۲ لایهٔ کوچک جایگزین دو شبکهٔ همکار در HRM شده؛ حلقهٔ بازگشتی تا ۱۶ بار اجرا میشود.
یادگیری مستقیم
به جای قضیههای نقطهثابت، پسانتشار از کل حلقه انجام میشود؛ دقت سودوکوی سخت از ۵۶٫۵٪ به ۸۷٫۴٪ جهید.
نتایج چشمگیر در بنچمارکهای دشوار
| آزمون | معیار | HRM | TRم |
|---|---|---|---|
| Sudoku-Extreme | دقت | ۵۵٪ | ۸۷٫۴٪ |
| Maze-Hard | دقت | ۷۴٫۵٪ | ۸۵٫۳٪ |
| ARC-AGI-۱ | دقت | پایینتر | ۴۴٫۶٪ |
| ARC-AGI-۲ | دقت | ۵٫۹٪ | ۷٫۸٪ |
در ARC-AGI-۲ Gemini 2.5 Pro فقط ۴٫۹٪ میگیرد؛ TRم با ۰٫۰۱٪ اندازه برتری دارد.
مزیتهای پایداری و سرعت
- ۷ میلیون پارامتر = مصرف انرژی ناچیز
- حذف پاس دوم در ACT آموزش را ارزانتر کرد
- نیاز به دیتای کوچک (۱۰۰۰ نمونه سودوکو)
چه چیزی یاد گرفتیم؟
بازگشت درونی و خود-اصلاحی، جایگزین مقیاس بیپایان است؛ ترکیب هوشمند معماری میتواند به جای افزایش پارامتر، کارایی را جهش دهد.
