مدل ۷ میلیونی سامسونگ غول‌های LLM را شکست داد

خلاصه

TRم، شبکه‌ی ۷ میلیون پارامتری سامسونگ، با بازگشتِ خود-اصلاح‌گر در ۱۶ مرحله، تست هوش ARC-AGI را از بزرگ‌ترین LLم‌ها پیشی گرفت؛ مصرف کم، دقت ۴۴٫۶٫

مقدمه

فکر می‌کردید فقط مدل‌های چندمیلیارد پارامتری می‌توانند استدلال پیچیده انجام دهند؟ TRم نشان می‌دهد کوچک و چابک هم می‌شود قوی بود.

چرا LLم‌های بزرگ در استدلال لغزش دارند؟

ارور یک توکن کافی است تا کل زنجیره پاسخ را بهم بریزد؛ چین‌-آو-توت هم هزینهٔ سنگین دارد و باز هم جلوی خطا را نمی‌گیرد.

TRم چیست و چه فرقی با HRM دارد؟

ساختار ساده‌تر

یک شبکهٔ ۲ لایهٔ کوچک جایگزین دو شبکهٔ همکار در HRM شده؛ حلقهٔ بازگشتی تا ۱۶ بار اجرا می‌شود.

یادگیری مستقیم

به جای قضیه‌های نقطه‌ثابت، پس‌انتشار از کل حلقه انجام می‌شود؛ دقت سودوکوی سخت از ۵۶٫۵٪ به ۸۷٫۴٪ جهید.

نتایج چشم‌گیر در بنچمارک‌های دشوار

آزمونمعیارHRMTRم
Sudoku-Extremeدقت۵۵٪۸۷٫۴٪
Maze-Hardدقت۷۴٫۵٪۸۵٫۳٪
ARC-AGI-۱دقتپایین‌تر۴۴٫۶٪
ARC-AGI-۲دقت۵٫۹٪۷٫۸٪

در ARC-AGI-۲ Gemini 2.5 Pro فقط ۴٫۹٪ می‌گیرد؛ TRم با ۰٫۰۱٪ اندازه برتری دارد.

مزیت‌های پایداری و سرعت

  • ۷ میلیون پارامتر = مصرف انرژی ناچیز
  • حذف پاس دوم در ACT آموزش را ارزان‌تر کرد
  • نیاز به دیتای کوچک (۱۰۰۰ نمونه سودوکو)

چه چیزی یاد گرفتیم؟

بازگشت درونی و خود-اصلاحی، جایگزین مقیاس بی‌پایان است؛ ترکیب هوشمند معماری می‌تواند به جای افزایش پارامتر، کارایی را جهش دهد.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *