“SRPO-Powered LLM یادگیری تقویتی را دگرگون می‌کند: برتری شگفت‌آور در ریاضی و کدنویسی با 1/10 سرعت تعلیم”

گیلان پلاس

3 هفته پیش

مقدمه

موفقیت مدل‌های پیشرفته مانند o1 از OpenAI و DeepSeek-R1 نشان داده که یادگیری تقویتی می‌تواند استدلال پیچیده در مدل‌های زبانی بزرگ را فراگیرد. اما روش‌های آموزشی آن‌ها اغلب نهان است و روش‌های رایج با مشکلاتی مانند کاهش بهره‌وری و تعارض حوزه‌ای مواجه می‌شوند.

تیم Kwaipilot از کوآیشو چارچوب SRPO را ارائه داده که این مشکلات را حل می‌کند. این روش نه تنها عملکرد بالایی در ریاضیات و کدنویسی دارد، بلکه با گام‌های آموزشی بسیار کمتری به نتایج مشابه دست یافته است.

هدف SRPO، ارتقای کارایی یادگیری تقویتی و دستیابی به استدلال عمیق و قابل تعمیم در حوزه‌های مختلف با استراتژی‌های هوشمند آموزشی است.

چالش‌های روش‌های یادگیری تقویتی معمولی

تعارض در یادگیری چندحوزه‌ای

داده‌های ریاضی معمولاً پاسخ‌های طولانی و استدلال گسترده‌تری ایجاد می‌کنند، در حالی که داده‌های کد تمایل به پاسخ‌های کوتاه و مستقیم دارند. ترکیب همزمان این دو حوزه باعث می‌شود مدل نتواند به‌خوبی در هیچ‌کدام پیشرفت کند.

کاهش کارایی آموزش

در روش GRPO، وقتی همه پاسخ‌های یک گروه نمره یکسان یا خیلی نزدیک به هم داشته باشند، واریانس نمره صفر می‌شود. این امر باعث از بین رفتن سیگنال گرادیان و توقف پیشرفت آموزش می‌شود.

توقف زودهنگام یادگیری

اگر داده‌های آموزشی بیش‌ازحد ساده یا تکراری باشند، مدل فقط در حل سوالات آسان مهارت پیدا می‌کند و نمی‌تواند به استدلال پیچیده دست یابد. این موضوع منجر به اشباع عملکرد در نمره‌دهی واقعی می‌شود.

راه‌حل: آموزش دو مرحله‌ای

برای رفع تعارض بین حوزه‌های ریاضیات و کدنویسی، SRPO از یک روند دو مرحله‌ای استفاده می‌کند.

مرحله اول: تقویت استدلال

در این مرحله، مدل فقط با داده‌های پیچیده ریاضی آموزش می‌بیند. هدف، ایجاد و تقویت مهارت‌هایی مانند تجزیه گام‌به‌گام، برگشت از مسیر و توقف برای تأمل است.

این آموزش باعث افزایش طول استدلال و پایه‌ریزی رفتارهای عمیق فکری می‌شود.

مرحله دوم: ادغام مهارت کدنویسی

در این مرحله، داده‌های کدنویسی اضافه می‌شوند. مدل استدلال یادگرفته شده را در حوزه کدنویسی به‌کار می‌برد.

هدف، تقویت تفکر رویه‌ای، بازگشتی و استفاده از ابزارها (مثل دستورات داده‌ای یا توابع) است.

مقایسه روش‌های مختلف آموزش

روش آموزش	طول پاسخ	عملکرد ریاضیات	عملکرد کدنویسی	استدلال
ترکیبی (ریاضی + کد)	محدود	ضعیف	ضعیف	نامنظم
فقط ریاضی	زیاد و پایدار	عالی	متوسط با استدلال	گسترده و منظم
فقط کود	کوتاه	ضعیف، بدون استدلال	بهبود یافته	حداقل
دو مرحله‌ای (SRPO)	زیاد و ساختاریافته	عالی	عالی با استدلال	پیشرفته و خودآگاه

نمونه‌برداری مجدد تاریخچه

در مراحل بعدی آموزش، بیش از 50٪ از گروه‌ها نمره یکسان دارند. این موضوع منجر به توقف گرادیان و کاهش پیشرفت می‌شود.

چگونه کار می‌کند؟

در پایان هر دوره آموزش (epoch)، سیستم تمام نتایج پاسخ‌ها را ردیابی و دوباره نمونه‌برداری می‌کند.

حذف نمونه‌های خیلی آسان: مسائلی که همه پاسخ‌ها درست بودند، حذف می‌شوند — چون بهبودی برای سیاست ندارند.
نگهداری نمونه‌های چالشی: مسائلی که همه پاسخ‌ها اشتباه بوده یا مخلوط درست-اشتباه باشند، نگه داشته می‌شوند.
نمونه‌های نادر اما سنگین: مسائلی که در دور فعلی همه پاسخ اشتباه بوده، اما در دور بعدی ممکن است به عنوان فرصتی برای پیشرفت باشند.

مزایای روش

این استراتژی شبیه یادگیری برنامه‌ریزی شده (curriculum learning) عمل می‌کند: مدل ابتدا سوالات ساده می‌بیند، سپس به‌تدریج با چالش‌های پیچیده‌تر روبرو می‌شود.

در مقایسه با روش‌های دینامیک نمونه‌برداری (مثل DAPO)، کارایی محاسباتی و پایداری آموزش بسیار بهتر است.

آماده‌سازی داده‌ها

داده‌های مورد استفاده در این کار از منابع عمومی کُد و ریاضی گردآوری و با دقت پاک‌سازی شده‌اند.

فیلترهای به کار رفته

حذف لینک‌های نامرتبط، نویز قالب‌بندی و داده‌های ناقص.
حذف سوالات چندبخشی، اثبات محض و نیازمند تصویر یا جدول (در ریاضیات).
حذف مسائل وابسته به محیط، خواندن فایل یا شبکه (در کدنویسی).

تضمین کیفیت داده

تمام سوالات از نظر درستی و قابل‌حل‌بودن بررسی شده‌اند. پاسخ‌های اشتباه یا مبهم حذف شده‌اند.

همچنین هر سوال از نظر سطح دشواری (آسان، متوسط، سخت) رتبه‌بندی شده است تا آموزش تدریجی و موثر امکان‌پذیر شود.

نتایج آزمایشی

پیشرفت در طول آموزش

نمودار نمره و طول پاسخ در طول آموزش نشان می‌دهد که پس از یک دوره نرمال، با انتقال به مرحله دوم (افزودن داده کد)، ابتدا کاهش جزئی نمره رخ می‌دهد.

اما سپس پیشرفتی پایدار و هموار در هر دو حوزه مشاهده می‌شود. طول پاسخ در هر دو حوزه پایدار می‌ماند، بدون افت.

کارایی بالاتر با دستورالعمل هوشمند

نمونه‌برداری مجدد تاریخچه باعث افزایش نسبت گرادیان‌های مفید در هر گام می‌شود. این موضوع مستقیماً منجر به رشد پایدار و سریع‌تر نمره و پیشرفت سریع‌تر آموزش می‌شود.

الگوهای استدلال خودآگاه

در طول آموزش، مدل به تدریج الگوهای خودبازبینی را توسعه می‌دهد.

سه الگوی کلیدی

بررسی مجدد (Recheck): بررسی صحت گام‌های قبلی.
تrepidation (ترديد): مشخص کردن نقاط نامشخص و تأیید گزینه‌ها.
اکتشاف (Exploration): امتحان راه‌حل‌های جایگزین یا رویکردهای مختلف.

در مراحل اولیه، مدل هیچ فعالیت بررسی مجددی نشان نمی‌دهد. اما در طول آموزش، این رفتارها به‌تدریج ظهور می‌کنند.

استدلال چندمرحله‌ای

الگوهایی مانند استدلال گام‌به‌گام، جایگزینی عددی، تأیید فرآیند و بهینه‌سازی خودکار در پاسخ‌ها دیده می‌شود.

این نشان از توسعه یک «مهارت خودارزیابی» در مدل است — رفتاری که به تدریج در پاسخ به فشار بهبود عملکرد در یادگیری تقویتی شکل می‌گیرد.

ادغام هوشمند کد و ریاضی

یکی از جالب‌ترین یافته‌های SRPO، استفاده داوطلبانه مدل از کدنویسی برای حل مسائل ریاضی است.

شواهدی از استدلال ترکیبی

محل تجزیه مسئله ابتدا با منطق ریاضی.
نوشتن کد برای تأیید نتیجه (مثل محاسبه عددی یا شبیه‌سازی).
استفاده از کد به عنوان ابزاری برای تصحیح خودکار.

مثلاً در حل یک معادله، مدل ابتدا راه‌حل را با ریاضیات ارائه می‌دهد، سپس کدی می‌نویسد تا جواب را درستی آزمایی کند.

معنای این پدیده

این رفتار نشان از درک سیستماتیک ابزارها و فرآیندها دارد. مدل فقط پاسخ نمی‌دهد، بلکه مسیر رسیدن به پاسخ را با ابزارهای مختلف ارزیابی می‌کند.

در عمل، این به معنای یادگیری استدلال چندوجهی و قابل تعمیم است — یک قدم مهم به سوی مدل‌های هوشمندتر.