مقدمه
موفقیت مدلهای پیشرفته مانند o1 از OpenAI و DeepSeek-R1 نشان داده که یادگیری تقویتی میتواند استدلال پیچیده در مدلهای زبانی بزرگ را فراگیرد. اما روشهای آموزشی آنها اغلب نهان است و روشهای رایج با مشکلاتی مانند کاهش بهرهوری و تعارض حوزهای مواجه میشوند.
تیم Kwaipilot از کوآیشو چارچوب SRPO را ارائه داده که این مشکلات را حل میکند. این روش نه تنها عملکرد بالایی در ریاضیات و کدنویسی دارد، بلکه با گامهای آموزشی بسیار کمتری به نتایج مشابه دست یافته است.
هدف SRPO، ارتقای کارایی یادگیری تقویتی و دستیابی به استدلال عمیق و قابل تعمیم در حوزههای مختلف با استراتژیهای هوشمند آموزشی است.
چالشهای روشهای یادگیری تقویتی معمولی
تعارض در یادگیری چندحوزهای
دادههای ریاضی معمولاً پاسخهای طولانی و استدلال گستردهتری ایجاد میکنند، در حالی که دادههای کد تمایل به پاسخهای کوتاه و مستقیم دارند. ترکیب همزمان این دو حوزه باعث میشود مدل نتواند بهخوبی در هیچکدام پیشرفت کند.
کاهش کارایی آموزش
در روش GRPO، وقتی همه پاسخهای یک گروه نمره یکسان یا خیلی نزدیک به هم داشته باشند، واریانس نمره صفر میشود. این امر باعث از بین رفتن سیگنال گرادیان و توقف پیشرفت آموزش میشود.
توقف زودهنگام یادگیری
اگر دادههای آموزشی بیشازحد ساده یا تکراری باشند، مدل فقط در حل سوالات آسان مهارت پیدا میکند و نمیتواند به استدلال پیچیده دست یابد. این موضوع منجر به اشباع عملکرد در نمرهدهی واقعی میشود.
راهحل: آموزش دو مرحلهای
برای رفع تعارض بین حوزههای ریاضیات و کدنویسی، SRPO از یک روند دو مرحلهای استفاده میکند.
مرحله اول: تقویت استدلال
در این مرحله، مدل فقط با دادههای پیچیده ریاضی آموزش میبیند. هدف، ایجاد و تقویت مهارتهایی مانند تجزیه گامبهگام، برگشت از مسیر و توقف برای تأمل است.
این آموزش باعث افزایش طول استدلال و پایهریزی رفتارهای عمیق فکری میشود.
مرحله دوم: ادغام مهارت کدنویسی
در این مرحله، دادههای کدنویسی اضافه میشوند. مدل استدلال یادگرفته شده را در حوزه کدنویسی بهکار میبرد.
هدف، تقویت تفکر رویهای، بازگشتی و استفاده از ابزارها (مثل دستورات دادهای یا توابع) است.
مقایسه روشهای مختلف آموزش
روش آموزش | طول پاسخ | عملکرد ریاضیات | عملکرد کدنویسی | استدلال |
---|---|---|---|---|
ترکیبی (ریاضی + کد) | محدود | ضعیف | ضعیف | نامنظم |
فقط ریاضی | زیاد و پایدار | عالی | متوسط با استدلال | گسترده و منظم |
فقط کود | کوتاه | ضعیف، بدون استدلال | بهبود یافته | حداقل |
دو مرحلهای (SRPO) | زیاد و ساختاریافته | عالی | عالی با استدلال | پیشرفته و خودآگاه |
نمونهبرداری مجدد تاریخچه
در مراحل بعدی آموزش، بیش از 50٪ از گروهها نمره یکسان دارند. این موضوع منجر به توقف گرادیان و کاهش پیشرفت میشود.
چگونه کار میکند؟
در پایان هر دوره آموزش (epoch)، سیستم تمام نتایج پاسخها را ردیابی و دوباره نمونهبرداری میکند.
- حذف نمونههای خیلی آسان: مسائلی که همه پاسخها درست بودند، حذف میشوند — چون بهبودی برای سیاست ندارند.
- نگهداری نمونههای چالشی: مسائلی که همه پاسخها اشتباه بوده یا مخلوط درست-اشتباه باشند، نگه داشته میشوند.
- نمونههای نادر اما سنگین: مسائلی که در دور فعلی همه پاسخ اشتباه بوده، اما در دور بعدی ممکن است به عنوان فرصتی برای پیشرفت باشند.
مزایای روش
این استراتژی شبیه یادگیری برنامهریزی شده (curriculum learning) عمل میکند: مدل ابتدا سوالات ساده میبیند، سپس بهتدریج با چالشهای پیچیدهتر روبرو میشود.
در مقایسه با روشهای دینامیک نمونهبرداری (مثل DAPO)، کارایی محاسباتی و پایداری آموزش بسیار بهتر است.
آمادهسازی دادهها
دادههای مورد استفاده در این کار از منابع عمومی کُد و ریاضی گردآوری و با دقت پاکسازی شدهاند.
فیلترهای به کار رفته
- حذف لینکهای نامرتبط، نویز قالببندی و دادههای ناقص.
- حذف سوالات چندبخشی، اثبات محض و نیازمند تصویر یا جدول (در ریاضیات).
- حذف مسائل وابسته به محیط، خواندن فایل یا شبکه (در کدنویسی).
تضمین کیفیت داده
تمام سوالات از نظر درستی و قابلحلبودن بررسی شدهاند. پاسخهای اشتباه یا مبهم حذف شدهاند.
همچنین هر سوال از نظر سطح دشواری (آسان، متوسط، سخت) رتبهبندی شده است تا آموزش تدریجی و موثر امکانپذیر شود.
نتایج آزمایشی
پیشرفت در طول آموزش
نمودار نمره و طول پاسخ در طول آموزش نشان میدهد که پس از یک دوره نرمال، با انتقال به مرحله دوم (افزودن داده کد)، ابتدا کاهش جزئی نمره رخ میدهد.
اما سپس پیشرفتی پایدار و هموار در هر دو حوزه مشاهده میشود. طول پاسخ در هر دو حوزه پایدار میماند، بدون افت.
کارایی بالاتر با دستورالعمل هوشمند
نمونهبرداری مجدد تاریخچه باعث افزایش نسبت گرادیانهای مفید در هر گام میشود. این موضوع مستقیماً منجر به رشد پایدار و سریعتر نمره و پیشرفت سریعتر آموزش میشود.
الگوهای استدلال خودآگاه
در طول آموزش، مدل به تدریج الگوهای خودبازبینی را توسعه میدهد.
سه الگوی کلیدی
- بررسی مجدد (Recheck): بررسی صحت گامهای قبلی.
- تrepidation (ترديد): مشخص کردن نقاط نامشخص و تأیید گزینهها.
- اکتشاف (Exploration): امتحان راهحلهای جایگزین یا رویکردهای مختلف.
در مراحل اولیه، مدل هیچ فعالیت بررسی مجددی نشان نمیدهد. اما در طول آموزش، این رفتارها بهتدریج ظهور میکنند.
استدلال چندمرحلهای
الگوهایی مانند استدلال گامبهگام، جایگزینی عددی، تأیید فرآیند و بهینهسازی خودکار در پاسخها دیده میشود.
این نشان از توسعه یک «مهارت خودارزیابی» در مدل است — رفتاری که به تدریج در پاسخ به فشار بهبود عملکرد در یادگیری تقویتی شکل میگیرد.
ادغام هوشمند کد و ریاضی
یکی از جالبترین یافتههای SRPO، استفاده داوطلبانه مدل از کدنویسی برای حل مسائل ریاضی است.
شواهدی از استدلال ترکیبی
- محل تجزیه مسئله ابتدا با منطق ریاضی.
- نوشتن کد برای تأیید نتیجه (مثل محاسبه عددی یا شبیهسازی).
- استفاده از کد به عنوان ابزاری برای تصحیح خودکار.
مثلاً در حل یک معادله، مدل ابتدا راهحل را با ریاضیات ارائه میدهد، سپس کدی مینویسد تا جواب را درستی آزمایی کند.
معنای این پدیده
این رفتار نشان از درک سیستماتیک ابزارها و فرآیندها دارد. مدل فقط پاسخ نمیدهد، بلکه مسیر رسیدن به پاسخ را با ابزارهای مختلف ارزیابی میکند.
در عمل، این به معنای یادگیری استدلال چندوجهی و قابل تعمیم است — یک قدم مهم به سوی مدلهای هوشمندتر.