نماد سایت گیلان پلاس رسانه هوش مصنوعی و کارآفرینی گیلان

“SRPO-Powered LLM یادگیری تقویتی را دگرگون می‌کند: برتری شگفت‌آور در ریاضی و کدنویسی با 1/10 سرعت تعلیم”

مقدمه

موفقیت مدل‌های پیشرفته مانند o1 از OpenAI و DeepSeek-R1 نشان داده که یادگیری تقویتی می‌تواند استدلال پیچیده در مدل‌های زبانی بزرگ را فراگیرد. اما روش‌های آموزشی آن‌ها اغلب نهان است و روش‌های رایج با مشکلاتی مانند کاهش بهره‌وری و تعارض حوزه‌ای مواجه می‌شوند.

تیم Kwaipilot از کوآیشو چارچوب SRPO را ارائه داده که این مشکلات را حل می‌کند. این روش نه تنها عملکرد بالایی در ریاضیات و کدنویسی دارد، بلکه با گام‌های آموزشی بسیار کمتری به نتایج مشابه دست یافته است.

هدف SRPO، ارتقای کارایی یادگیری تقویتی و دستیابی به استدلال عمیق و قابل تعمیم در حوزه‌های مختلف با استراتژی‌های هوشمند آموزشی است.

چالش‌های روش‌های یادگیری تقویتی معمولی

تعارض در یادگیری چندحوزه‌ای

داده‌های ریاضی معمولاً پاسخ‌های طولانی و استدلال گسترده‌تری ایجاد می‌کنند، در حالی که داده‌های کد تمایل به پاسخ‌های کوتاه و مستقیم دارند. ترکیب همزمان این دو حوزه باعث می‌شود مدل نتواند به‌خوبی در هیچ‌کدام پیشرفت کند.

کاهش کارایی آموزش

در روش GRPO، وقتی همه پاسخ‌های یک گروه نمره یکسان یا خیلی نزدیک به هم داشته باشند، واریانس نمره صفر می‌شود. این امر باعث از بین رفتن سیگنال گرادیان و توقف پیشرفت آموزش می‌شود.

توقف زودهنگام یادگیری

اگر داده‌های آموزشی بیش‌ازحد ساده یا تکراری باشند، مدل فقط در حل سوالات آسان مهارت پیدا می‌کند و نمی‌تواند به استدلال پیچیده دست یابد. این موضوع منجر به اشباع عملکرد در نمره‌دهی واقعی می‌شود.

راه‌حل: آموزش دو مرحله‌ای

برای رفع تعارض بین حوزه‌های ریاضیات و کدنویسی، SRPO از یک روند دو مرحله‌ای استفاده می‌کند.

مرحله اول: تقویت استدلال

در این مرحله، مدل فقط با داده‌های پیچیده ریاضی آموزش می‌بیند. هدف، ایجاد و تقویت مهارت‌هایی مانند تجزیه گام‌به‌گام، برگشت از مسیر و توقف برای تأمل است.

این آموزش باعث افزایش طول استدلال و پایه‌ریزی رفتارهای عمیق فکری می‌شود.

مرحله دوم: ادغام مهارت کدنویسی

در این مرحله، داده‌های کدنویسی اضافه می‌شوند. مدل استدلال یادگرفته شده را در حوزه کدنویسی به‌کار می‌برد.

هدف، تقویت تفکر رویه‌ای، بازگشتی و استفاده از ابزارها (مثل دستورات داده‌ای یا توابع) است.

مقایسه روش‌های مختلف آموزش

روش آموزش طول پاسخ عملکرد ریاضیات عملکرد کدنویسی استدلال
ترکیبی (ریاضی + کد) محدود ضعیف ضعیف نامنظم
فقط ریاضی زیاد و پایدار عالی متوسط با استدلال گسترده و منظم
فقط کود کوتاه ضعیف، بدون استدلال بهبود یافته حداقل
دو مرحله‌ای (SRPO) زیاد و ساختاریافته عالی عالی با استدلال پیشرفته و خودآگاه

نمونه‌برداری مجدد تاریخچه

در مراحل بعدی آموزش، بیش از 50٪ از گروه‌ها نمره یکسان دارند. این موضوع منجر به توقف گرادیان و کاهش پیشرفت می‌شود.

چگونه کار می‌کند؟

در پایان هر دوره آموزش (epoch)، سیستم تمام نتایج پاسخ‌ها را ردیابی و دوباره نمونه‌برداری می‌کند.

مزایای روش

این استراتژی شبیه یادگیری برنامه‌ریزی شده (curriculum learning) عمل می‌کند: مدل ابتدا سوالات ساده می‌بیند، سپس به‌تدریج با چالش‌های پیچیده‌تر روبرو می‌شود.

در مقایسه با روش‌های دینامیک نمونه‌برداری (مثل DAPO)، کارایی محاسباتی و پایداری آموزش بسیار بهتر است.

آماده‌سازی داده‌ها

داده‌های مورد استفاده در این کار از منابع عمومی کُد و ریاضی گردآوری و با دقت پاک‌سازی شده‌اند.

فیلترهای به کار رفته

تضمین کیفیت داده

تمام سوالات از نظر درستی و قابل‌حل‌بودن بررسی شده‌اند. پاسخ‌های اشتباه یا مبهم حذف شده‌اند.

همچنین هر سوال از نظر سطح دشواری (آسان، متوسط، سخت) رتبه‌بندی شده است تا آموزش تدریجی و موثر امکان‌پذیر شود.

نتایج آزمایشی

پیشرفت در طول آموزش

نمودار نمره و طول پاسخ در طول آموزش نشان می‌دهد که پس از یک دوره نرمال، با انتقال به مرحله دوم (افزودن داده کد)، ابتدا کاهش جزئی نمره رخ می‌دهد.

اما سپس پیشرفتی پایدار و هموار در هر دو حوزه مشاهده می‌شود. طول پاسخ در هر دو حوزه پایدار می‌ماند، بدون افت.

کارایی بالاتر با دستورالعمل هوشمند

نمونه‌برداری مجدد تاریخچه باعث افزایش نسبت گرادیان‌های مفید در هر گام می‌شود. این موضوع مستقیماً منجر به رشد پایدار و سریع‌تر نمره و پیشرفت سریع‌تر آموزش می‌شود.

الگوهای استدلال خودآگاه

در طول آموزش، مدل به تدریج الگوهای خودبازبینی را توسعه می‌دهد.

سه الگوی کلیدی

در مراحل اولیه، مدل هیچ فعالیت بررسی مجددی نشان نمی‌دهد. اما در طول آموزش، این رفتارها به‌تدریج ظهور می‌کنند.

استدلال چندمرحله‌ای

الگوهایی مانند استدلال گام‌به‌گام، جایگزینی عددی، تأیید فرآیند و بهینه‌سازی خودکار در پاسخ‌ها دیده می‌شود.

این نشان از توسعه یک «مهارت خودارزیابی» در مدل است — رفتاری که به تدریج در پاسخ به فشار بهبود عملکرد در یادگیری تقویتی شکل می‌گیرد.

ادغام هوشمند کد و ریاضی

یکی از جالب‌ترین یافته‌های SRPO، استفاده داوطلبانه مدل از کدنویسی برای حل مسائل ریاضی است.

شواهدی از استدلال ترکیبی

مثلاً در حل یک معادله، مدل ابتدا راه‌حل را با ریاضیات ارائه می‌دهد، سپس کدی می‌نویسد تا جواب را درستی آزمایی کند.

معنای این پدیده

این رفتار نشان از درک سیستماتیک ابزارها و فرآیندها دارد. مدل فقط پاسخ نمی‌دهد، بلکه مسیر رسیدن به پاسخ را با ابزارهای مختلف ارزیابی می‌کند.

در عمل، این به معنای یادگیری استدلال چندوجهی و قابل تعمیم است — یک قدم مهم به سوی مدل‌های هوشمندتر.

خروج از نسخه موبایل