خلاصه مقاله:
این مقاله به بررسی روش جدیدی به نام SPCT از DeepSeek میپردازد که عملکرد مدلهای پاداش عمومی (GRM) را در زمان استنتاج بهبود میدهد. این روش با تولید خودکار اصول و انتقادات و استفاده از یادگیری تقویتی مبتنی بر قاعده، مقیاسپذیری و دقت مدل پاداش را افزایش میدهد. همچنین اشارهای به آینده مدلهای DeepSeek، به ویژه R2، و نقش یادگیری تقویتی در پیشرفت هوش مصنوعی کرده است.
—
مقدمه
در دنیای هوش مصنوعی، بهبود مدلهای زبان بزرگ (LLM) دیگر فقط به آموزش اولیه محدود نمیشود. امروزه تمرکز به سمت مرحله پس از آموزش و به ویژه استنتاج منتقل شده است. روشهایی مانند یادگیری تقویتی این امکان را فراهم کردهاند که مدلها در زمان پاسخ دادن، بهتر فکر کنند و تصمیمهای دقیقتری بگیرند. DeepSeek با معرفی تکنیک SPCT، گام مهمی در این مسیر برداشته است.
—
تغییر پارادایم در مقیاسبندی مدلهای هوش مصنوعی
قبلاً بهبود عملکرد مدلهای زبان بزرگ عمدتاً با افزایش حجم داده و توان محاسباتی در مرحله پیشآموزش انجام میشد.
اما امروزه تمرکز به سمت مراحل بعدی، به ویژه استنتاج و یادگیری تقویتی، جابهجا شده است.
مدلهای جدید مانند o1 از زمان فکر کردن درونی برای بهبود استدلال و پرهیز از اشتباهات کوتاهمدت استفاده میکنند.
—
نقش یادگیری تقویتی در بهبود استدلال مدلها
مدلهای زبانی با مکانیسم پیشبینی کلمه بعدی، دانش گستردهای دارند اما در برنامهریزی بلندمدت ضعیف عمل میکنند.
یادگیری تقویتی (RL) به آنها کمک میکند تا مانند یک “مدل درونی از دنیا” رفتار کنند و عواقب تصمیمها را شبیهسازی کنند.
این ترکیب، امکان حل مسائل پیچیده با استراتژیهای سیستماتیک را فراهم میآورد.
—
روابط تکمیلی مدلهای زبانی و یادگیری تقویتی
بر اساس دیدگاه وو یی از دانشگاه تسینگ هوآ، رابطه بین LLM و RL یک “رابطه ضربی” است.
LLMها مبانی درک، حافظه و استدلال منطقی را فراهم میکنند.
بدون این پایه، یادگیری تقویتی نمیتواند به درستی عمل کند و یک عامل هوشمند کامل شکل نمیگیرد.
—
مراحل آموزش مدل زبان با یادگیری تقویتی
فرآیند استفاده از RL برای بهبود LLM شامل سه مرحله اصلی است:
- آموزش مدل پاداش: ساخت مدلی که بتواند پاسخهای مختلف را بر اساس سلیقه انسان امتیازدهی کند.
- ایصیاد مبتنی بر ترجیح: تولید چندین پاسخ از مدل و ارزیابی آنها با مدل پاداش.
- بهینهسازی سیاست: بهروزرسانی وزنهای مدل بر اساس امتیازهای دریافتی برای بهبود آینده.
این چرخه به مدل اجازه میدهد پاسخهای بهتری تولید کند، نه فقط یک پاسخ ازپیش تعیین شده.
—
چالشهای مقیاسبندی یادگیری تقویتی
برخلاف مقیاسبندی سنتی که بر داده و محاسبه تمرکز دارد، مقیاسبندی یادگیری تقویتی پیچیدهتر است.
عاملهایی مانند تعداد نمونهها، اندازه مدل و پیچیدگی محیط آموزشی تأثیرگذارند.
یکی از بزرگترین مشکلات، “کمی بودن پاداش” (Reward Sparsity) است که دقت مدل پاداش را کاهش میدهد.
—
هدف از توسعه مدل پاداش عمومی (GRM)
مدلهای پاداش باید بتوانند در حوزههای مختلف به درستی امتیازدهی کنند و عملکرد پایداری داشته باشند.
چالش اصلی، دستیابی به تعمیمپذیری و تداوم در پاداش است.
هرچه مدل پاداش قویتر و دقیقتر باشد، یادگیری تقویتی مؤثرتر خواهد بود.
—
معرفی روش جدید: SPCT
DeepSeek در تحقیق جدید خود روشی به نام Self-Principled Critique Tuning (SPCT) ارائه کرده است.
این روش به بهبود مقیاسپذیری مدل پاداش در زمان استنتاج میپردازد.
دو مرحله اصلی آن شامل تنظیم رد و یادگیری تقویتی آنلاین مبتنی بر قاعده است.
—
مرحله اول: تنظیم رد (Rejection Fine-Tuning)
این مرحله مانند یک شروع سرد عمل میکند.
مدل آموزش میبیند که چگونه اصول و انتقادات را به شکل صحیح تولید کند.
هدف، فراهم کردن یک خروجی استاندارد و معنادار از مدل پاداش است.
—
مرحله دوم: یادگیری تقویتی آنلاین مبتنی بر قاعده
در این مرحله، مدل به صورت پویا اصول و انتقادات را بهبود میبخشد.
این فرآیند با استفاده از قواعد تعریفشده، به صورت آنلاین انجام میشود.
نتیجه: تولید پاداشهای دقیقتر و قابل اعتمادتر در زمان استنتاج.
—
مکانیزم افزایش مقیاس با SPCT
برای دستیابی به مقیاسبندی بهتر، از نمونهگیری موازی استفاده میشود.
مدل چندین بار نمونه تولید میکند و مجموعههای مختلفی از اصول و انتقادات ایجاد میکند.
سپس با یک سیستم رأیگیری، بهترین پاداش انتخاب میشود.
—
نقش مدل پاداش متا (Meta RM)
یک مدل پاداش متا برای هدایت فرآیند رأیگیری توسعه داده شده است.
این مدل کوچکتر، کیفیت اصول و انتقادات تولیدشده توسط GRM را ارزیابی میکند.
Meta RM یک مدل اسکالر نقطهبهنقطه است که در تشخیص درستی یا نادرستی خروجیها کمک میکند.
—
دیدگاهتان را بنویسید