نماد سایت گیلان پلاس رسانه هوش مصنوعی و کارآفرینی گیلان

SPCT دیپ سیک: کلید تغییر در توسعه مدل‌های هوش مصنوعی استنتاجی

خلاصه مقاله:
این مقاله به بررسی روش جدیدی به نام SPCT از DeepSeek می‌پردازد که عملکرد مدل‌های پاداش عمومی (GRM) را در زمان استنتاج بهبود می‌دهد. این روش با تولید خودکار اصول و انتقادات و استفاده از یادگیری تقویتی مبتنی بر قاعده، مقیاس‌پذیری و دقت مدل پاداش را افزایش می‌دهد. همچنین اشاره‌ای به آینده مدل‌های DeepSeek، به ویژه R2، و نقش یادگیری تقویتی در پیشرفت هوش مصنوعی کرده است.

مقدمه

در دنیای هوش مصنوعی، بهبود مدل‌های زبان بزرگ (LLM) دیگر فقط به آموزش اولیه محدود نمی‌شود. امروزه تمرکز به سمت مرحله پس از آموزش و به ویژه استنتاج منتقل شده است. روش‌هایی مانند یادگیری تقویتی این امکان را فراهم کرده‌اند که مدل‌ها در زمان پاسخ دادن، بهتر فکر کنند و تصمیم‌های دقیق‌تری بگیرند. DeepSeek با معرفی تکنیک SPCT، گام مهمی در این مسیر برداشته است.

تغییر پارادایم در مقیاس‌بندی مدل‌های هوش مصنوعی

قبلاً بهبود عملکرد مدل‌های زبان بزرگ عمدتاً با افزایش حجم داده و توان محاسباتی در مرحله پیش‌آموزش انجام می‌شد.
اما امروزه تمرکز به سمت مراحل بعدی، به ویژه استنتاج و یادگیری تقویتی، جابه‌جا شده است.
مدل‌های جدید مانند o1 از زمان فکر کردن درونی برای بهبود استدلال و پرهیز از اشتباهات کوتاه‌مدت استفاده می‌کنند.

نقش یادگیری تقویتی در بهبود استدلال مدل‌ها

مدل‌های زبانی با مکانیسم پیش‌بینی کلمه بعدی، دانش گسترده‌ای دارند اما در برنامه‌ریزی بلندمدت ضعیف عمل می‌کنند.
یادگیری تقویتی (RL) به آن‌ها کمک می‌کند تا مانند یک “مدل درونی از دنیا” رفتار کنند و عواقب تصمیم‌ها را شبیه‌سازی کنند.
این ترکیب، امکان حل مسائل پیچیده با استراتژی‌های سیستماتیک را فراهم می‌آورد.

روابط تکمیلی مدل‌های زبانی و یادگیری تقویتی

بر اساس دیدگاه وو یی از دانشگاه تسینگ هوآ، رابطه بین LLM و RL یک “رابطه ضربی” است.
LLM‌ها مبانی درک، حافظه و استدلال منطقی را فراهم می‌کنند.
بدون این پایه، یادگیری تقویتی نمی‌تواند به درستی عمل کند و یک عامل هوشمند کامل شکل نمی‌گیرد.

مراحل آموزش مدل زبان با یادگیری تقویتی

فرآیند استفاده از RL برای بهبود LLM شامل سه مرحله اصلی است:

  1. آموزش مدل پاداش: ساخت مدلی که بتواند پاسخ‌های مختلف را بر اساس سلیقه انسان امتیازدهی کند.
  2. ایصیاد مبتنی بر ترجیح: تولید چندین پاسخ از مدل و ارزیابی آن‌ها با مدل پاداش.
  3. بهینه‌سازی سیاست: به‌روزرسانی وزن‌های مدل بر اساس امتیازهای دریافتی برای بهبود آینده.

این چرخه به مدل اجازه می‌دهد پاسخ‌های بهتری تولید کند، نه فقط یک پاسخ ازپیش تعیین شده.

چالش‌های مقیاس‌بندی یادگیری تقویتی

برخلاف مقیاس‌بندی سنتی که بر داده و محاسبه تمرکز دارد، مقیاس‌بندی یادگیری تقویتی پیچیده‌تر است.
عامل‌هایی مانند تعداد نمونه‌ها، اندازه مدل و پیچیدگی محیط آموزشی تأثیرگذارند.
یکی از بزرگ‌ترین مشکلات، “کمی بودن پاداش” (Reward Sparsity) است که دقت مدل پاداش را کاهش می‌دهد.

هدف از توسعه مدل پاداش عمومی (GRM)

مدل‌های پاداش باید بتوانند در حوزه‌های مختلف به درستی امتیازدهی کنند و عملکرد پایداری داشته باشند.
چالش اصلی، دستیابی به تعمیم‌پذیری و تداوم در پاداش است.
هرچه مدل پاداش قوی‌تر و دقیق‌تر باشد، یادگیری تقویتی مؤثرتر خواهد بود.

معرفی روش جدید: SPCT

DeepSeek در تحقیق جدید خود روشی به نام Self-Principled Critique Tuning (SPCT) ارائه کرده است.
این روش به بهبود مقیاس‌پذیری مدل پاداش در زمان استنتاج می‌پردازد.
دو مرحله اصلی آن شامل تنظیم رد و یادگیری تقویتی آنلاین مبتنی بر قاعده است.

مرحله اول: تنظیم رد (Rejection Fine-Tuning)

این مرحله مانند یک شروع سرد عمل می‌کند.
مدل آموزش می‌بیند که چگونه اصول و انتقادات را به شکل صحیح تولید کند.
هدف، فراهم کردن یک خروجی استاندارد و معنادار از مدل پاداش است.

مرحله دوم: یادگیری تقویتی آنلاین مبتنی بر قاعده

در این مرحله، مدل به صورت پویا اصول و انتقادات را بهبود می‌بخشد.
این فرآیند با استفاده از قواعد تعریف‌شده، به صورت آنلاین انجام می‌شود.
نتیجه: تولید پاداش‌های دقیق‌تر و قابل اعتمادتر در زمان استنتاج.

مکانیزم افزایش مقیاس با SPCT

برای دستیابی به مقیاس‌بندی بهتر، از نمونه‌گیری موازی استفاده می‌شود.
مدل چندین بار نمونه تولید می‌کند و مجموعه‌های مختلفی از اصول و انتقادات ایجاد می‌کند.
سپس با یک سیستم رأی‌گیری، بهترین پاداش انتخاب می‌شود.

نقش مدل پاداش متا (Meta RM)

یک مدل پاداش متا برای هدایت فرآیند رأی‌گیری توسعه داده شده است.
این مدل کوچک‌تر، کیفیت اصول و انتقادات تولیدشده توسط GRM را ارزیابی می‌کند.
Meta RM یک مدل اسکالر نقطه‌به‌نقطه است که در تشخیص درستی یا نادرستی خروجی‌ها کمک می‌کند.

نتایج آزمایشی SPCT</h2

خروج از نسخه موبایل