“هوش خودروزای MIT: روش نوآورانه که چگونه مدل‌های زبانی به خودی را به‌روز می‌کنند!”

گیلان پلاس

3 هفته پیش

این مقاله به معرفی چارچوب نوآورانه‌ای به نام **SEAL** می‌پردازد که توسط محققان MIT ارائه شده و به مدل‌های زبان بزرگ (LLM) اجازه می‌دهد تا خودشان را به‌روزرسانی و بهبود دهند. در این روش، مدل با استفاده از یادگیری تقویتی، داده‌های مصنوعی ایجاد می‌کند و پارامترهای خود را با اعمال «ویرایش‌های خودکار» بهبود می‌بخشد. این فناوری گامی مهم به سمت هوش مصنوعی خودتکامل‌شونده محسوب می‌شود و در حوزه‌هایی مانند یکپارچه‌سازی دانش و یادگیری کم‌نمونه نتایج قابل توجهی داشته است.

مقدمه

هوش مصنوعی خودتکامل‌شونده دیگر تنها یک ایده نظری نیست. تحقیقات جدید نشان می‌دهند مدل‌های زبان می‌توانند خودشان را به‌روزرسانی کنند. این تحول با معرفی چارچوبی به نام SEAL توسط MIT شتاب گرفته است. این سیستم به مدل اجازه می‌دهد بدون دخالت انسان، خودش را بهبود بخشد.

چه چیزی SEAL را متفاوت می‌کند؟

خودبه‌روزرسانی با ویرایش داخلی

SEAL اولین چارچوبی است که به مدل زبان اجازه می‌دهد مستقیماً وزن‌های خود را تغییر دهد. به جای آموزش مجدد توسط انسان، مدل داده‌های مصنوعی تولید کرده و خودش را با “ویرایش خودکار” به‌روز می‌کند.

آموزش با پاداش عملکرد

این ویرایش‌ها با استفاده از یادگیری تقویتی انجام می‌شوند. مدل زمانی پاداش می‌گیرد که ویرایشی که خودش ایجاد کرده، منجر به بهبود عملکرد واقعی در وظیفه هدف شود.

دو حلقه یادگیری

ساختار SEAL شامل دو بخش است:

حلقه داخلی: اعمال ویرایش‌های خودکار بر روی وزن‌ها
حلقه خارجی: بهبود روش تولید این ویرایش‌ها با یادگیری تقویتی

این ساختار به مدل کمک می‌کند هم عملکرد داشته باشد و هم روش بهبود خود را فرا بگیرد.

چگونه SEAL کار می‌کند؟

ورودی و زمینه وظیفه

مدل با یک زمینه (C) و یک معیار ارزیابی (τ) شروع می‌کند. مثلاً، یک متن برای یادگیری و سپس سؤالاتی از آن.

تولید ویرایش خودکار

مدل یک “ویرایش خودکار” (Self-Edit) تولید می‌کند — دستوری برای تغییر وزن‌های خودش — تا بهتر در ارزیابی π عمل کند.

به‌روزرسانی و ارزیابی

ویرایش به مدل اعمال می‌شود.

مدل جدید (θ′) روی وظیفه تست می‌شود.

اگر عملکرد بهتر شود، ویرایش پاداش می‌گیرد.

بهبود مداوم با ReST^EM

به جای روش‌های پیچیده یادگیری تقویتی، SEAL از ReST^EM استفاده می‌کند. این روش ساده‌تر است:

نمونه‌های مختلفی از ویرایش تولید می‌کند.
فقط ویرایش‌هایی که باعث بهبود عملکرد شده باشند، ذخیره و آموزش می‌بینند.
این چرخه تکرار می‌شود.

کاربردهای عملی SEAL

یکپارچه‌سازی دانش

مدل می‌تواند اطلاعات یک مقاله را مستقیماً در وزن‌های خود بسازد.

روش	دقت
SEAL + RL	بالاتر از GPT-4.1
داده ساختگی بدون RL	بهتر از پایه، اما کمتر
بدون به‌روزرسانی	0%

یادگیری کم‌نمونه (Few-Shot Learning)

با تنها چند نمونه، مدل باید وظیفه جدیدی را یاد بگیرد.
برای مدل Llama-3.2-1B-Instruct:

SEAL: 72.5%
بدون RL: 20%
بدون به‌روزرسانی: 0%

محدودیت‌ها و چالش‌ها

فراموشی فاجعه‌بار: مدل ممکن است اطلاعات قبلی را پس از به‌روزرسانی گم کند.

هزینه محاسباتی: هر بار به‌روزرسانی نیاز به پردازش دارد.

ابزار ارزیابی خارجی: نیاز به یک معیار بیرونی برای پاداش دادن وجود دارد.

نوآوری یا تقلید؟

SEAL در کنار سایر تحقیقات اخیر قرار می‌گیرد:

Darwin-Gödel Machine (DGM) – Sakana AI و دانشگاه بریتیش کولومبیا
SRT (Self-Rewarding Training) – دانشگاه CMU
MM-UPT – دانشگاه جیائوتونگ شانگهای (مدل‌های چندحسی)
UI-Genie – دانشگاه چینی هنگ‌کنگ و vivo

ولی تنها SEAL به‌طور مستقیم اجازه تغییر وزن‌ها را به خود مدل می‌دهد.

آینده هوش خودتکامل‌شونده

با وجود این، بحث‌ها شدت گرفته است. سام آلمان، مدیرعامل OpenAI، در مقاله‌ای به نام “انفجار ملایم” نوشت که ربات‌ها به‌زودی می‌توانند زنجیره تولید را مدیریت کنند. فراتر از آن، شایعاتی مبنی بر استفاده داخلی OpenAI از سیستم‌های خودتکامل منتشر شده است.

آیا SEAL نسخه اولیه این آینده است؟

آیا ما در آستانه عصر هوش خودآموز هستیم؟

این تحقیق نشان می‌دهد پاسخ، خیریت نزدیک است.