مقدمه
هوش مصنوعی خودتکاملشونده دیگر تنها یک ایده نظری نیست. تحقیقات جدید نشان میدهند مدلهای زبان میتوانند خودشان را بهروزرسانی کنند. این تحول با معرفی چارچوبی به نام SEAL توسط MIT شتاب گرفته است. این سیستم به مدل اجازه میدهد بدون دخالت انسان، خودش را بهبود بخشد.
چه چیزی SEAL را متفاوت میکند؟
خودبهروزرسانی با ویرایش داخلی
SEAL اولین چارچوبی است که به مدل زبان اجازه میدهد مستقیماً وزنهای خود را تغییر دهد. به جای آموزش مجدد توسط انسان، مدل دادههای مصنوعی تولید کرده و خودش را با “ویرایش خودکار” بهروز میکند.
آموزش با پاداش عملکرد
این ویرایشها با استفاده از یادگیری تقویتی انجام میشوند. مدل زمانی پاداش میگیرد که ویرایشی که خودش ایجاد کرده، منجر به بهبود عملکرد واقعی در وظیفه هدف شود.
دو حلقه یادگیری
ساختار SEAL شامل دو بخش است:
- حلقه داخلی: اعمال ویرایشهای خودکار بر روی وزنها
- حلقه خارجی: بهبود روش تولید این ویرایشها با یادگیری تقویتی
این ساختار به مدل کمک میکند هم عملکرد داشته باشد و هم روش بهبود خود را فرا بگیرد.
چگونه SEAL کار میکند؟
ورودی و زمینه وظیفه
مدل با یک زمینه (C) و یک معیار ارزیابی (τ) شروع میکند. مثلاً، یک متن برای یادگیری و سپس سؤالاتی از آن.
تولید ویرایش خودکار
مدل یک “ویرایش خودکار” (Self-Edit) تولید میکند — دستوری برای تغییر وزنهای خودش — تا بهتر در ارزیابی π عمل کند.
بهروزرسانی و ارزیابی
بهبود مداوم با ReST^EM
به جای روشهای پیچیده یادگیری تقویتی، SEAL از ReST^EM استفاده میکند. این روش سادهتر است:
- نمونههای مختلفی از ویرایش تولید میکند.
- فقط ویرایشهایی که باعث بهبود عملکرد شده باشند، ذخیره و آموزش میبینند.
- این چرخه تکرار میشود.
کاربردهای عملی SEAL
یکپارچهسازی دانش
مدل میتواند اطلاعات یک مقاله را مستقیماً در وزنهای خود بسازد.
روش | دقت |
---|---|
SEAL + RL | بالاتر از GPT-4.1 |
داده ساختگی بدون RL | بهتر از پایه، اما کمتر |
بدون بهروزرسانی | 0% |
یادگیری کمنمونه (Few-Shot Learning)
با تنها چند نمونه، مدل باید وظیفه جدیدی را یاد بگیرد.
برای مدل Llama-3.2-1B-Instruct:
- SEAL: 72.5%
- بدون RL: 20%
- بدون بهروزرسانی: 0%
محدودیتها و چالشها
نوآوری یا تقلید؟
SEAL در کنار سایر تحقیقات اخیر قرار میگیرد:
- Darwin-Gödel Machine (DGM) – Sakana AI و دانشگاه بریتیش کولومبیا
- SRT (Self-Rewarding Training) – دانشگاه CMU
- MM-UPT – دانشگاه جیائوتونگ شانگهای (مدلهای چندحسی)
- UI-Genie – دانشگاه چینی هنگکنگ و vivo
ولی تنها SEAL بهطور مستقیم اجازه تغییر وزنها را به خود مدل میدهد.
آینده هوش خودتکاملشونده
با وجود این، بحثها شدت گرفته است. سام آلمان، مدیرعامل OpenAI، در مقالهای به نام “انفجار ملایم” نوشت که رباتها بهزودی میتوانند زنجیره تولید را مدیریت کنند. فراتر از آن، شایعاتی مبنی بر استفاده داخلی OpenAI از سیستمهای خودتکامل منتشر شده است.
این تحقیق نشان میدهد پاسخ، خیریت نزدیک است.