نماد سایت گیلان پلاس رسانه هوش مصنوعی و کارآفرینی گیلان

ارتقای حافظه بلندمدت مدل‌های ویدئویی با State-Space: نوآوری از استنفورد، پرینستون و ادوبر

خلاصه مقاله:
مدل‌های ویدیویی دنیای جهانی (Video World Models) توانایی بالایی در شبیه‌سازی و پیش‌بینی دنیاهای پویا دارند، اما با چالش حفظ حافظه بلندمدت مواجه هستند. این مقاله یک معماری جدید به نام LSSVWM معرفی می‌کند که از مدل‌های فضای حالت (SSM) برای افزایش حافظه زمانی بدون افزایش چشمگیر محاسبات استفاده می‌کند. با ترکیب روش اسکن بلوکی، توجه محلی و راهکارهای آموزشی هوشمندانه، این مدل توانایی بالاتری در درک بلندمدت صحنه‌ها و انجام وظایف پیچیده نسبت به روش‌های قبلی دارد.

مقدمه

مدل‌های ویدیویی دنیای جهانی ابزار قدرتمندی برای شبیه‌سازی محیط‌های دینامیک هستند.
آن‌ها می‌توانند آینده را بر اساس اقدامات عامل پیش‌بینی کنند و برنامه‌ریزی هوشمند انجام دهند.
اما مشکل اصلی، فراموشی اطلاعات قدیمی به دلیل محدودیت حافظه بلندمدت است.

چالش حافظه بلندمدت در مدل‌های ویدیویی

مدل‌های فعلی برای پیش‌بینی فریم‌های بعدی، به حافظه از گذشته نیاز دارند.
اما لایه‌های توجه سنتی هزینه محاسباتی بالایی دارند، به‌ویژه وقتی توالی بلند باشد.
این هزینه از نوع درجه‌دومی است، یعنی با طول توالی، زمان و حافظه به سرعت افزایش می‌یابد.

نتیجه: مدل‌ها بعد از چند فریم، اطلاعات اولیه را فراموش می‌کنند.

این امر باعث می‌شود در وظایفی مثل یافتن مسیر در ماز یا به خاطر سپردن موقعیت اشیا، عملکرد ضعیفی داشته باشند.
حتی مدل‌های مبتنی بر دیفیوژن که تصاویر باکیفیت تولید می‌کنند، در بلندمدت ناپایدار هستند.

راه‌حل جدید: استفاده از مدل‌های فضای حالت (SSM)

محققان از **مدل‌های فضای حالت (State-Space Models)** به‌عنوان جایگزین توجه بلندمدت استفاده کرده‌اند.
این مدل‌ها می‌توانند توالی‌های طولانی را با هزینه خطی پردازش کنند.
بدون اینکه در کیفیت پیش‌بینی اختلال ایجاد شود.

مزیت اصلی: کاهش چشمگیر محاسبات

در حالی که توجه سنتی $O(n^2)$ زمان می‌گیرد، SSM تنها به $O(n)$ نیاز دارد.
این اجازه می‌دهد تعداد بسیار بیشتری فریم از گذشته در حافظه بماند.

معماری LSSVWM: ترکیب هوشمندانه SSM و توجه

مدل پیشنهادی، **LSSVWM** (Long-Context State-Space Video World Model)، از دو بخش اصلی تشکیل شده است:

این ترکیب، تعادلی بین حافظه بلندمدت و دقت موضعی ایجاد می‌کند.

اسکن بلوکی: مدیریت حافظه هوشمندانه

به جای اعمال SSM روی کل ویدیو، مدل توالی را به بلوک‌های کوچک تقسیم می‌کند.
در هر بلوک، SSM یک “حالت فشرده” ایجاد می‌کند که اطلاعات خلاصه‌شده را نگه می‌دارد.

این حالت به بلوک بعدی منتقل می‌شود.

در نتیجه، اطلاعات قدیمی بدون نیاز به پردازش تمام فریم‌ها، زنده می‌ماند.
این روش کمی از هماهنگی مکانی بین فریم‌های مجاور می‌کاهد، اما حافظه زمانی را چندین برابر می‌کند.

توجه محلی متراکم: بازیابی هماهنگی فریمی

برای جبران کاهش هماهنگی در اسکن بلوکی، مدل از **توجه محلی متراکم (Dense Local Attention)** استفاده می‌کند.
این لایه فقط بین فریم‌های نزدیک عمل می‌کند و رابطه‌های دقیق بین آن‌ها را تقویت می‌کند.

نتیجه: ویدیوهای پیوسته و واقع‌گرایانه

فریم‌ها از لحاظ زمانی و مکانی هماهنگ می‌مانند.
این ترکیب یعنی:
– SSM = حافظه بلندمدت
– توجه محلی = جزئیات دقیق و پیوستگی

راهکارهای آموزشی پیشرفته

برای بهبود بیشتر عملکرد بلندمدت، دو روش آموزشی جدید پیشنهاد شده است.

1. اجبار دیفیوژن (Diffusion Forcing)

در این روش، گاهی فقط یک قطعه کوتاه از ابتدا ویدیو به مدل داده می‌شود.
بقيه فریم‌ها در حالت نویزدار قرار می‌گیرند.
این کار مدل را مجبور می‌کند، ویدیو را با حفظ ثبات بلندمدت تولید کند.

2. توجه محلی فریمی (Frame Local Attention)

برای شتاب بخشیدن به آموزش و استنتاج، فریم‌ها به گروه‌های کوچک تقسیم می‌شوند.
هر فریم می‌تواند به داخل گروه خود و گروه قبلی نگاه کند.

گروه فریم‌ها دید به گروه قبلی؟
1 فریم 1 تا 5 خیر
2 فریم 6 تا 10 بله (فریم 1-5)
3 فریم 11 تا 15 بله (فریم 6-10)

مزیت: سرعت بیشتر با حفظ عملکرد

این روش با استفاده از FlexAttention، زمان پردازش را به‌طور چشمگیری کاهش می‌دهد.

نتایج آزمایشی: برتری در وظایف بلندمدت

مدل روی دو مجموعه داده چالش‌برانگیز تست شده است: **محله حافظه (Memory Maze)** و **ماین‌کرفت (Minecraft)**.
هر دو برای ارزیابی توانایی یادآوری و استدلال بلندمدت طراحی شده‌اند.

در وظایف استدلالی (مثل مسیریابی در ماز):

– LSSVWM دقت بالاتری در بلندمدت داشت.
– فراموشی اطلاعات رخ نداد.
– حرکت عامل پیوسته و هدفمند بود.

در وظایف یادآوری (مثل یافتن شیء پنهان‌شده):

– مدل اطلاعات قدیمی را بهتر نگه داشت.
– قادر به بازیابی موقعیت شیء حتی پس از صدها فریم بود.
– عملکرد به‌مراتب بهتر از مدل‌های مبتنی بر توجه کامل یا Mamba2 بود.

جمع‌بندی و دستاورد اصلی

این پژوهش نشان می‌دهد که با استفاده از مدل‌های فضای حالت:
– می‌توان حافظه زمانی مدل‌های ویدیویی را به‌صورت چندبرابر افزایش داد.
– بدون افت چشمگیر در سرعت یا کیفیت.
– و بدون نیاز به منابع بیش از حد.

LSSVWM دو پیشرفت کلیدی دارد:

  1. ترکیب هوشمندانه SSM و توجه محلی برای تعادل حافظه و دقت
  2. استراتژی‌های آموزشی جدید برای تقویت پیوستگی بلندمدت

این مدل گامی مهم به سوی عامل‌های هوشمند واقعی است که می‌توانند در دنیاهای پیچیده، برنامه‌ریزی بلندمدت انجام دهند.

خروج از نسخه موبایل