خلاصه مقاله:
مدلهای ویدیویی دنیای جهانی (Video World Models) توانایی بالایی در شبیهسازی و پیشبینی دنیاهای پویا دارند، اما با چالش حفظ حافظه بلندمدت مواجه هستند. این مقاله یک معماری جدید به نام LSSVWM معرفی میکند که از مدلهای فضای حالت (SSM) برای افزایش حافظه زمانی بدون افزایش چشمگیر محاسبات استفاده میکند. با ترکیب روش اسکن بلوکی، توجه محلی و راهکارهای آموزشی هوشمندانه، این مدل توانایی بالاتری در درک بلندمدت صحنهها و انجام وظایف پیچیده نسبت به روشهای قبلی دارد.
—
مقدمه
مدلهای ویدیویی دنیای جهانی ابزار قدرتمندی برای شبیهسازی محیطهای دینامیک هستند.
آنها میتوانند آینده را بر اساس اقدامات عامل پیشبینی کنند و برنامهریزی هوشمند انجام دهند.
اما مشکل اصلی، فراموشی اطلاعات قدیمی به دلیل محدودیت حافظه بلندمدت است.
—
چالش حافظه بلندمدت در مدلهای ویدیویی
مدلهای فعلی برای پیشبینی فریمهای بعدی، به حافظه از گذشته نیاز دارند.
اما لایههای توجه سنتی هزینه محاسباتی بالایی دارند، بهویژه وقتی توالی بلند باشد.
این هزینه از نوع درجهدومی است، یعنی با طول توالی، زمان و حافظه به سرعت افزایش مییابد.
نتیجه: مدلها بعد از چند فریم، اطلاعات اولیه را فراموش میکنند.
این امر باعث میشود در وظایفی مثل یافتن مسیر در ماز یا به خاطر سپردن موقعیت اشیا، عملکرد ضعیفی داشته باشند.
حتی مدلهای مبتنی بر دیفیوژن که تصاویر باکیفیت تولید میکنند، در بلندمدت ناپایدار هستند.
—
راهحل جدید: استفاده از مدلهای فضای حالت (SSM)
محققان از **مدلهای فضای حالت (State-Space Models)** بهعنوان جایگزین توجه بلندمدت استفاده کردهاند.
این مدلها میتوانند توالیهای طولانی را با هزینه خطی پردازش کنند.
بدون اینکه در کیفیت پیشبینی اختلال ایجاد شود.
مزیت اصلی: کاهش چشمگیر محاسبات
در حالی که توجه سنتی $O(n^2)$ زمان میگیرد، SSM تنها به $O(n)$ نیاز دارد.
این اجازه میدهد تعداد بسیار بیشتری فریم از گذشته در حافظه بماند.
—
معماری LSSVWM: ترکیب هوشمندانه SSM و توجه
مدل پیشنهادی، **LSSVWM** (Long-Context State-Space Video World Model)، از دو بخش اصلی تشکیل شده است:
- اسکن بلوکی با SSM
- توجه محلی متراکم
این ترکیب، تعادلی بین حافظه بلندمدت و دقت موضعی ایجاد میکند.
—
اسکن بلوکی: مدیریت حافظه هوشمندانه
به جای اعمال SSM روی کل ویدیو، مدل توالی را به بلوکهای کوچک تقسیم میکند.
در هر بلوک، SSM یک “حالت فشرده” ایجاد میکند که اطلاعات خلاصهشده را نگه میدارد.
این حالت به بلوک بعدی منتقل میشود.
در نتیجه، اطلاعات قدیمی بدون نیاز به پردازش تمام فریمها، زنده میماند.
این روش کمی از هماهنگی مکانی بین فریمهای مجاور میکاهد، اما حافظه زمانی را چندین برابر میکند.
—
توجه محلی متراکم: بازیابی هماهنگی فریمی
برای جبران کاهش هماهنگی در اسکن بلوکی، مدل از **توجه محلی متراکم (Dense Local Attention)** استفاده میکند.
این لایه فقط بین فریمهای نزدیک عمل میکند و رابطههای دقیق بین آنها را تقویت میکند.
نتیجه: ویدیوهای پیوسته و واقعگرایانه
فریمها از لحاظ زمانی و مکانی هماهنگ میمانند.
این ترکیب یعنی:
– SSM = حافظه بلندمدت
– توجه محلی = جزئیات دقیق و پیوستگی
—
راهکارهای آموزشی پیشرفته
برای بهبود بیشتر عملکرد بلندمدت، دو روش آموزشی جدید پیشنهاد شده است.
1. اجبار دیفیوژن (Diffusion Forcing)
در این روش، گاهی فقط یک قطعه کوتاه از ابتدا ویدیو به مدل داده میشود.
بقيه فریمها در حالت نویزدار قرار میگیرند.
این کار مدل را مجبور میکند، ویدیو را با حفظ ثبات بلندمدت تولید کند.
2. توجه محلی فریمی (Frame Local Attention)
برای شتاب بخشیدن به آموزش و استنتاج، فریمها به گروههای کوچک تقسیم میشوند.
هر فریم میتواند به داخل گروه خود و گروه قبلی نگاه کند.
گروه | فریمها | دید به گروه قبلی؟ |
---|---|---|
1 | فریم 1 تا 5 | خیر |
2 | فریم 6 تا 10 | بله (فریم 1-5) |
3 | فریم 11 تا 15 | بله (فریم 6-10) |
مزیت: سرعت بیشتر با حفظ عملکرد
این روش با استفاده از FlexAttention، زمان پردازش را بهطور چشمگیری کاهش میدهد.
—
نتایج آزمایشی: برتری در وظایف بلندمدت
مدل روی دو مجموعه داده چالشبرانگیز تست شده است: **محله حافظه (Memory Maze)** و **ماینکرفت (Minecraft)**.
هر دو برای ارزیابی توانایی یادآوری و استدلال بلندمدت طراحی شدهاند.
در وظایف استدلالی (مثل مسیریابی در ماز):
– LSSVWM دقت بالاتری در بلندمدت داشت.
– فراموشی اطلاعات رخ نداد.
– حرکت عامل پیوسته و هدفمند بود.
در وظایف یادآوری (مثل یافتن شیء پنهانشده):
– مدل اطلاعات قدیمی را بهتر نگه داشت.
– قادر به بازیابی موقعیت شیء حتی پس از صدها فریم بود.
– عملکرد بهمراتب بهتر از مدلهای مبتنی بر توجه کامل یا Mamba2 بود.
—
جمعبندی و دستاورد اصلی
این پژوهش نشان میدهد که با استفاده از مدلهای فضای حالت:
– میتوان حافظه زمانی مدلهای ویدیویی را بهصورت چندبرابر افزایش داد.
– بدون افت چشمگیر در سرعت یا کیفیت.
– و بدون نیاز به منابع بیش از حد.
LSSVWM دو پیشرفت کلیدی دارد:
- ترکیب هوشمندانه SSM و توجه محلی برای تعادل حافظه و دقت
- استراتژیهای آموزشی جدید برای تقویت پیوستگی بلندمدت
این مدل گامی مهم به سوی عاملهای هوشمند واقعی است که میتوانند در دنیاهای پیچیده، برنامهریزی بلندمدت انجام دهند.