خلاصه مقاله:
این مقاله معماری دو مدلی Astra را معرفی میکند که توسط ByteDance برای بهبود ناوبری رباتهای موبایل طراحی شده است. Astra از دو بخش اصلی تشکیل شده: Astra-Global که مسوول موقعیتیابی کلی و هدفگذاری با استفاده از تصاویر و دستورات متنی است، و Astra-Local که مسوول برنامهریزی محلی مسیر و تخمین حرکت ربات در لحظه است. این سیستم با استفاده از مدلهای هوش مصنوعی پیشرفته، آموزش چندحسی، و یک ساختار سلسلهمراتبی، توانایی حرکت ربات در محیطهای پیچیده داخلی مانند خانه، دفتر و انبار را بهطور قابل توجهی بهبود میدهد. آزمایشها نشان میدهند که Astra دقت و کارایی بالاتری نسبت به روشهای سنتی دارد.
—
مقدمه
رباتهای موبایل در محیطهای مختلفی از انبارها تا خانهها کاربرد فزایندهای دارند.
اما ناوبری دقیق در محیطهای پیچیده و متغیر همچنان چالش بزرگی است.
سیستم Astra با ترکیب دو مدل هوشمند، این چالش را از بنیان حل میکند.
—
مشکلات سیستمهای ناوبری سنتی
سیستمهای قدیمی از ماژولهای کوچک و قاعدهای تشکیل شدهاند که هر کدام وظیفه کوچکی دارند.
این تقسیمبندی باعث کندی و ضعف در محیطهای پیچیده میشود.
سه سوال اصلی ناوبری
هر سیستم ناوبری باید به سه سوال پاسخ دهد:
– “من کجایم؟” (موقعیتیابی خود)
– “به کجا بروم؟” (تشخیص هدف)
– “چگونه بروم؟” (برنامهریزی مسیر)
محدودیتهای روشهای قبلی
– در محیطهای تکراری (مثل راهروهای یکسان) دچار خطای زیاد میشوند.
– نیاز به علائم مصنوعی (مثل کدهای QR) دارند.
– با تغییر زاویه دوربین یا نور، عملکردشان ضعیف میشود.
—
معماری Astra: دو مغز برای یک ربات
Astra از دو مدل اصلی تشکیل شده که هر کدام وظیفه خاصی دارند.
Astra-Global: مغز هوشمند
– مسئول موقعیتیابی کلی و تشخیص هدف است.
– از تصاویر و دستورات متنی استفاده میکند.
– مانند یک مدل بزرگ زبانی چندهسی عمل میکند.
Astra-Local: دستیار سریع
– مسئول حرکت لحظهبهلحظه ربات است.
– مانع برخورد با موانع میشود.
– سریع و دقیق حرکت ربات را نظارت میکند.
—
ساختار هوشمند Astra-Global
این بخش قلب هوشمندی سیستم است که با استفاده از نقشههای پیشرفته مکانیابی میکند.
نقشه ترکیبی: ترکیب هندسه و معنا
سیستم از یک نقشه توپولوژیک-معنایی استفاده میکند که شامل:
- گرهها (V): تصاویر کلیدی با موقعیت دقیق
- یالها (E): ارتباط بین مکانها
- نشانههای معنایی (L): اطلاعاتی مثل “در دفتر”، “مجاری هوا”
فرآیند مکانیابی: دو مرحلهای
فرآیند موقعیتیابی به دو مرحله تقسیم میشود:
مرحله اول (تقریبی) | مرحله دوم (دقیق) |
---|---|
تشخیص نشانههای بصری | مقایسه با نقشه |
حذف موقعیتهای نامناسب | تحلیل دقیق تصویر و موقعیت |
انتخاب چند گزینه نزدیک | تعیین موقعیت نهایی با خطای کمتر از 1 متر |
مکانیابی با دستور متنی
– کاربر میگوید مثلاً “به سمت محل استراحت برو”.
– Astra-Global با فهم معنای دستور، نشانههای مربوطه را پیدا میکند.
– سپس دقیق مسیر را روی نقشه مشخص میکند.
آموزش قوی با ترکیب دو روش
برای آموزش Astra-Global از دو مرحله استفاده شد:
- آموزش نظارتی (SFT): با دادههای متنوع مکانیابی
- یادگیری تقویتی گروهی (GRPO): با پاداش برای دقت و قالب صحیح خروجی
نتیجه: دقت ۹۹.۹٪ در محیطهای جدید بدون آموزش قبلی.
—
ساختار سریع و دقیق Astra-Local
این بخش سریعتر عمل میکند و هر ۰٫۱ ثانیه تصمیم میگیرد.
رمزگذار 4بعدی: دنیا را در زمان و مکان میبیند
- از دوربینهای کروی تصاویر میگیرد.
- با شبکه Vision Transformer، صحنه را به فضای 3بعدی تبدیل میکند.
- با افزودن زمان، محیط را در آینده هم پیشبینی میکند.
هسته برنامهریزی: حرکت بدون برخورد
– از روش تطبیق جریان (Flow Matching) استفاده میکند.
– با خطای ESDF ماسکشده خطر برخورد را کم میکند.
– در تستها، نرخ برخورد را به شدت کاهش داد.
هسته اُدومتری: مسیر ربات را دقیق ردیابی میکند
– موقعیت ربات را با استفاده از تصاویر، شتابسنج (IMU) و چرخها تخمین میزند.
– هر حسگر بهصورت جدا تجزیه و تحلیل شده و سپس اطلاعات ترکیب میشود.
– خطای کلی مسیر به حدود ۲٪ رسید.
—
نتایج آزمایشها: برتری مشخص
مقایسه با روشهای قدیمی در مکانیابی
ویژگی | روشهای سنتی (VPR) | Astra-Global |
---|---|---|
دقت موقعیت | خطای بالا در محیطهای مشابه | < 1 متر خطای مکانی |
تغییر زاویه دوربین | عملکرد ضعیف | پایدار و قابل اعتماد |
استفاده از نشانهها | ویژگیهای کلی تصویر | تشخیص شماره اتاق، شیء خاص و … |
برتری در برنامهریزی محلی
– در محیطهای ناشناخته (OOD)، Astra-Local از روشهای ACT و diffusion بهتر عمل کرد.
– نمره کلی بالاتر و تعداد برخوردها کمتر بود.
دقت در تخمین حرکت
– افزودن IMU، دقت چرخشی را بهشدت بهبود داد.
– اضافه کردن داده چرخها، خطای کلی راه را کاهش داد.
—
کاربردهای آینده
Astra میتواند در محیطهای پیچیده دیگر نیز استفاده شود:
- فروشگاههای بزرگ: پیدا کردن محصول دقیق به دستور صوتی
- بیمارستانها: تحویل سریع دارو و تجهیزات پزشکی
- کتابخانهها: مرتبسازی و پیدا کردن کتابها
- انبارهای هوشمند: نظم و سرعت بالا در حرکت
—
چالشهای آینده و بهبودها
توسعه Astra-Global
– برخی نقشهها ممکن است جزئیات معنایی کمی داشته باشند.
– نیاز به فشردهسازی بهتر نقشه برای حفظ اطلاعات مهم وجود دارد.
– در محیطهای بدون ویژگی، باید از اکتشاف فعال کمک گرفت.
پیشرفت در Astra-Local
– بهبود عملکرد در شرایط غیرمعمول (OOD) با آموزش گستردهتر.
– طراحی مجدد سیستم پیشگیری از خطا برای تعویض سریعتر مدلها.
– افزودن قابلیت پیروی از دستورات متنی برای تعامل طبیعیتر با انسان.