نماد سایت گیلان پلاس رسانه هوش مصنوعی و کارآفرینی گیلان

استرای بایتدنس: معماری دومدلی هوشمند برای ناوبری بی‌همتا در فضاهای داخلی پیچیده!

خلاصه مقاله:
این مقاله معماری دو مدلی Astra را معرفی میکند که توسط ByteDance برای بهبود ناوبری رباتهای موبایل طراحی شده است. Astra از دو بخش اصلی تشکیل شده: Astra-Global که مسوول موقعیتیابی کلی و هدفگذاری با استفاده از تصاویر و دستورات متنی است، و Astra-Local که مسوول برنامهریزی محلی مسیر و تخمین حرکت ربات در لحظه است. این سیستم با استفاده از مدل‌های هوش مصنوعی پیشرفته، آموزش چندحسی، و یک ساختار سلسلهمراتبی، توانایی حرکت ربات در محیط‌های پیچیده داخلی مانند خانه، دفتر و انبار را به‌طور قابل توجهی بهبود می‌دهد. آزمایش‌ها نشان می‌دهند که Astra دقت و کارایی بالاتری نسبت به روش‌های سنتی دارد.

مقدمه

ربات‌های موبایل در محیط‌های مختلفی از انبارها تا خانه‌ها کاربرد فزاینده‌ای دارند.
اما ناوبری دقیق در محیط‌های پیچیده و متغیر همچنان چالش بزرگی است.
سیستم Astra با ترکیب دو مدل هوشمند، این چالش را از بنیان حل می‌کند.

مشکلات سیستم‌های ناوبری سنتی

سیستم‌های قدیمی از ماژول‌های کوچک و قاعده‌ای تشکیل شده‌اند که هر کدام وظیفه کوچکی دارند.
این تقسیم‌بندی باعث کندی و ضعف در محیط‌های پیچیده می‌شود.

سه سوال اصلی ناوبری

هر سیستم ناوبری باید به سه سوال پاسخ دهد:
– “من کجایم؟” (موقعیت‌یابی خود)
– “به کجا بروم؟” (تشخیص هدف)
– “چگونه بروم؟” (برنامه‌ریزی مسیر)

محدودیت‌های روش‌های قبلی

– در محیط‌های تکراری (مثل راهروهای یکسان) دچار خطای زیاد می‌شوند.
– نیاز به علائم مصنوعی (مثل کدهای QR) دارند.
– با تغییر زاویه دوربین یا نور، عملکردشان ضعیف می‌شود.

معماری Astra: دو مغز برای یک ربات

Astra از دو مدل اصلی تشکیل شده که هر کدام وظیفه خاصی دارند.

Astra-Global: مغز هوشمند

– مسئول موقعیت‌یابی کلی و تشخیص هدف است.
– از تصاویر و دستورات متنی استفاده می‌کند.
– مانند یک مدل بزرگ زبانی چندهسی عمل می‌کند.

Astra-Local: دستیار سریع

– مسئول حرکت لحظه‌به‌لحظه ربات است.
– مانع برخورد با موانع می‌شود.
– سریع و دقیق حرکت ربات را نظارت می‌کند.

ساختار هوشمند Astra-Global

این بخش قلب هوشمندی سیستم است که با استفاده از نقشه‌های پیشرفته مکان‌یابی می‌کند.

نقشه ترکیبی: ترکیب هندسه و معنا

سیستم از یک نقشه توپولوژیک-معنایی استفاده می‌کند که شامل:

فرآیند مکان‌یابی: دو مرحله‌ای

فرآیند موقعیت‌یابی به دو مرحله تقسیم می‌شود:

مرحله اول (تقریبی) مرحله دوم (دقیق)
تشخیص نشانه‌های بصری مقایسه با نقشه
حذف موقعیت‌های نامناسب تحلیل دقیق تصویر و موقعیت
انتخاب چند گزینه نزدیک تعیین موقعیت نهایی با خطای کمتر از 1 متر

مکان‌یابی با دستور متنی

– کاربر می‌گوید مثلاً “به سمت محل استراحت برو”.
– Astra-Global با فهم معنای دستور، نشانه‌های مربوطه را پیدا می‌کند.
– سپس دقیق مسیر را روی نقشه مشخص می‌کند.

آموزش قوی با ترکیب دو روش

برای آموزش Astra-Global از دو مرحله استفاده شد:

نتیجه: دقت ۹۹.۹٪ در محیط‌های جدید بدون آموزش قبلی.

ساختار سریع و دقیق Astra-Local

این بخش سریع‌تر عمل می‌کند و هر ۰٫۱ ثانیه تصمیم می‌گیرد.

رمزگذار 4بعدی: دنیا را در زمان و مکان می‌بیند

هسته برنامه‌ریزی: حرکت بدون برخورد

– از روش تطبیق جریان (Flow Matching) استفاده می‌کند.
– با خطای ESDF ماسک‌شده خطر برخورد را کم می‌کند.
– در تست‌ها، نرخ برخورد را به شدت کاهش داد.

هسته اُدومتری: مسیر ربات را دقیق ردیابی می‌کند

– موقعیت ربات را با استفاده از تصاویر، شتاب‌سنج (IMU) و چرخ‌ها تخمین می‌زند.
– هر حسگر به‌صورت جدا تجزیه و تحلیل شده و سپس اطلاعات ترکیب می‌شود.
– خطای کلی مسیر به حدود ۲٪ رسید.

نتایج آزمایش‌ها: برتری مشخص

مقایسه با روش‌های قدیمی در مکان‌یابی

ویژگی روش‌های سنتی (VPR) Astra-Global
دقت موقعیت خطای بالا در محیط‌های مشابه < 1 متر خطای مکانی
تغییر زاویه دوربین عملکرد ضعیف پایدار و قابل اعتماد
استفاده از نشانه‌ها ویژگی‌های کلی تصویر تشخیص شماره اتاق، شیء خاص و …

برتری در برنامه‌ریزی محلی

– در محیط‌های ناشناخته (OOD)، Astra-Local از روش‌های ACT و diffusion بهتر عمل کرد.
– نمره کلی بالاتر و تعداد برخوردها کمتر بود.

دقت در تخمین حرکت

– افزودن IMU، دقت چرخشی را به‌شدت بهبود داد.
– اضافه کردن داده چرخ‌ها، خطای کلی راه را کاهش داد.

کاربردهای آینده

Astra می‌تواند در محیط‌های پیچیده دیگر نیز استفاده شود:

چالش‌های آینده و بهبودها

توسعه Astra-Global

– برخی نقشه‌ها ممکن است جزئیات معنایی کمی داشته باشند.
– نیاز به فشرده‌سازی بهتر نقشه برای حفظ اطلاعات مهم وجود دارد.
– در محیط‌های بدون ویژگی، باید از اکتشاف فعال کمک گرفت.

پیشرفت در Astra-Local

– بهبود عملکرد در شرایط غیرمعمول (OOD) با آموزش گسترده‌تر.
– طراحی مجدد سیستم پیشگیری از خطا برای تعویض سریع‌تر مدل‌ها.
– افزودن قابلیت پیروی از دستورات متنی برای تعامل طبیعی‌تر با انسان.

خروج از نسخه موبایل