Raspberry Pi running Moon Dream for vision-language tasks

رزبری پای بینا بساز؛ با موندریم تصاویر را به زبان ساده توضیح بده

خلاصه

موندریم یک مدل رایگانِ دید-زبان است که به رزبری پای ۵ قدرت «دیدن» و «توضیح» می‌دهد. در ۸ تا ۲۵ ثانیه می‌گوید سگ روی مبل است یا پکیج جلوی در قرار گرفته؛ بدون نیاز به اینترنت و فقط با ۸ گیگ رم. پردازش آفلاین، حریم خصوصی بالا و هزینه‌ی نزدیک به صفر.

مقدمه؛ چرا رزبری پای باید ببیند؟

دوربین‌های امنیتی فقط تصویر ذخیره می‌کنند، اما اگر همان تصویر را دستگاهی کوچک بررسی کند و به زبان ساده بگوید «پسرک کوله‌پشتی مشکی را برداشته»؟ موندریم همین کار را می‌کند؛ بدون نیاز به اینترنت و فقط با یک رزبری پای.

موندریم چیست و چه فرقی با یولو دارد؟

یولو در چند میلی‌ثانیه اسم اشیاء را می‌گوید اما نمی‌فهمد «کی» و «چرا». موندریم ۸ تا ۲۵ ثانیه وقت می‌گیرد تا روابط را درک کند؛ مثلاً «آیا بسته مقابل در است؟» یا «لباس‌ها روی بند خشک شده؟».

جدول مقایسه سریع

ویژگییولوموندریم
سرعتمیلی‌ثانیه۸–۲۵ ثانیه
درک روابطخیربله
اجرا روی رزبری پای ۴بلهخیر (نیازمند پای ۵)

کاربردهای عملی در خانه

  • بررسی یخچال: «در یخچال باز است؟»
  • کنترل بسته پستی: «پکیج رسیده؟»
  • نظارت بر لباس: «لباس‌ها خشک شده‌اند؟»
  • تحلیل آرامش کودک: «کودک در تخت خوابیده؟»

دو مدل موجود؛ کدام را انتخاب کنم؟

۰٫۵B: ۸–۱۰ ثانیه، مناسب پرسش‌های ساده بله/خیر.
۲B: ۲۲–۲۵ ثانیه، دقت بالا برای پرسش‌های پیچیده.

لوازم موردنیاز؛ همین حالا موجود است

  1. رزبری پای ۵ با ۸ گیگ رم (۱۶ گیگ مطلوب).
  2. خنک‌کننده فعال؛ CPU مدام در حال کار است.
  3. ماژول دوربین رسمی نسخه ۳.
  4. کارت حافظه ۶۴ گیگ کلاس ۱۰.

راه‌اندازی گام‌به‌گام در ۱۰ دقیقه

  1. آخرین Raspberry Pi OS 64-bit را روی کارت بنویسید.
  2. ترمینال را باز کرده و خط زیر را بزنید:
    sudo apt update && sudo apt install python3-venv git
  3. محیط مجازی بسازید:
    python3 -m venv moon
    <source moon/bin/activate
  4. مخزن رسمی را کلون کنید:
    git clone https://github.com/moondream/moondream.git
  5. وابستگی‌ها را نصب کنید:
    pip install torch torchvision transformers pillow
  6. مدل را دانلود و اجرا کنید:
    python run.py --model 0.5B --image test.jpg --prompt "Is there a package at the door?"

نکات طلایی برای پرسش بهتر

  • سوالات ساده و مشخص بپرسید؛ «Any dog?» بهتر از «Count animals» است.
  • اندازه تصویر را روی ۵۱۲×۵۱۲ تنظیم کنید؛ کیفیت حداکثر، حافظه کمینه.
  • در سؤال از رنگ، مکان و حالت اشیا نام ببرید تا دقت بالا رود.

محدودیت‌ها را بدانید

سرعت پایین است؛ برای تشخیص چهره در ویدئوی زنده مناسب نیست. اشیاء کمیاب یا بسیار تخصصی ممکن است اشتباه برچسب بخورد. متن فارسی در تصویر هنوز کامل خوانده نمی‌شود.

پروژه‌ی بعدی چیست؟

موندریم را به Home Assistant متصل کنید تا وقتی پکیج رسید چراغ هوشمند آبی شود، یا اگر کودک گریه کرد پیام تلگرام بفرستد. کافی است خروجی JSON را با دستور --output json بگیرید و در اتوماسیون خانه استفاده کنید.

اشتراک گذاری

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *