نماد سایت گیلان پلاس رسانه هوش مصنوعی و کارآفرینی گیلان

رزبری پای بینا بساز؛ با موندریم تصاویر را به زبان ساده توضیح بده

Raspberry Pi running Moon Dream for vision-language tasks

خلاصه

موندریم یک مدل رایگانِ دید-زبان است که به رزبری پای ۵ قدرت «دیدن» و «توضیح» می‌دهد. در ۸ تا ۲۵ ثانیه می‌گوید سگ روی مبل است یا پکیج جلوی در قرار گرفته؛ بدون نیاز به اینترنت و فقط با ۸ گیگ رم. پردازش آفلاین، حریم خصوصی بالا و هزینه‌ی نزدیک به صفر.

مقدمه؛ چرا رزبری پای باید ببیند؟

دوربین‌های امنیتی فقط تصویر ذخیره می‌کنند، اما اگر همان تصویر را دستگاهی کوچک بررسی کند و به زبان ساده بگوید «پسرک کوله‌پشتی مشکی را برداشته»؟ موندریم همین کار را می‌کند؛ بدون نیاز به اینترنت و فقط با یک رزبری پای.

موندریم چیست و چه فرقی با یولو دارد؟

یولو در چند میلی‌ثانیه اسم اشیاء را می‌گوید اما نمی‌فهمد «کی» و «چرا». موندریم ۸ تا ۲۵ ثانیه وقت می‌گیرد تا روابط را درک کند؛ مثلاً «آیا بسته مقابل در است؟» یا «لباس‌ها روی بند خشک شده؟».

جدول مقایسه سریع

ویژگی یولو موندریم
سرعت میلی‌ثانیه ۸–۲۵ ثانیه
درک روابط خیر بله
اجرا روی رزبری پای ۴ بله خیر (نیازمند پای ۵)

کاربردهای عملی در خانه

دو مدل موجود؛ کدام را انتخاب کنم؟

۰٫۵B: ۸–۱۰ ثانیه، مناسب پرسش‌های ساده بله/خیر.
۲B: ۲۲–۲۵ ثانیه، دقت بالا برای پرسش‌های پیچیده.

لوازم موردنیاز؛ همین حالا موجود است

  1. رزبری پای ۵ با ۸ گیگ رم (۱۶ گیگ مطلوب).
  2. خنک‌کننده فعال؛ CPU مدام در حال کار است.
  3. ماژول دوربین رسمی نسخه ۳.
  4. کارت حافظه ۶۴ گیگ کلاس ۱۰.

راه‌اندازی گام‌به‌گام در ۱۰ دقیقه

  1. آخرین Raspberry Pi OS 64-bit را روی کارت بنویسید.
  2. ترمینال را باز کرده و خط زیر را بزنید:
    sudo apt update && sudo apt install python3-venv git
  3. محیط مجازی بسازید:
    python3 -m venv moon
    <source moon/bin/activate
  4. مخزن رسمی را کلون کنید:
    git clone https://github.com/moondream/moondream.git
  5. وابستگی‌ها را نصب کنید:
    pip install torch torchvision transformers pillow
  6. مدل را دانلود و اجرا کنید:
    python run.py --model 0.5B --image test.jpg --prompt "Is there a package at the door?"

نکات طلایی برای پرسش بهتر

محدودیت‌ها را بدانید

سرعت پایین است؛ برای تشخیص چهره در ویدئوی زنده مناسب نیست. اشیاء کمیاب یا بسیار تخصصی ممکن است اشتباه برچسب بخورد. متن فارسی در تصویر هنوز کامل خوانده نمی‌شود.

پروژه‌ی بعدی چیست؟

موندریم را به Home Assistant متصل کنید تا وقتی پکیج رسید چراغ هوشمند آبی شود، یا اگر کودک گریه کرد پیام تلگرام بفرستد. کافی است خروجی JSON را با دستور --output json بگیرید و در اتوماسیون خانه استفاده کنید.

خروج از نسخه موبایل