Raspberry Pi running Moon Dream for vision-language tasks

رزبری پای بینا بساز؛ با موندریم تصاویر را به زبان ساده توضیح بده

گیلان پلاس2025/09/160 نظر5

خلاصه

موندریم یک مدل رایگانِ دید-زبان است که به رزبری پای ۵ قدرت «دیدن» و «توضیح» می‌دهد. در ۸ تا ۲۵ ثانیه می‌گوید سگ روی مبل است یا پکیج جلوی در قرار گرفته؛ بدون نیاز به اینترنت و فقط با ۸ گیگ رم. پردازش آفلاین، حریم خصوصی بالا و هزینه‌ی نزدیک به صفر.

مقدمه؛ چرا رزبری پای باید ببیند؟

دوربین‌های امنیتی فقط تصویر ذخیره می‌کنند، اما اگر همان تصویر را دستگاهی کوچک بررسی کند و به زبان ساده بگوید «پسرک کوله‌پشتی مشکی را برداشته»؟ موندریم همین کار را می‌کند؛ بدون نیاز به اینترنت و فقط با یک رزبری پای.

موندریم چیست و چه فرقی با یولو دارد؟

یولو در چند میلی‌ثانیه اسم اشیاء را می‌گوید اما نمی‌فهمد «کی» و «چرا». موندریم ۸ تا ۲۵ ثانیه وقت می‌گیرد تا روابط را درک کند؛ مثلاً «آیا بسته مقابل در است؟» یا «لباس‌ها روی بند خشک شده؟».

جدول مقایسه سریع

ویژگی	یولو	موندریم
سرعت	میلی‌ثانیه	۸–۲۵ ثانیه
درک روابط	خیر	بله
اجرا روی رزبری پای ۴	بله	خیر (نیازمند پای ۵)

کاربردهای عملی در خانه

بررسی یخچال: «در یخچال باز است؟»
کنترل بسته پستی: «پکیج رسیده؟»
نظارت بر لباس: «لباس‌ها خشک شده‌اند؟»
تحلیل آرامش کودک: «کودک در تخت خوابیده؟»

دو مدل موجود؛ کدام را انتخاب کنم؟

۰٫۵B: ۸–۱۰ ثانیه، مناسب پرسش‌های ساده بله/خیر.
۲B: ۲۲–۲۵ ثانیه، دقت بالا برای پرسش‌های پیچیده.

لوازم موردنیاز؛ همین حالا موجود است

رزبری پای ۵ با ۸ گیگ رم (۱۶ گیگ مطلوب).
خنک‌کننده فعال؛ CPU مدام در حال کار است.
ماژول دوربین رسمی نسخه ۳.
کارت حافظه ۶۴ گیگ کلاس ۱۰.

راه‌اندازی گام‌به‌گام در ۱۰ دقیقه

آخرین Raspberry Pi OS 64-bit را روی کارت بنویسید.
ترمینال را باز کرده و خط زیر را بزنید:
sudo apt update && sudo apt install python3-venv git
محیط مجازی بسازید:
python3 -m venv moon
<source moon/bin/activate
مخزن رسمی را کلون کنید:
git clone https://github.com/moondream/moondream.git
وابستگی‌ها را نصب کنید:
pip install torch torchvision transformers pillow
مدل را دانلود و اجرا کنید:
python run.py --model 0.5B --image test.jpg --prompt "Is there a package at the door?"

نکات طلایی برای پرسش بهتر

سوالات ساده و مشخص بپرسید؛ «Any dog?» بهتر از «Count animals» است.
اندازه تصویر را روی ۵۱۲×۵۱۲ تنظیم کنید؛ کیفیت حداکثر، حافظه کمینه.
در سؤال از رنگ، مکان و حالت اشیا نام ببرید تا دقت بالا رود.

محدودیت‌ها را بدانید

سرعت پایین است؛ برای تشخیص چهره در ویدئوی زنده مناسب نیست. اشیاء کمیاب یا بسیار تخصصی ممکن است اشتباه برچسب بخورد. متن فارسی در تصویر هنوز کامل خوانده نمی‌شود.

پروژه‌ی بعدی چیست؟

موندریم را به Home Assistant متصل کنید تا وقتی پکیج رسید چراغ هوشمند آبی شود، یا اگر کودک گریه کرد پیام تلگرام بفرستد. کافی است خروجی JSON را با دستور --output json بگیرید و در اتوماسیون خانه استفاده کنید.

اشتراک گذاری

۴ ترفند مخفی NotebookLM که کار را لِوِل بالا می‌برد پست بعدی

Nothing ۲۰۰ میلیون دلار جذب کرد تا «دستگاه‌های کاملاً هوش‌مصنوعی» بسازد پست قبلی