خلاصه
موندریم یک مدل رایگانِ دید-زبان است که به رزبری پای ۵ قدرت «دیدن» و «توضیح» میدهد. در ۸ تا ۲۵ ثانیه میگوید سگ روی مبل است یا پکیج جلوی در قرار گرفته؛ بدون نیاز به اینترنت و فقط با ۸ گیگ رم. پردازش آفلاین، حریم خصوصی بالا و هزینهی نزدیک به صفر.
مقدمه؛ چرا رزبری پای باید ببیند؟
دوربینهای امنیتی فقط تصویر ذخیره میکنند، اما اگر همان تصویر را دستگاهی کوچک بررسی کند و به زبان ساده بگوید «پسرک کولهپشتی مشکی را برداشته»؟ موندریم همین کار را میکند؛ بدون نیاز به اینترنت و فقط با یک رزبری پای.
موندریم چیست و چه فرقی با یولو دارد؟
یولو در چند میلیثانیه اسم اشیاء را میگوید اما نمیفهمد «کی» و «چرا». موندریم ۸ تا ۲۵ ثانیه وقت میگیرد تا روابط را درک کند؛ مثلاً «آیا بسته مقابل در است؟» یا «لباسها روی بند خشک شده؟».
جدول مقایسه سریع
ویژگی | یولو | موندریم |
---|---|---|
سرعت | میلیثانیه | ۸–۲۵ ثانیه |
درک روابط | خیر | بله |
اجرا روی رزبری پای ۴ | بله | خیر (نیازمند پای ۵) |
کاربردهای عملی در خانه
- بررسی یخچال: «در یخچال باز است؟»
- کنترل بسته پستی: «پکیج رسیده؟»
- نظارت بر لباس: «لباسها خشک شدهاند؟»
- تحلیل آرامش کودک: «کودک در تخت خوابیده؟»
دو مدل موجود؛ کدام را انتخاب کنم؟
۰٫۵B: ۸–۱۰ ثانیه، مناسب پرسشهای ساده بله/خیر.
۲B: ۲۲–۲۵ ثانیه، دقت بالا برای پرسشهای پیچیده.
لوازم موردنیاز؛ همین حالا موجود است
- رزبری پای ۵ با ۸ گیگ رم (۱۶ گیگ مطلوب).
- خنککننده فعال؛ CPU مدام در حال کار است.
- ماژول دوربین رسمی نسخه ۳.
- کارت حافظه ۶۴ گیگ کلاس ۱۰.
راهاندازی گامبهگام در ۱۰ دقیقه
- آخرین Raspberry Pi OS 64-bit را روی کارت بنویسید.
- ترمینال را باز کرده و خط زیر را بزنید:
sudo apt update && sudo apt install python3-venv git
- محیط مجازی بسازید:
python3 -m venv moon
<source moon/bin/activate - مخزن رسمی را کلون کنید:
git clone https://github.com/moondream/moondream.git
- وابستگیها را نصب کنید:
pip install torch torchvision transformers pillow
- مدل را دانلود و اجرا کنید:
python run.py --model 0.5B --image test.jpg --prompt "Is there a package at the door?"
نکات طلایی برای پرسش بهتر
- سوالات ساده و مشخص بپرسید؛ «Any dog?» بهتر از «Count animals» است.
- اندازه تصویر را روی ۵۱۲×۵۱۲ تنظیم کنید؛ کیفیت حداکثر، حافظه کمینه.
- در سؤال از رنگ، مکان و حالت اشیا نام ببرید تا دقت بالا رود.
محدودیتها را بدانید
سرعت پایین است؛ برای تشخیص چهره در ویدئوی زنده مناسب نیست. اشیاء کمیاب یا بسیار تخصصی ممکن است اشتباه برچسب بخورد. متن فارسی در تصویر هنوز کامل خوانده نمیشود.
پروژهی بعدی چیست؟
موندریم را به Home Assistant متصل کنید تا وقتی پکیج رسید چراغ هوشمند آبی شود، یا اگر کودک گریه کرد پیام تلگرام بفرستد. کافی است خروجی JSON را با دستور --output json
بگیرید و در اتوماسیون خانه استفاده کنید.