خلاصه
مدل فشرده Gemma 3 با ۲۷۰میلیون پارامتر را روی Google Cloud Run با GPU Nvidia L4 بالا میآوریم. سرورلس، مقرونبهصرفه و بدون نیاز به مدیریت سرور، پاسخ لحظهای به کاربر میدهد.
چرا این روش؟
ترکیب GPU سرورلس و مدل کوانتایزشده یعنی:
– هزینه پرداخت بهازای مصرف واقعی
– اسکیل خودکار در زمان اوج تقاضا
– استارت سریع با وزنهای داخلی در ایمیج داکر
مزیت اصلی Gemma 3 270M
- حجم کم: کمتر از ۱ گیگابایت
- کوانت ۴bit: سرعت ۲ برابر با دقت حفظشده
- ساختار instruction-tuned: پاسخ دقیق به پرومптها
مراحل عملی
1. آمادهسازی مدل
فایل GGUF کوانتشده را دانلود و در پوشه model قرار دهید. سپس داکرفایل زیر را بسازید:
FROM ollama/ollama
COPY model /root/.ollama/models
2. ساخت ایمیج بهینه
ENV های کلیدی را ست کنید تا مدل دائم در GPU بماند:
ENV OLLAMA_KEEP_ALIVE=24h
ENV OLLAMA_HOST=0.0.0.0:8080
3. استقرار روی Cloud Run
در کنسول گوگل:
- GPU: Nvidia L4
- حافظه: ۱۶GB – CPU: ۸vCPU
- Concurrency: ۴
- Max instances: ۱۰ (کنترل هزینه)
نکات تستشده برای بازده بالا
| بهینهسازی | تأثیر |
|---|---|
| کوانت ۴bit | ↑۲× سرعت، ↓۵۰٪ حافظه |
| keep-alive=24h | کاهش ۹۰٪ cold-start |
| embed weights | حذف دانلود اولیه در هر نمونه |
استفاده عملی
با یک GET ساده به آدرس سرویس:
curl -X POST https://your-service-abc123-uc.a.run.app/api/generate
-d '{"prompt":"معرفی موزه را در یک جمله بنویس"}'
سخن آخر
همین الگو را میتوان برای مدلهای بزرگتر یا چندمدلی کردن تکرار کرد؛ کافیست منابع Cloud Run را افزایش دهید و ایمیج جدید push کنید.
