اجرای مدل زبانی ۲۷۰M Gemma 3 روی Google Cloud Run با GPU

خلاصه

مدل فشرده Gemma 3 با ۲۷۰میلیون پارامتر را روی Google Cloud Run با GPU Nvidia L4 بالا می‌آوریم. سرورلس، مقرون‌به‌صرفه و بدون نیاز به مدیریت سرور، پاسخ لحظه‌ای به کاربر می‌دهد.

چرا این روش؟

ترکیب GPU سرورلس و مدل کوانتایزشده یعنی:
– هزینه پرداخت به‌ازای مصرف واقعی
– اسکیل خودکار در زمان اوج تقاضا
– استارت سریع با وزن‌های داخلی در ایمیج داکر

مزیت اصلی Gemma 3 270M

  • حجم کم: کمتر از ۱ گیگابایت
  • کوانت ۴bit: سرعت ۲ برابر با دقت حفظ‌شده
  • ساختار instruction-tuned: پاسخ دقیق به پرومпт‌ها

مراحل عملی

1. آماده‌سازی مدل

فایل GGUF کوانت‌شده را دانلود و در پوشه model قرار دهید. سپس داکرفایل زیر را بسازید:

FROM ollama/ollama
COPY model /root/.ollama/models

2. ساخت ایمیج بهینه

ENV های کلیدی را ست کنید تا مدل دائم در GPU بماند:

ENV OLLAMA_KEEP_ALIVE=24h
ENV OLLAMA_HOST=0.0.0.0:8080

3. استقرار روی Cloud Run

در کنسول گوگل:

  • GPU: Nvidia L4
  • حافظه: ۱۶GB – CPU: ۸vCPU
  • Concurrency: ۴
  • Max instances: ۱۰ (کنترل هزینه)

نکات تست‌شده برای بازده بالا

بهینه‌سازیتأثیر
کوانت ۴bit↑۲× سرعت، ↓۵۰٪ حافظه
keep-alive=24hکاهش ۹۰٪ cold-start
embed weightsحذف دانلود اولیه در هر نمونه

استفاده عملی

با یک GET ساده به آدرس سرویس:

curl -X POST https://your-service-abc123-uc.a.run.app/api/generate 
-d '{"prompt":"معرفی موزه را در یک جمله بنویس"}'

سخن آخر

همین الگو را می‌توان برای مدل‌های بزرگ‌تر یا چندمدلی کردن تکرار کرد؛ کافی‌ست منابع Cloud Run را افزایش دهید و ایمیج جدید push کنید.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *