خلاصه
گوگل مدل جدید Gemini 2.5 Computer Use را معرفی کرد؛ هوش مصنوعی که بدون رابط برنامهنویسی، داخل مرورگر فرم پر میکند، بازی میکند و تست رابط کاربری انجام میدهد. برای توسعهدهندگان در Google AI Studio و Vertex AI در دسترس است.
مقدمه
نیازی به کدنویسی ندارید؛ فقط بگویید «فرم ثبتنام را پر کن» یا «در ۲۰۴۸ برنده شو». Gemini 2.5 Computer Use خودش کلیک، تایپ و کشیدن را انجام میدهد.
ویژگیهای کلیدی
بینایی و دلیلتراشی
صفحه را تصویر میگیرد، محتوا را میفهمد و قدم بعدی را تصمیم میگیرد؛ مثل انسان.
۱۳ عمل پشتیبانیشده
- باز کردن مرورگر
- کلیک چپ و راست
- تایپ متن
- کشیدن و رها کردن
- اسکرول و زوم
بدون API
سایتهایی که رابط برنامهنویسی ندارند باز هم قابل کنترلاند؛ AI فقط رفتار گرافیکی را میخواند.
مقایسه با رقبا
| ویژگی | Gemini 2.5 | ChatGPT Agent | Anthropic Claude |
|---|---|---|---|
| کنترل کامل OS | خیر | بله | بله |
| دسترسی فقط مرورگر | بله | خیر | خیر |
| سرعت لحظهای | بالا (۳× تند شده در دمو) | متوسط | متوسط |
کاربردهای عملی
تست اتوماتیک UI
فرمها، دکمهها و منوها را بدون نوشتن حتی یک خط Selenium بررسی میکند.
خرید هوشمند
مواد غذایی یک دستور را از گوگل داک میخواند و خودش به سبد خرید Safeway اضافه میکند.
بازی و سرگرمی
در دمو، ۲۰۴۸ را تا برد ادامه میدهد یا بحثهای داغ Hacker News را مرور میکند.
نحوه شروع
- به Google AI Studio یا Vertex AI بروید.
- API کلید بسازید.
- با یک خط کد مدل را فراخوانی کنید و دستور را بدهید.
اگر کدنویسی نمیکنید، نسخه آزمایشی در Browserbase آماده است؛ فقط دستور بنویسید و تماشا کنید.
هشدارهای امنیتی
گوگل هشدار میدهد هنوز برای کنترل کامل سیستمعامل بهینه نشده؛ پس دسترسی محدود به مرورگر باقی میماند تا خطای انسانی یا امنیتی کمین نکند.
