گوگل جمینی ۲.۵: هوش مصنوعی که خودش با مرورگر کار می‌کند

خلاصه

گوگل مدل جدید Gemini 2.5 Computer Use را معرفی کرد؛ هوش مصنوعی که بدون رابط برنامه‌نویسی، داخل مرورگر فرم پر می‌کند، بازی می‌کند و تست رابط کاربری انجام می‌دهد. برای توسعه‌دهندگان در Google AI Studio و Vertex AI در دسترس است.

مقدمه

نیازی به کدنویسی ندارید؛ فقط بگویید «فرم ثبت‌نام را پر کن» یا «در ۲۰۴۸ برنده شو». Gemini 2.5 Computer Use خودش کلیک، تایپ و کشیدن را انجام می‌دهد.

ویژگی‌های کلیدی

بینایی و دلیل‌تراشی

صفحه را تصویر می‌گیرد، محتوا را می‌فهمد و قدم بعدی را تصمیم می‌گیرد؛ مثل انسان.

۱۳ عمل پشتیبانی‌شده

باز کردن مرورگر
کلیک چپ و راست
تایپ متن
کشیدن و رها کردن
اسکرول و زوم

بدون API

سایت‌هایی که رابط برنامه‌نویسی ندارند باز هم قابل کنترل‌اند؛ AI فقط رفتار گرافیکی را می‌خواند.

مقایسه با رقبا

ویژگی	Gemini 2.5	ChatGPT Agent	Anthropic Claude
کنترل کامل OS	خیر	بله	بله
دسترسی فقط مرورگر	بله	خیر	خیر
سرعت لحظه‌ای	بالا (۳× تند شده در دمو)	متوسط	متوسط

کاربردهای عملی

تست اتوماتیک UI

فرم‌ها، دکمه‌ها و منوها را بدون نوشتن حتی یک خط Selenium بررسی می‌کند.

خرید هوشمند

مواد غذایی یک دستور را از گوگل داک می‌خواند و خودش به سبد خرید Safeway اضافه می‌کند.

بازی و سرگرمی

در دمو، ۲۰۴۸ را تا برد ادامه می‌دهد یا بحث‌های داغ Hacker News را مرور می‌کند.

نحوه شروع

به Google AI Studio یا Vertex AI بروید.
API کلید بسازید.
با یک خط کد مدل را فراخوانی کنید و دستور را بدهید.

اگر کدنویسی نمی‌کنید، نسخه آزمایشی در Browserbase آماده است؛ فقط دستور بنویسید و تماشا کنید.

هشدارهای امنیتی

گوگل هشدار می‌دهد هنوز برای کنترل کامل سیستم‌عامل بهینه نشده؛ پس دسترسی محدود به مرورگر باقی می‌ماند تا خطای انسانی یا امنیتی کمین نکند.