ИИ Google теперь сам ходит по сайтам, жмет кнопки и заполняет формы

Источник: blog.google

Google анонсировала обновлённую версию искусственного интеллекта Gemini 2.5 Pro с функцией Computer Use, позволяющей ИИ самостоятельно взаимодействовать с веб-страницами: просматривать сайты, нажимать кнопки, прокручивать страницы и заполнять формы.

Разработанная DeepMind, эта технология превращает модель в полноценного цифрового агента, способного выполнять действия в браузере почти как человек, сообщает hightech.plus.

«Это только начало, но способность модели взаимодействовать с вебом — например, прокручивать, заполнять формы и перемещаться по меню, — станет важным шагом в создании универсальных ИИ-агентов», — заявил глава Google Сундар Пичаи.

В отличие от предыдущих версий, которые ограничивались генерацией текста, Gemini 2.5 Computer Use может выполнять реальные задачи: искать билеты, авторизовываться на сайтах, оформлять покупки и тестировать формы.

Для реализации функции Google сотрудничает со стартапом Browserbase, основанным бывшим инженером Twilio Полом Кляйном. Browserbase предоставляет виртуальную среду без графического интерфейса, где ИИ работает напрямую через API. Это позволяет обучать и тестировать модели в контролируемых условиях.

Попробовать функцию можно на платформе Browserbase, где создана Browser Arena — площадка для сравнения моделей Google, OpenAI и Anthropic.

Поскольку модель получает прямой доступ к веб-интерфейсам, Google внедрила многоуровневую систему защиты:

  • Каждый шаг агента проверяется службой безопасности
  • Разработчики могут задавать ограничения: блокировать покупки, требовать ручное подтверждение при работе с личными данными
  • Gemini не выполняет действия, нарушающие политику Google
  • При обнаружении CAPTCHA требуется участие пользователя
  • Для операций с оплатой и персональными данными система запрашивает подтверждение

Модель обрабатывает текст и изображения, возвращая либо ответ, либо «код действия» — готовую инструкцию для браузера.

Тарифы аналогичны базовой версии Gemini 2.5 Pro:

  • Входные токены — от $1,25 за миллион (до 200 000 токенов)
  • Выходные — от $10 за миллион
  • Бесплатного уровня нет: в отличие от Gemini 2.5 Pro, версия Computer Use сразу тарифицируется
  • Данные платных пользователей не используются для дообучения — важный аргумент для корпоративных клиентов

С запуском Computer Use Google усиливает конкуренцию с OpenAI и Anthropic. В то время как ChatGPT Agent и Claude Sonnet умеют работать с локальными файлами, Gemini делает ставку на визуальное взаимодействие с реальными интерфейсами — от браузеров до мобильных приложений.

«Мы движемся к тому, чтобы компьютеры не просто отвечали на вопросы, а делали работу», — отметил инженер DeepMind, участвовавший в тестировании.

Эксперты считают, что такие агенты станут ключевыми инструментами в автоматизации — от бронирования билетов и подачи заявок до управления аккаунтами и онлайн-переговоров. Это начало новой эры цифровых исполнителей.

Поделиться
Комментариев нет

Добавить комментарий