Новая модель Gemini 2.5 с функцией управления веб-страницами уже проходит бета-тестирование
Google разработала усовершенствованную модель ИИ Gemini 2.5 Computer Use, дающую возможность ИИ-агентам взаимодействовать с веб-сайтами подобно человеку: нажимать кнопки, вводить текст, а также работать с их элементами в режиме реального времени. Новая версия ИИ уже доступна для тестирования через API в Google AI Studio и платформе Vertex AI.
В основе технологии лежат визуальное восприятие и логика, унаследованные от Gemini 2.5 Pro. Но в отличие от классических решений, работающих через API, эта модель анализирует скриншоты пользовательского интерфейса, а потом определяет, какое действие следует выполнить: например, открыть выпадающее меню или ввести данные в форму. По завершении операции делается новый снимок экрана, и процесс повторяется.
Компания демонстрирует работу системы на примерах, где агент сортирует элементы на цифровой доске или переносит данные между сайтами. Тесты показывают, что модель работает быстрее аналогов и стабильно справляется с задачами в браузерах. Поддерживается 13 типов действий, и хотя настольные приложения пока не в приоритете, модель уже показала потенциал и в мобильной среде. Для безопасности реализована проверка всех действий ИИ, особенно при работе с чувствительными задачами вроде онлайн-платежей. Разработчики могут задавать ограничения или запросить подтверждение от пользователя.
Уже сейчас новая модель ИИ уже используется внутри Google: внешние разработчики в программе бета-тестирования применяют ее с целью разработки интеллектуальных помощников и бизнес-автоматизации.
Источник: Google





0 комментариев
Добавить комментарий
Добавить комментарий