Apple разработала ИИ-модель ILuvUI для анализа интерфейсов мобильных приложений
Исследовательская группа Apple в партнерстве с Университетом Аалто (Финляндия) разработала новую модель искусственного интеллекта ILuvUI, способную интерпретировать интерфейсы мобильных приложений на основе скриншотов и естественного языка. Модель представлена в научной работе «ILuvUI: Instruction-tuned LangUage-Vision моделирование пользовательских интерфейсов на основе машинного диалога».
Ключевая особенность разработки заключается в способности системы анализировать пользовательские интерфейсы как визуально, так и семантически, что отражает естественный способ взаимодействия людей с цифровыми продуктами. В отличие от большинства существующих моделей «зрение-язык» (VLM), которые обучаются преимущественно на естественных изображениях, ILuvUI специализируется именно на распознавании и понимании элементов интерфейса приложений.
Техническая реализация проекта основана на доработке модели с открытым исходным кодом LLaVA. Исследователи адаптировали методологию обучения для специализации в области UI и создали синтетический набор данных, включающий пары «текст-изображение». Обучающий датасет содержал взаимодействия в формате вопросов и ответов, детальные описания экранов, прогнозы результатов действий и многоэтапные сценарии использования приложений.
После завершения обучения ILuvUI продемонстрировала превосходство над базовой моделью LLaVA как в автоматизированных тестах, так и при оценке предпочтений реальными пользователями. Важным преимуществом системы является отсутствие необходимости указывать конкретную область интереса в интерфейсе — модель анализирует весь экран на основе простого текстового запроса.
Потенциальные применения технологии включают улучшение специальных возможностей для пользователей с ограниченными возможностями и автоматизированное тестирование пользовательских интерфейсов. Исследователи отмечают возможность дальнейшего совершенствования системы через использование более мощных кодировщиков изображений, улучшение обработки различных разрешений экрана и создание форматов вывода, совместимых с существующими фреймворками UI, такими как JSON.
Данная разработка дополняет недавнее исследование Apple о возможностях ИИ не только понимать, но и предсказывать последствия действий в приложениях, что открывает перспективы для создания более интеллектуальных систем взаимодействия с мобильными устройствами.
Источник: 9TO5Mac





0 комментариев
Добавить комментарий
Добавить комментарий