Apple разработала ИИ-модель ILuvUI для анализа интерфейсов мобильных приложений

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Исследовательская группа Apple в партнерстве с Университетом Аалто (Финляндия) разработала новую модель искусственного интеллекта ILuvUI, способную интерпретировать интерфейсы мобильных приложений на основе скриншотов и естественного языка. Модель представлена в научной работе «ILuvUI: Instruction-tuned LangUage-Vision моделирование пользовательских интерфейсов на основе машинного диалога».

Ключевая особенность разработки заключается в способности системы анализировать пользовательские интерфейсы как визуально, так и семантически, что отражает естественный способ взаимодействия людей с цифровыми продуктами. В отличие от большинства существующих моделей «зрение-язык» (VLM), которые обучаются преимущественно на естественных изображениях, ILuvUI специализируется именно на распознавании и понимании элементов интерфейса приложений.

Автор: Freepik Источник: ru.freepik.com

Техническая реализация проекта основана на доработке модели с открытым исходным кодом LLaVA. Исследователи адаптировали методологию обучения для специализации в области UI и создали синтетический набор данных, включающий пары «текст-изображение». Обучающий датасет содержал взаимодействия в формате вопросов и ответов, детальные описания экранов, прогнозы результатов действий и многоэтапные сценарии использования приложений.

После завершения обучения ILuvUI продемонстрировала превосходство над базовой моделью LLaVA как в автоматизированных тестах, так и при оценке предпочтений реальными пользователями. Важным преимуществом системы является отсутствие необходимости указывать конкретную область интереса в интерфейсе — модель анализирует весь экран на основе простого текстового запроса.

Потенциальные применения технологии включают улучшение специальных возможностей для пользователей с ограниченными возможностями и автоматизированное тестирование пользовательских интерфейсов. Исследователи отмечают возможность дальнейшего совершенствования системы через использование более мощных кодировщиков изображений, улучшение обработки различных разрешений экрана и создание форматов вывода, совместимых с существующими фреймворками UI, такими как JSON.

Данная разработка дополняет недавнее исследование Apple о возможностях ИИ не только понимать, но и предсказывать последствия действий в приложениях, что открывает перспективы для создания более интеллектуальных систем взаимодействия с мобильными устройствами.

Источник: 9TO5Mac

Автор не входит в состав редакции iXBT.com (подробнее »)

Сейчас на главной

Новости

Публикации

Сколько датчиков дыма нужно устанавливать в доме для максимальной безопасности

Огонь распространяется быстрее, чем кажется. По статистике, большинство домашних пожаров развивается всего за несколько минут, и именно первые секунды решают, будет ли у человека шанс...

Что такое ретрит, и как он может помочь вернуть силы

В мире, где всё движется с бешеной скоростью, где гаджеты не замолкают ни на минуту, а мысли переполнены задачами, тревогами и планами, становится всё труднее услышать самого себя. Именно поэтому...

Возвращая вымерших: как наука приближает де-экстинкцию к реальности

Идея вернуть к жизни исчезнувшие виды ещё недавно звучала как научная фантастика. Мамонты, тасманийские тигры, древние птицы — всё это казалось навсегда ушедшим в прошлое. Однако...

Какие комплектующие ПК чаще всего выходят из строя и как этого избежать

Каждый, кто хоть раз сталкивался с поломкой компьютера, знает, что это не только потеря времени, но и риск лишиться важных данных. В этой небольшой статье вы узнаете, какие комплектующие ПК...

Почему кошек не стоит будить во время их сна

Если кошка доверяет вам, вы могли заметить, как она крепко спит с вами на кровати или в другом укромном месте. Глубокая фаза сна питомца может даже сопровождаться лёгким, едва слышным сопением или...

Почему проект газотурбинного автомобиля Chrysler Turbine Car оказался провальным?

Осенью 1963 года на улицах американских городов появился необычный звук. Это было не привычное урчание поршневого мотора, а «мягкий свист» реактивной турбины. Люди оборачивались, водители снижали...