Apple разработала ИИ-модель ILuvUI для анализа интерфейсов мобильных приложений

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Исследовательская группа Apple в партнерстве с Университетом Аалто (Финляндия) разработала новую модель искусственного интеллекта ILuvUI, способную интерпретировать интерфейсы мобильных приложений на основе скриншотов и естественного языка. Модель представлена в научной работе «ILuvUI: Instruction-tuned LangUage-Vision моделирование пользовательских интерфейсов на основе машинного диалога».

Ключевая особенность разработки заключается в способности системы анализировать пользовательские интерфейсы как визуально, так и семантически, что отражает естественный способ взаимодействия людей с цифровыми продуктами. В отличие от большинства существующих моделей «зрение-язык» (VLM), которые обучаются преимущественно на естественных изображениях, ILuvUI специализируется именно на распознавании и понимании элементов интерфейса приложений.

Автор: Freepik Источник: ru.freepik.com

Техническая реализация проекта основана на доработке модели с открытым исходным кодом LLaVA. Исследователи адаптировали методологию обучения для специализации в области UI и создали синтетический набор данных, включающий пары «текст-изображение». Обучающий датасет содержал взаимодействия в формате вопросов и ответов, детальные описания экранов, прогнозы результатов действий и многоэтапные сценарии использования приложений.

После завершения обучения ILuvUI продемонстрировала превосходство над базовой моделью LLaVA как в автоматизированных тестах, так и при оценке предпочтений реальными пользователями. Важным преимуществом системы является отсутствие необходимости указывать конкретную область интереса в интерфейсе — модель анализирует весь экран на основе простого текстового запроса.

Потенциальные применения технологии включают улучшение специальных возможностей для пользователей с ограниченными возможностями и автоматизированное тестирование пользовательских интерфейсов. Исследователи отмечают возможность дальнейшего совершенствования системы через использование более мощных кодировщиков изображений, улучшение обработки различных разрешений экрана и создание форматов вывода, совместимых с существующими фреймворками UI, такими как JSON.

Данная разработка дополняет недавнее исследование Apple о возможностях ИИ не только понимать, но и предсказывать последствия действий в приложениях, что открывает перспективы для создания более интеллектуальных систем взаимодействия с мобильными устройствами.

Источник: 9TO5Mac

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Фонарик в смартфоне больше не включаю: обзор мини-фонаря Sofirn SC13

Сколько раз видел как люди ночью светили себе на темных тропинках чахлым фонариком, встроенным в смартфон. Эффективности от этого совсем не много, еще смартфон садится и есть риск его уронить в...

Почему российское образование работает именно так: системный анализ главных проблем

Российское образование работает так, как от него требуется государству. Бюрократия, устаревшие методики, слабые учителя — это не ошибки, а согласованный механизм социализации и отбора.

Обзор механической клавиатуры с котиками YUNZII B98 PRO

Современные механические клавиатуры давно перестали быть просто инструментом для набора текста — они превратились в полноценный элемент рабочего пространства, отражение индивидуального...

Обзор цепной аккумуляторной пилы PROCRAFT PKA32Li 20В: две шины на 6« и 8», 2 цепи, АКБ 4Ач и автоподача масла

Многие дачники уже начали весеннюю обрезку кустарников и деревьев на своих участках. Использовать ручные секаторы и пилы крайне не удобно, что было проверенно лично. Поэтому для себя прикупил...

Один «крылатый» фонарик для всех нужд. Дальнобойность, яркость и УФ-свет. Обзор Wurkkos HD05

Поворотное светодиодное «крыло» заливного свет для ремонта и кемпинга, 3100 люменов яркости с хорошей дальнобойностью, красный и УФ-свет для высвечивания невидимого. Всё это логичное развитие...

Как на самом деле строили пирамиду Хеопса: математика показала, как укладывать блок каждые 3 минуты и уложиться в 27 лет

Давайте проведем небольшой математический расчет о Великой пирамиде в Гизе (пирамиде Хеопса). Исходные данные такие: сооружение состоит примерно из 2,3 миллиона каменных блоков, общий вес которых...