Apple разработала ИИ-модель ILuvUI для анализа интерфейсов мобильных приложений

✦ ИИ  Этот пост, предположительно, был создан при помощи искусственного интеллекта
Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Исследовательская группа Apple в партнерстве с Университетом Аалто (Финляндия) разработала новую модель искусственного интеллекта ILuvUI, способную интерпретировать интерфейсы мобильных приложений на основе скриншотов и естественного языка. Модель представлена в научной работе «ILuvUI: Instruction-tuned LangUage-Vision моделирование пользовательских интерфейсов на основе машинного диалога».

Ключевая особенность разработки заключается в способности системы анализировать пользовательские интерфейсы как визуально, так и семантически, что отражает естественный способ взаимодействия людей с цифровыми продуктами. В отличие от большинства существующих моделей «зрение-язык» (VLM), которые обучаются преимущественно на естественных изображениях, ILuvUI специализируется именно на распознавании и понимании элементов интерфейса приложений.

Автор: Freepik Источник: ru.freepik.com

Техническая реализация проекта основана на доработке модели с открытым исходным кодом LLaVA. Исследователи адаптировали методологию обучения для специализации в области UI и создали синтетический набор данных, включающий пары «текст-изображение». Обучающий датасет содержал взаимодействия в формате вопросов и ответов, детальные описания экранов, прогнозы результатов действий и многоэтапные сценарии использования приложений.

После завершения обучения ILuvUI продемонстрировала превосходство над базовой моделью LLaVA как в автоматизированных тестах, так и при оценке предпочтений реальными пользователями. Важным преимуществом системы является отсутствие необходимости указывать конкретную область интереса в интерфейсе — модель анализирует весь экран на основе простого текстового запроса.

Потенциальные применения технологии включают улучшение специальных возможностей для пользователей с ограниченными возможностями и автоматизированное тестирование пользовательских интерфейсов. Исследователи отмечают возможность дальнейшего совершенствования системы через использование более мощных кодировщиков изображений, улучшение обработки различных разрешений экрана и создание форматов вывода, совместимых с существующими фреймворками UI, такими как JSON.

Данная разработка дополняет недавнее исследование Apple о возможностях ИИ не только понимать, но и предсказывать последствия действий в приложениях, что открывает перспективы для создания более интеллектуальных систем взаимодействия с мобильными устройствами.

Источник: 9TO5Mac

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

✦ ИИ  Физики выяснили, при какой температуре вечная мерзлота начнет массово высвобождать парниковые газы: критический порог в -5°C

Вечная мерзлота занимает около 25 процентов территории Северного полушария Земли. Под поверхностью грунта на глубине сотен метров скрыто очень большое количество углерода — по оценкам...

✦ ИИ  Физики впервые поймали ультрабыстрые импульсы света, рожденного из абсолютной пустоты

Все время оптическая физика развивалась по двум независимым направлениям, которые практически не пересекались друг с другом. Первое направление — сверхбыстрая наука. Она изучает...

✦ ИИ  Kiwi Ears Cadenza II — нейтральный баланс — обзор динамических внутриканальных наушников

Я узнал о компании Kiwi Ears примерно три года назад, когда у них вышла первая Cadenza и сразу словила хайп. Я, к сожалению, с первой версией не познакомился, поэтому сравнить обе версии не смогу....

✦ ИИ  Мон-Сен-Мишель: как древний замок стоит посреди моря и почему его стоит посетить

Вот вам загадка: кто, приехав во Францию, постоянно мониторит время приливов, идет на экскурсию пешком, а вернуться с нее может уже вплавь? Это турист, пожелавший осмотреть аббатство...

✦ ИИ  Универсальное постоянное питание регистратора: обзор TrendVision HardWare Kit 2.0 (Pro Edition) и тест с DDPAI

Многие автомобильные видеорегистраторы можно использовать не только для записи дорожной обстановки непосредственно в поездке, но и для охранной записи на парковке. Для этого в меню устройства...

✦ ИИ  Когда жалко 100 Вт GaN зарядник: сетевой адаптер питания GP WM2A

GP WM2A — сетевой адаптер питания мощностью 20 Вт, который может служить основой для многих USB устройств, которым нужно немного, а занимать какой-нибудь 90-ваттный адаптер не хочется....