Учёные создали ИИ, который воспринимает звук и картинку как человек
Исследователи Ливерпульского университета разработали компьютерную модель, которая обрабатывает аудиовизуальные данные по принципу работы человеческого мозга. Технология основана на механизме распознавания движения, который впервые был обнаружен в нервной системе насекомых.
Доктор Чезаре Паризе из кафедры психологии Ливерпульского университета адаптировал биологический принцип для работы с реальными видео- и аудиоматериалами. Предыдущие вычислительные модели использовали абстрактные параметры и не могли определять синхронность звука и изображения при получении видеофайла на вход.
Разработка получила название мультисенсорный корреляционный детектор. Система представляет собой сетку детекторов, распределённых по визуальному и слуховому пространству. Такая архитектура позволяет обрабатывать сложные сигналы окружающей среды без предварительной подготовки данных.
Модель прошла валидацию на результатах 69 научных экспериментов, в которых участвовали люди, обезьяны и крысы. Система воспроизвела поведенческие реакции всех исследованных видов и показала результаты выше, чем существующая байесовская модель причинно-следственного анализа при одинаковом количестве настраиваемых параметров.
Технология также способна прогнозировать направление взгляда человека во время просмотра аудиовизуального контента, функционируя как упрощённая модель визуальной значимости. Система работает с необработанными данными любого формата и не требует обучения на размеченных датасетах, в отличие от современных нейросетевых решений.
Паризе отметил, что работа началась с исследований, проведённых совместно с Марком Эрнстом из Билефельдского университета в Германии. Учёные предложили принцип обнаружения корреляций как механизм объединения сенсорных сигналов в мозге. Новая модель развивает эту концепцию для практического применения в системах искусственного интеллекта.
Источник: Interestingeng Iineering





0 комментариев
Добавить комментарий