Ограничения в работе ИИ назвали источником его творческих способностей
Ученые Мейсон Камб и Сурья Гангули из Стенфорда, США сообщили о результатах работы по изучению появления новых образов в генераторах изображений. По их данным, творческий эффект возникает из-за базовых свойств алгоритмов, а не из-за скрытого творческого навыка.
Современные генераторы, включая DALL·E, Imagen и Stable Diffusion, используют пошаговое очищение от шума. Алгоритм сначала превращает картинку в случайный набор пикселей, а затем поэтапно восстанавливает форму и детали. Долгое время считалось, что такой процесс ведет к копированию примеров из обучающей выборки. Исследование указывает на другое объяснение: новизна вытекает из двух простых механизмов.
Первый механизм — обработка по небольшим блокам. Система работает не со всем изображением сразу, а с его маленькими частями. Второй — свойство смещения: если изначально сдвинуть изображение на несколько пикселей, то и результат сдвигается так же. В сочетании эти принципы не дают модели увидеть весь кадр целиком. Поэтому алгоритм достраивает недостающие связи между фрагментами. Отсюда и типичные промахи ранних версий, например, лишние пальцы на руках.
Чтобы проверить гипотезу, авторы собрали упрощенную математическую схему под названием ELS. В ней оставили только обработку по частям и эффект смещения. Даже такая модель воспроизвела поведение сложных систем примерно на 90%. По словам Камба, когда алгоритм вынужденно работает кусками, новые комбинации деталей появляются сами собой как следствие динамики процесса. Эксперты отмечают, что человек тоже собирает новое из знакомых кирпичиков опыта, поэтому сходство подходов возможно.
Результаты важны для практики. Они помогают понять, почему генераторы создают оригинальные сцены и где возникают типовые ошибки. Это может повлиять на проектирование будущих моделей и на дискуссию о природе человеческого и машинного творчества.
Источник: Hi-Tech Mail





0 комментариев
Добавить комментарий