Ограничения в работе ИИ назвали источником его творческих способностей

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Ученые Мейсон Камб и Сурья Гангули из Стенфорда, США сообщили о результатах работы по изучению появления новых образов в генераторах изображений. По их данным, творческий эффект возникает из-за базовых свойств алгоритмов, а не из-за скрытого творческого навыка.

Автор: freepik Источник: ru.freepik.com

Современные генераторы, включая DALL·E, Imagen и Stable Diffusion, используют пошаговое очищение от шума. Алгоритм сначала превращает картинку в случайный набор пикселей, а затем поэтапно восстанавливает форму и детали. Долгое время считалось, что такой процесс ведет к копированию примеров из обучающей выборки. Исследование указывает на другое объяснение: новизна вытекает из двух простых механизмов.

Первый механизм — обработка по небольшим блокам. Система работает не со всем изображением сразу, а с его маленькими частями. Второй — свойство смещения: если изначально сдвинуть изображение на несколько пикселей, то и результат сдвигается так же. В сочетании эти принципы не дают модели увидеть весь кадр целиком. Поэтому алгоритм достраивает недостающие связи между фрагментами. Отсюда и типичные промахи ранних версий, например, лишние пальцы на руках.

Автор: rawpixel.com Источник: ru.freepik.com

Чтобы проверить гипотезу, авторы собрали упрощенную математическую схему под названием ELS. В ней оставили только обработку по частям и эффект смещения. Даже такая модель воспроизвела поведение сложных систем примерно на 90%. По словам Камба, когда алгоритм вынужденно работает кусками, новые комбинации деталей появляются сами собой как следствие динамики процесса. Эксперты отмечают, что человек тоже собирает новое из знакомых кирпичиков опыта, поэтому сходство подходов возможно.

Автор: freepik Источник: ru.freepik.com

Результаты важны для практики. Они помогают понять, почему генераторы создают оригинальные сцены и где возникают типовые ошибки. Это может повлиять на проектирование будущих моделей и на дискуссию о природе человеческого и машинного творчества.

Источник: Hi-Tech Mail

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор TCOMAS WA300 360 White — СЖО достойное шоу «Тачка на прокачку»

Если вы застали эпоху MTV и помните легендарное шоу «Тачка на прокачку» (Pimp My Ride), то наверняка в вашу душу запала их коронная фишка — установка мониторов и игровых приставок в...

Спорный вариант, но если привыкнуть... Обзор игрового QD-OLED монитора MSI MAG 321UPX и все что нужно знать + видеообзоры

QD-OLED-мониторы давно перестали быть экзотикой, но всё ещё остаются нишевым и спорным решением. MSI MAG 321UPX — как раз из таких устройств. Это 31,5-дюймовый игровой монитор на Samsung...

Обзор паровой роторной швабры Felfri FSC-001 с 10 насадками в комплекте

Паровая роторная швабра Felfri FSC-001. Мощность 1400 Вт, давление пара 3 бар, объем резервуара для воды 550 мл, в комплекте 12 насадок, время нагревания 20 секунд, а время непрерывной работы 25 минут

Обзор и тестирование QD-OLED-монитора Gigabyte MO27Q2A: современный подход

Настольные OLED-мониторы становятся всё дешевле, а базовые наборы технологий в таких решениях лишь расширяются и улучшаются с каждым новым поколением. Это всё и приводит к мыслям о покупке вместо LCD