Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Подробнее о Sora — новой революционной технологии генерации видео от OpenAI

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

21 февраля 2024, 09:32 | Мнение | Оффтопик

В нашем мире, где видеоконтент становится все более популярным и востребованным, появление новых технологий, которые могут генерировать видео по текстовым запросам, может революционировать создание контента. Одна из таких технологий — Sora, разработанная компанией OpenAI, которая уже поразила общественность представив образцы генераций очень высокого качества. Но что же такое Sora, как она работает, и какие перспективы и риски она с собой несет?

Что такое Sora?

Sora — это генеративная система искусственного интеллекта, которая может создавать короткие видео по текстовым запросам. Например, если вы введете «фотореалистичное видео двух пиратских кораблей, сражающихся друг с другом, пока они плывут в чашке кофе», Sora попытается сгенерировать такое видео, используя свои знания и воображение.

Sora пока не доступна публике, но OpenAI уже опубликовала несколько образцов, которые, по ее словам, были созданы непосредственно Sora без изменений. Эти образцы показывают высокий уровень реалистичности, динамики, согласованности и креативности видео, которые порой трудно отличить от снятых камерой.

Sora также может выполнять задачи видеомонтажа, такие как создание видео из изображений или других видео, объединение элементов из разных видео, продление видео по времени и т. д. Sora может генерировать видео с разрешением до 1920 x 1080 пикселей, в различных соотношениях сторон, и длительностью до 60 секунд.

Как работает Sora?

Sora использует новый тип нейронной сети, называемый диффузионным трансформером. Эта сеть сочетает в себе особенности двух других типов сетей: трансформеров и диффузионных моделей.

Трансформеры — это сети, которые хорошо работают с последовательными данными, такими как текст или звук. Они могут находить закономерности и зависимости между разными частями данных. Трансформеры лежат в основе многих больших языковых моделей, таких как ChatGPT и Google Gemini.

Диффузионные модели — это сети, которые хорошо работают с изображениями. Они могут создавать изображения, начиная с случайного шума и постепенно приближаясь к «чистому» изображению, которое соответствует входному запросу. Диффузионные модели лежат в основе многих генераторов изображений, которые могут генерировать изображения по запросу.

Диффузионные модели (в данном случае Stable Diffusion) генерируют изображения из шума в течение множества итераций
Автор: Stable Diffusion / Benlisquare / Wikimedia Источник: en.wikipedia.org

Sora сочетает в себе эти два типа сетей, чтобы создавать видео. Видео можно рассматривать как последовательность изображений, но в видео важна не только качественность каждого кадра, но и согласованность и последовательность между ними.

Sora использует трансформер, чтобы обрабатывать связь между кадрами. В то время как трансформеры обычно работают с токенами, представляющими текст, Sora работает с токенами, представляющими небольшие участки пространства и времени. Таким образом, Sora может учитывать контекст и динамику сцены.

Какие перспективы открывает Sora?

Sora может иметь множество приложений в разных сферах, таких как развлечения, реклама, образование и наука. Sora может быть использована как инструмент для прототипирования и визуализации идей по значительно меньшей стоимости, чем реальная съемка или услуги специалиста по видеомонтажу.

OpenAI утверждает, что Sora может быть рассмотрена как симулятор, способный моделировать физический и цифровой мир, объекты, животных и людей, которые в нем живут. Если это так, то Sora может иметь научные приложения для проведения физических или химических экспериментов. Однако некоторые эксперты утверждают, что такая система принципиально не может быть способной на подобные расчеты.

Какие риски несет Sora?

Sora также может иметь негативное воздействие на общество. В мире, где дезинформация и манипуляция становятся все более распространенными, Sora может усугубить ситуацию.

Sora может быть использована для создания поддельных или вводящих в заблуждение видео, которые могут быть использованы для распространения лжи или сомнительной информации. Это может подвергнуть опасности общественное здоровье, влиять на общественное мнение, или даже подрывать судебную систему потенциальными поддельными доказательствами.

Sora также может быть использована для создания угроз целевым лицам, через дипфейки — особенно откровенного формата, что естественно понесет за собой ужасные последствия для жизни пострадавших лиц и их семей.

Кроме того, есть вопросы авторского права и интеллектуальной собственности. Sora требует огромных объемов данных для обучения, и OpenAI не раскрыла, откуда взялись эти данные. Возможно, что Sora использовала материалы, которые принадлежат другим авторам или компаниям, без их согласия.

Sora — это удивительная и мощная технология, которая может открыть новые возможности для творчества, обучения и исследований. Однако она также несет в себе серьезные риски и угрозы, которые необходимо учитывать и решать. OpenAI утверждает, что она принимает меры по обеспечению безопасности и этики Sora, прежде чем сделать ее доступной публике.

3 комментария

Добавить комментарий

Вообще, да, это мощный прорыв, ничего не скажешь. У OpenAI были ресурсы, чтобы вмазать побольше данных в нейронку, поэтому она такая стабильная. А всепропальщики на реддите уже всех, как обычно, похоронили. Сказали, что все — тлен, жизнь не имеет смысла :) умрут VFX-артисты, 3d-аниматоры, умрет сторителлинг и вообще бросайте свои хобби, т.к. это уже устарело… типичный реддит, в общем. Но они не учитывают, что сколь серебряной пулей вещь ни была, если человек идиот, то он ничего уникального даже с такой не сможет создать. Лично убедился в этом, когда активно писал на компе музыку в 2010-х годах. Супер-пупер плагины, семплы на сотни гигов, синтезаторы по 1000-2000$, студии ценой с пару московских квартир — все это тебе не поможет, если ты тупой, отсутствует системное мышление и, в целом, если у тебя нет идей и какого-то культурного бэкграунда. Технические знания для получения качества в звуке это такая же большая тема, как и творческая часть.
Это если мы говорим о нейронках, как об инструменте в руках человека, т.к. супер-ИИ это другой разговор. Там человек просто не нужен будет :)
А про физику в видосах мелькало мнение, что могли дополнительно использоваться симуляции из того же Unreal Editor для обучения нейронки (может и houdini какой-нибудь тоже использовался). Про химию думаю, что выдумано. Что там симулировать? Нейронка же жидкость не в виде атомов прямо воссоздает и держит это в контексте.
Т.е. эта нейронка (sora) может изображать достоверное поведение предметов + дым и вода + отражения и преломления. Не особо, но может. В видео это всякие косячные одеяла, колышащаяся одежда, волны, разбивающиеся о скалы и так далее.
Алсо, если присмотреться к анимациям, то в космосе болванчик (да и мамонты тоже) бежит слишком неестественно, как в катсценах из первого старкрафта. Словно нейронка как раз вспомнила какой-то не особо детально анимированный видосик. Но это просто вопрос времени. В будущем и это исправят.
Тут же и Google показал свой gemini или кто там с нехилым контекстом, в который влезает фильм и можно просить найти такой-то момент в видео или, наоборот, описать текстом эпизод.
Посмотрим, что из этого выйдет в этом году.

Ответить

Конечно, ровно как и инструментальная музыка не вымерла, а наоборот переместилась в ранг чего-то элитарного.
А про физику — трудно сказать. С одной стороны, это сложные расчеты, с другой — зачем они нужны, если модель обучится на множестве примеров, и вместо расчетов просто будет иметь понимание того, как ведет себя объект в конкретной ситуации.
Улучшаться будет несомненно. Год назад нейронки не могли запомнить сколько у человека пальцев и где нос, а сейчас делают детализацию вплоть до каждой поры и волосинки

Ответить

Кек

Ответить

Добавить комментарий

Сейчас на главной

Новости

Большой смартфон за 5700 рублей: представлен Blackview Wave 10C

Смартфоны и телефоны
7 часов назад
0

Межзвездная комета 3I/ATLAS преподносит новые открытия: обнаружен метан

Наука и космос
9 часов назад
0

Опубликован список устройств Xiaomi, Redmi и Poco, поддержка которых прекращается летом 2026 года

Смартфоны и телефоны
9 часов назад
0

Городской универсал на все случаи жизни по бюджетной цене. Компания Cyrusher сделала 50 % скидку на электровелосипед Asuka

Авто и транспорт
9 часов назад
0

Представлены мини-компьютеры Khadas Mind Pro и Mind 2s с поддержкой док-станции RTX 5060 Ti

Платформа ПК
9 часов назад
0

Публикации

Мост Мийо во Франции: почему он выше Эйфелевой башни и как изменил дорогу через долину Тарн

Мнение
6 часов назад
Путешествия и туризм

Во Франции есть сооружение, которое легко принять за кадр из фантастического фильма: тонкая линия дороги проходит над огромной долиной, а её опоры уходят вниз так глубоко, что машины на мосту...

Феномен 27-го меридиана: почему Земля отражает солнечный свет строго поровну между Востоком и Западом

Статья
8 часов назад
Наука и космос

Энергетический баланс нашей планеты зависит от простого физического показателя — количества солнечного света, которое она поглощает и отражает. Земля отражает обратно в космос около 29%...

Протоколы без пакетов: почему архитектура советской сети ОГАС принципиально отличалась от интернета

Статья
8 часов назад
Оффтопик

В массовой культуре принято считать, что проект Общегосударственной автоматизированной системы (ОГАС), разрабатывавшийся под руководством академика Виктора Глушкова, был «советским интернетом». Это...

Как на самом деле пчелы выращивают матку: почему одного маточного молочка оказалось недостаточно

Статья
9 часов назад
Флора и фауна

В основе устройства пчелиной семьи лежит разделение ролей. Управляет всеми процессами матка — единственная самка с развитой репродуктивной системой. Она крупнее остальных пчел, живет в...

Рай под замком: как самый роскошный курорт Средиземноморья превратился в город-призрак

Статья
11 часов назад
Путешествия и туризм

На восточном побережье Кипра можно найти уникальное явление. Роскошный курорт с безупречными золотыми пляжами, высотными зданиями, бутиками, заполненными модными брендами первой величины… И...

Ищем шпатлёвку при выборе автомобиля. Обзор толщиномера iCarTool IC-T400 с определением цинкового слоя

Обзор
11 часов назад
Авто и транспорт

При подборе автомобиля остро возникла проблема проверки лакокрасочного покрытия. Автомобиль не из салона, но хотелось бы живое ЛКП. Можно обратиться к профессиональным автоподборщикам, которые...