Подробнее о Sora — новой революционной технологии генерации видео от OpenAI

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | Оффтопик

В нашем мире, где видеоконтент становится все более популярным и востребованным, появление новых технологий, которые могут генерировать видео по текстовым запросам, может революционировать создание контента. Одна из таких технологий — Sora, разработанная компанией OpenAI, которая уже поразила общественность представив образцы генераций очень высокого качества. Но что же такое Sora, как она работает, и какие перспективы и риски она с собой несет?

Что такое Sora?

Sora — это генеративная система искусственного интеллекта, которая может создавать короткие видео по текстовым запросам. Например, если вы введете «фотореалистичное видео двух пиратских кораблей, сражающихся друг с другом, пока они плывут в чашке кофе», Sora попытается сгенерировать такое видео, используя свои знания и воображение.

Sora пока не доступна публике, но OpenAI уже опубликовала несколько образцов, которые, по ее словам, были созданы непосредственно Sora без изменений. Эти образцы показывают высокий уровень реалистичности, динамики, согласованности и креативности видео, которые порой трудно отличить от снятых камерой.

Sora также может выполнять задачи видеомонтажа, такие как создание видео из изображений или других видео, объединение элементов из разных видео, продление видео по времени и т. д. Sora может генерировать видео с разрешением до 1920 x 1080 пикселей, в различных соотношениях сторон, и длительностью до 60 секунд.

Как работает Sora?

Sora использует новый тип нейронной сети, называемый диффузионным трансформером. Эта сеть сочетает в себе особенности двух других типов сетей: трансформеров и диффузионных моделей.

Трансформеры — это сети, которые хорошо работают с последовательными данными, такими как текст или звук. Они могут находить закономерности и зависимости между разными частями данных. Трансформеры лежат в основе многих больших языковых моделей, таких как ChatGPT и Google Gemini.

Диффузионные модели — это сети, которые хорошо работают с изображениями. Они могут создавать изображения, начиная с случайного шума и постепенно приближаясь к «чистому» изображению, которое соответствует входному запросу. Диффузионные модели лежат в основе многих генераторов изображений, которые могут генерировать изображения по запросу.

Диффузионные модели (в данном случае Stable Diffusion) генерируют изображения из шума в течение множества итераций
Автор: Stable Diffusion / Benlisquare / Wikimedia Источник: en.wikipedia.org

Sora сочетает в себе эти два типа сетей, чтобы создавать видео. Видео можно рассматривать как последовательность изображений, но в видео важна не только качественность каждого кадра, но и согласованность и последовательность между ними.

Sora использует трансформер, чтобы обрабатывать связь между кадрами. В то время как трансформеры обычно работают с токенами, представляющими текст, Sora работает с токенами, представляющими небольшие участки пространства и времени. Таким образом, Sora может учитывать контекст и динамику сцены.

Какие перспективы открывает Sora?

Sora может иметь множество приложений в разных сферах, таких как развлечения, реклама, образование и наука. Sora может быть использована как инструмент для прототипирования и визуализации идей по значительно меньшей стоимости, чем реальная съемка или услуги специалиста по видеомонтажу.

OpenAI утверждает, что Sora может быть рассмотрена как симулятор, способный моделировать физический и цифровой мир, объекты, животных и людей, которые в нем живут. Если это так, то Sora может иметь научные приложения для проведения физических или химических экспериментов. Однако некоторые эксперты утверждают, что такая система принципиально не может быть способной на подобные расчеты.

Какие риски несет Sora?

Sora также может иметь негативное воздействие на общество. В мире, где дезинформация и манипуляция становятся все более распространенными, Sora может усугубить ситуацию.

Sora может быть использована для создания поддельных или вводящих в заблуждение видео, которые могут быть использованы для распространения лжи или сомнительной информации. Это может подвергнуть опасности общественное здоровье, влиять на общественное мнение, или даже подрывать судебную систему потенциальными поддельными доказательствами.

Sora также может быть использована для создания угроз целевым лицам, через дипфейки — особенно откровенного формата, что естественно понесет за собой ужасные последствия для жизни пострадавших лиц и их семей.

Кроме того, есть вопросы авторского права и интеллектуальной собственности. Sora требует огромных объемов данных для обучения, и OpenAI не раскрыла, откуда взялись эти данные. Возможно, что Sora использовала материалы, которые принадлежат другим авторам или компаниям, без их согласия.

Sora — это удивительная и мощная технология, которая может открыть новые возможности для творчества, обучения и исследований. Однако она также несет в себе серьезные риски и угрозы, которые необходимо учитывать и решать. OpenAI утверждает, что она принимает меры по обеспечению безопасности и этики Sora, прежде чем сделать ее доступной публике.

3 комментария

B
Вообще, да, это мощный прорыв, ничего не скажешь. У OpenAI были ресурсы, чтобы вмазать побольше данных в нейронку, поэтому она такая стабильная. А всепропальщики на реддите уже всех, как обычно, похоронили. Сказали, что все — тлен, жизнь не имеет смысла :) умрут VFX-артисты, 3d-аниматоры, умрет сторителлинг и вообще бросайте свои хобби, т.к. это уже устарело… типичный реддит, в общем. Но они не учитывают, что сколь серебряной пулей вещь ни была, если человек идиот, то он ничего уникального даже с такой не сможет создать. Лично убедился в этом, когда активно писал на компе музыку в 2010-х годах. Супер-пупер плагины, семплы на сотни гигов, синтезаторы по 1000-2000$, студии ценой с пару московских квартир — все это тебе не поможет, если ты тупой, отсутствует системное мышление и, в целом, если у тебя нет идей и какого-то культурного бэкграунда. Технические знания для получения качества в звуке это такая же большая тема, как и творческая часть.
Это если мы говорим о нейронках, как об инструменте в руках человека, т.к. супер-ИИ это другой разговор. Там человек просто не нужен будет :)
А про физику в видосах мелькало мнение, что могли дополнительно использоваться симуляции из того же Unreal Editor для обучения нейронки (может и houdini какой-нибудь тоже использовался). Про химию думаю, что выдумано. Что там симулировать? Нейронка же жидкость не в виде атомов прямо воссоздает и держит это в контексте.
Т.е. эта нейронка (sora) может изображать достоверное поведение предметов + дым и вода + отражения и преломления. Не особо, но может. В видео это всякие косячные одеяла, колышащаяся одежда, волны, разбивающиеся о скалы и так далее.
Алсо, если присмотреться к анимациям, то в космосе болванчик (да и мамонты тоже) бежит слишком неестественно, как в катсценах из первого старкрафта. Словно нейронка как раз вспомнила какой-то не особо детально анимированный видосик. Но это просто вопрос времени. В будущем и это исправят.
Тут же и Google показал свой gemini или кто там с нехилым контекстом, в который влезает фильм и можно просить найти такой-то момент в видео или, наоборот, описать текстом эпизод.
Посмотрим, что из этого выйдет в этом году.
Ruby_Rougarou
Конечно, ровно как и инструментальная музыка не вымерла, а наоборот переместилась в ранг чего-то элитарного.
А про физику — трудно сказать. С одной стороны, это сложные расчеты, с другой — зачем они нужны, если модель обучится на множестве примеров, и вместо расчетов просто будет иметь понимание того, как ведет себя объект в конкретной ситуации.
Улучшаться будет несомненно. Год назад нейронки не могли запомнить сколько у человека пальцев и где нос, а сейчас делают детализацию вплоть до каждой поры и волосинки

Добавить комментарий

Сейчас на главной

Новости

Публикации

Что такое виадук и чем он отличается от моста и путепровода

Когда мы говорим о мостах, путепроводах и виадуках, часто кажется, что это одно и то же — просто разные слова для переправы через что-то. Однако в строительстве, архитектуре и дорожном...

Эксперименты Ильи Иванова: как в СССР пытались создать гибрид человека и обезьяны

Эксперименты по созданию гибрида человека и обезьяны — один из самых необычных эпизодов ранней советской науки. В 1920-х годах биолог Илья Иванов попытался осуществить идею, которая...

✦ ИИ  Что подарить женщине на Новый 2026 год? 10 интересных идей

  • Тематическая подборка
  • Оффтопик
Новый год каждый раз ставит один и тот же вопрос: что подарить, чтобы человеку было и приятно, и полезно, и не в духе «оригинальная кружка с совой». Вещей вокруг нас много, а вот подарков, к...

100 главных страхов современного человека, по версии ученых. Спойлер: дело не в экстриме, а в вашей работе

Поговорим о риске. Что первое приходит на ум? Вероятно, что-то экстремальное: прыжок с парашютом, спуск с крутого склона на сноуборде, ставка ва-банк в покере. Сознание, конечно, любит яркие...

Почему в Средневековье сыр подавали только в конце трапезы?

Современного человека вряд ли удивит сыр в составе салата или пасты, однако в средневековой Европе к этому продукту относились иначе. Его разрешалось употреблять лишь по завершении основной...

✦ ИИ  Что такое время на самом деле? Как психологическая проекция создает ощущение «течения»

Физика и наше восприятие находятся в состоянии холодной войны уже более ста лет. С одной стороны, общая теория относительности и концепция «блок-вселенной» утверждают: прошлое, настоящее и будущее...