Комментарии / Публикации Sawaru / iXBT Live

Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Комментатор

Sawaru

Рейтинг

+1606.10

Автор не входит в состав редакции iXBT.com (подробнее »)

Нормально? Да не особо, где то не работало, где то ухудшало результаты, где то давал минимальный прирост. И относительно большинства игр, то где мульти гпу работали нормально, абсолютное меньшинство.
И как не крути 2 чипа будут медленней одного чипа с аналогичными характеристиками.
И это не отменяет того факта, что данная конфигурация весьма долгое время будет работать криво, если будет работать.
Ибо инудстрии плевать на такое решение, пока оно не будет носить массовый характер.
А оптимизация будет делаться силами и деньгами амд.
И L3 кеш в гпу, по понятным причинам, снижает зависимость от шин данных, в данном случае к памяти. Но как бы данный кеш не назывался, он не бесконечный. И правила на него действуют всё те же, чем он больше, тем он медленней.
И всё ещё актуален вопрос планировщика и правильного распределения нагрузки в играх между чипами гпу. Т.е. очевидно что софт должен уметь хорошо работать с данным решением. А то в играх прирост будет маленьким.
И кстати чем больше способен выдать вычислений гпу, тем больше он чувствителен к информации, отсутствие которой есть проблема.
Это не вот всё так просто, если бы всё было так как вы говорите, сейчас бы массово использовались мульти гпу, но не срослось.

Просто потому, что нвидиа стал монополистом и выкатывает максимально проприетарные фичи. И опенсорсный софт с нвидиа так себе.
Когда амд, на оборот больше опенсорс поддерживает, на данный момент.
Так что скажем так, просто так сложилось и что бы было иначе, амд нужно откусить кусок по более.
Основное изменение нейронки в 30 серии это всё же умение работать с разряженными матрицами, вроде как то так.
Тем не менее не т, что бы это вообще было нужно.
Ибо например те же нейронные сети традиционно работали на гпу.
Конечно npu блок всё таки эффективней и экономичней.
Но в играх, это нужно лишь для апскейлинга и как ни крути алгоритм нейросети это придумывание пикселей, по уже наработанным чертежам и дай бог это будет не заметно.
И тут привет маркетинг ибо 8к или 16к будет звучать лучше те же 2к-4к, типо мол смотрите какое высокое разрешение.
Хотя по идее, амд недалеки от того момента когда они смогут в спокойную и 4к разрешение с комфортным фпс рендерить и даже больше, мульти гпу в этом плане будет хорошим преимуществом.
Лично я бы пропустил нынешнее поколение и глянул на некст поколение.
Да и качественный скачёк в графике от ртх, пока мне не очень нравиться. И тут уж хз в чем проблема, для хорошей реализации то ли мощности железок не хватает, то ли геймдизайнеры пока экспериментируют, то ли оба варианта.
Ибо лучи дают возможность создать честный screen space.
Ну а пока лучи делают картинку местами лишь немногим красивее.
И не сопоставимо ни с ценой данного решения, ни количеством вычислений.

Хахах, очень интересно.
Асинки кому оно надо!
И Пачиму нет лучей у карточек которые были до 20х жирафов, пачиму.
20 жирафы вышли когда? Правильно в 18 году. Нынче 21 год, сколько игры вышло?
А если считать полноценный ртх, а не частичный как в ларке? Ведь технология то маст хев. И оправдывает х2 цены! Правильно!
Рекомендованные цены напомнить?
1060 6гб 280$ 21 октября 2018 ( в целом 10 линейка представлена 2016 годом)
rx 580 8гб 230$ 18 апреля 2017
А теперь учтём, что это рефрешь то.
rx 480 8гб 240$ июнь 2016.
Что нынче 588 уже конкурен 1070?
И 20 серия была помойной, потому как стоили запредельно дорого, а общая производительность от той же 10 серии прям далеко не уехала. Но приехали бесполезные лучи, которые всеми силами рекламировались, и аж в пару игр можно поиграть к концу их жизненного цикла и то не на всех картах, можно поиграть без мыла и с комфортом.
Как раз 10 и 30 серии жирафов великолепны.
А если вам не известно, что те же математические расчёты проводятся силами той же гпу, это ваши проблемы. Ибо проф задачи неожиданно не заканчиваются на монтаже и рендере видео. Я чётко сказал, что любы вычисления использующие FP64 лучше были на GCN, особенно на вегах и ведь fp64 вычисления это исключительно проф сегмент. А ваши куда ядра это просто маркетинговое название. Точно такое же как и потоковые процессоры, а рендерят видео лучше, просто в силу того, что нвидиа долгое время была чуть ли не монополистом на рынке гпу, отсюда и софт писался под их ускорители.
В любом случает, разговор о «сильно отстали» это профанация и только.
Ибо отставание 1 поколение, и то из за слабого rt блока, который не создан для 4к. Но уже может в 2560x1440p.
Конечно так же можно отметить, единственный недостаток 30 серии, это потребление, которое крайне высокое

«Новому алгоритму нвидиа рефлекс»
Ммм попахивает амдшным антилагом.
Ой а может вспомним как нвидиа продавала g-sync? когда амд используя банальные спецификации того же дисплей порта, дала геймерам то же самое freesync, но дешевле.
А сколько вышло игр с лучами за время жизни 20 серии, что вся зелень жить без них не могла. А щас что, 30 серия превратила 20 в проходной шлак.
Это всё равно, что покупать полноценный внедорожник и кататься только в городской черте.
А сейчас у обеих компаний есть лучи, да у нвидиа лучше. Просто потому, что амд расчитали, что вдруг блок лучей должен обеспечивать производительность в разрешении до 2560, т.е. опять кое-как конкурируют в среднем сегменте.
А что со стримингом? Не ужели аппаратный декодер амд не умеет в стриминг? Ах да мы же только про нвенк и знаем. А тот ещё сливает в качестве, особенно при низком битрейте(тот же твич), процессору.
И из проф задач вы так и остановились на монтаже.
Окей тогда как контр аргумент есть не только майнеры, но можно ещё и вести научные расчёты.
Да и в принципе GCN был универсальной архитектурой, и очень хорошо загружал конвейер тяжёлыми инструкциями. Из за чего в тех же играх они и были такие себе.
Но смысл вам было вспоминать старичков полярисов? Когда он ни разу и не был конкурентом 20 серии, который вышел сильно позже.
А конкурировал с средним сегментом 10 серии, ну и rx 400 тоже.
И где сейчас 1066 и что стало с rx588. Асинки передают вам привет. Которые подтянули до уровня амд, как раз в 20 серии.
а что же насчёт вег, ну это скажем честно потуги, нового ничего не было, пришлось спускать чипы из проф сегмента. и тут тем кому нужны были Fp64 вычисления, точно были рады.

Ну как эксплуатировали, тоже развивали, но со своим видением ситуации. Просто другая ветка эволюции. Конечно много воды утекло с момента продажи Imageon. И были не только эволюционные улучшения архитектур, но и революционные.
Но вот с точки зрения qualcomm, лицензировать графику амд т.е. ip ядра, значит в принципе потерять фичу своих процессоров. А значит и конкурентное преимущество.
Что значит квалкам придётся попотеть, если у самсунг всё получиться.

Всё точно так же как и в смартфонах. А нужно для низкого потребления в условиях малой нагрузки. Хотя, это не точно, судя по реализации интел. Так что буду говорить о концепции.
Скажем так 8 больших ядер, для обычного юзера за глаза. Для прочих производитель предусматривает сегмент Hedt.
И по идее выигрыш пользователя будет в сниженном потреблении при задачах типо браузера/офиса.
На практике фиг его знает, ибо 8 ядер многовато, типо разница между 8 ядрами по 1W и 4 всё же есть. И это при условии нормального планировщика и того, что можно будет кинуть большие ядра в глубокий сон.
Ну а в случае типичной нагрузки, по типу тех же игр, всё же будет тоже разница в производительности и потреблении. Например играешь ты в ААА игру и можно под неё отдать только производительные ядра, а на малые ядра определить фоновую нагрузку или простенькие задачи со второго монитора. Например можно играть на 1 мониторе, а на втором смотреть стрим. И в гомогенных процессорах, вся нагрузка придётся на кластер больших ядер, что немного отъест производительности. А в случае когда ядер столько же потребление окажется несколько выше.
Да и в производстве большие ядра дороже.
Но то, что хотят интел выглядит странно. Точнее выглядит как маркетинг типо мол смотрите у нас тоже 16 ядер!
Т.е. условно для моего варианта подошла бы компоновка Х(большие ядра)+4малых, допустим с потреблением до 1-1,25W, но тут уже есть блок avx, что не вяжется с низким потреблением.
А в плане программирования уж не разбираюсь, ну так или иначе на ядрах должны быть метки или флаги, позволяющие их определять. Да и производитель должен дать программистам рекомендации, что можно и нельзя там вычислять.
Андройд же научили работать с 2 кластерами гетерогенных ядер и тут примерно тоже самое.
И далее данная идея имеет развитие в 3д компоновке. Когда маленькие ядра можно будет вынести на отдельный кристалл, на один из нижних слоев на устаревшем тех процессе, как кристалл IO, что собственно фактически и есть чиплеты, ибо данное понятие и ввела интел, а амд использовало название «чиплетный дизайн».
И данный метод производства достаточно дешевый и в некоторой степени удобен в плане масштабирования, с учётом ограничения того, что нижние слои недолжны много потреблять, ибо от них сложно отвести тепло напрямую. Но это уже отдельная тема.

Так я про одну игру которая показала х2.
Да и 4 игры из десятка другого, такое себе. Слабенько

Данные конечно интересные, но это всего 1 игра. И смотрите кол-во игры сильно ограничено, скорее всего выборка такова где это вообще работает.
И разница тут в том, что это две отдельные карты. И буфер памяти у них соответственно х2, и можно в принципе не парясь закидывать нужные данные в gddr память.
И тут просто вопрос в реализации движка, как они в кросфаере рендерят кадры.
Но таких игр будет минимум, пока мульти гпу не придут в те же консоли.
Ибо индустрии не нужен этот гемор, пока он не займёт достаточно большую нишу.
Что значит, мульти гпу должны осесть в консолях или у обоих производителей хотя бы в среднем бюджете.
Иначе такое будут реализовывать только доп ресурсы от производителей железа.

Ей богу смысла от 10/20+4 по мне так видится больше. Ну офк если реализуют нормальный планировщик.

Ага индустрия такая посмотрит и скажет ага, идите ка вы лесом, нафиг нужен этот геморрой. И arm процы станут нео-ретрофетишизмом.

«может»?
Станет!
Как ни крути физику не обманешь, чем дальше блоки друг от друга, тем выше задержки, а задержки равносильны простою, что и режет производительность.
Так же становиться сложнее распределять нагрузку и информацию.
Т.е. нельзя допускать того, что бы нужная информация находилась в кеше соседнего кристалла.
И тут либо дублировать информацию, либо правильно распределять нагрузку.
Второе предпочтительней.
Ведь так или иначе нагрузка на гпу сложнее. Точнее это применимо к играм.
Ведь там часть информации используется повторно
Ведь условно на основе вершин нужно построить объект, наложить текстуры, тени и игру света.
т.е. информация о текстуре будет повторятся. И будет не очень хорошо если например тени будут рассчитываться на соседнем кристалле.
Но в принципе будет нормально если другой объект из кадра будет рендериться на соседнем кристалле и чем меньше пересечений информации, тем лучше. Ибо информация будет использоваться максимально эффективно.
Ну это условно и примерно.
И это требует не только реализации в драйвере, но и очевидно со стороны API и движка игры.
И в идеале оптимизировано разработчиком, тогда профита будет больше.

Идея хорошая, но исполнение мне не нравиться.
Зачем 8 малых ядер, неужели нельзя было остановиться на 4? Ведь это ухудшит энергоэффективность в легких задачах. А для чуть более сложных задач их особо не хватит.
Второй вопрос на кой малым ядрам вообще Avx блоки? Почему нельзя было спроектировать максимально простые ядра под OC+браузер+офис.
И вот какой смысл, разница в потреблении не максимальна, а производительность до больших ядер не дотягивает. Ни рыба ни мясо.
Ну поживём увидим.

Чую проблем будет много.
Допустим как и предполагалось, софт данную склейку будет считать одним полноценным gpu. А не как при SLI/crossfire.
Тогда возникнет проблема загрузки графического конвейера. Ибо нагрузка должна будет в приоритете загружать не весь конвейер, а только 1 чип, иначе будет только хуже, ведь тогда данные будут гоняться по всей гпу и соответственно излишне загрузят внутреннюю шину.
И судя по опыту с райзенами, они должны будут отделить IO чиплет? Ведь по идее затевать всё это только для склейки 2х кристаллов глупо, а равномерный доступ к памяти нужно обеспечить каждому кристаллу.
Не говоря уже о том, что полюбому будут косяки в драйверах из за подобного решения, а на эффективность в играх нужно ещё будет посмотреть.

Ну тк у меня и встроенный декодер тоже не может в 8к60.
Сейчас протестировал на проце 8к30, дропнул 6кадров из 970.

С большой вероятностью вы уперлись в тепловой пакет. Всё таки 14нм.
И его сложно в подобной нагрузке сравнить с 7нм райзенами. Которые вообще запихнули 8 ядер в U серию.
Вот условно смотрите на те же частоты 5800h, который к тому же 8/16.
это 3.2-4.4Ггц
Когда у вашего 2.3-4.0Ггц на 4/8.
если что 5600U 2.3-4.2Ггц на 6/12. А это между прочим всего 15W.
И соответственно больше частоты, больше потоков и справиться намного лучше.
Ну и соответственно, все мобильные zen3 идут от 6 ядер, вроде даже с SMT.

У меня лично фоновая 3-5-7, при небольшой нагрузке доходит до 10%. В среднем 5%. И тут проблема в том, что у меня проц зарезан по частоте и однопоточка проседает.
Но даже так
1080 10-12%
4к60 20-25%
8к60 50-85%, но тут стоит отметить, что были пропуски кадров, в статистике порядка 33-50% дропа кадров и периодически картинка спайкала, не то что бы часто, но было.
Ну а странности ютуб, это есть настройках кодека av1, судя по всему у них хранятся оба ролика и в VP9 и AV1, или только VP9. И он в автомате решает использовать av1 или нет.

Десктоп, и проблема была решена, перекопав всё что мог, выяснил, что просто не было пакетов для vp9 в самой винде.
Но тем не менее, концепцию это не меняет. Пока есть VP9. И покуда с декодированием справляется cpu|gpu всё ок.
И даже если всё перекодируют в AV1, то с 4к контент, можно декодировать и на сpu. Мой 2700х на 4ггц, в принципе легко с этим справляется(речь про vp9).
Вот с 8к60, требуется куда больше ресурсов, нагрузка плавала от 50 до 85%.
Но у меня и проц думаю похуже мобильных zen3 и даже zen2 будет хуже, уж H серии точно.

кхм, так это оказалась моя личная проблема, у меня vp9 поддерживается, но не работает и кто его знает почему.

Тут у меня очень интересный косяк, в том что браузеры не используют аппартный кодек. И почему я не понимаю. При том, при записи или воспроизведении видео на раб столе он используется. Так что да мои данные не релевантные. Ну и собственно как заставить работать данный кодек я тоже не вкуриваю.
P.s. hevc, avc спокойно работают

Вообще не актуален. Просто потому, что дискретка спокойно пережует всё сама. А на экономию энергии в жирных ноутах тоже плевать, ибо будут работать в основном от сети.
Этот вопрос актуален лишь для недорогих ноутбуков, т.е. для самых младших линеек. Ибо даже старшие U процессоры будут идти только с дискретной графикой или в ультрабуках. И вот тут да неприятно, но тем не менее можно будет декодировать видео на самом apu.
Вот например у меня дискретка без AV1, включаю ютуб 1080@60 AV1| 1080@60 VP9 | 4320@60 VP9, разницы в том же потреблении нет. А роликов 4к-8к, на AV1 в ютубе, при беглом осмотре я не нашёл.
Ситуация получается такая, пользы от AV1, на данный момент, мало, не говоря уже том, что его наличие плохо скажется лишь на ограниченном кол-ве моделей.
Что означает, ну и фиг с ним, нету и нету, чо бухтеть то.
Т.е. что бы он понадобился, нужно взять дешевый/тонкий ноут без дискретки, подключить к 4к-8к экрану, при том исключая VP9. И вот тогда, может быть, это будет полезно.