DirectX.Update: Ускорители графики: полшага вперед

Предупреждение: В этой статье, в свободной форме, хочется рассудить о том, что (наиболее вероятно, по мнению автора статьи) происходит сейчас, и будет происходить в ближайшее время, на рынке аппаратного ускорения трехмерной графики. Большинство рассуждений в этой статье являются по своей сути предположениями автора или творческой переработкой доступных на просторах сети слухов. Впрочем, и гипотезы и слухи, были старательно пропущены через призму опыта, пристальный анализ тенденций и другие, доступные для автора инструменты эффективного отделения мух и котлет. Читайте на свой страх и риск, надеюсь, чтение будет интересным и приятным.

Проблемы отношений полу-поколений

Итак, начнем с анализа наиболее вероятных анонсов графических чипов и решений на их основе, свидетелями которых мы, вероятно, станем в ближайшее время. В алфавитном порядке:

Положительный во всех отношениях герой в красном плаще и шейдеры версии 3.0

ATI завершает разработку нового чипа под кодовым названием R520. Судя по всему, специалисты ATI, заявлявшие ранее, что время шейдерной модели 3.0 еще не пришло, изучили ситуацию, и выработали новое мнение. Приняв во внимание постепенное вытеснение ассемблерного шейдерного кода в приложениях высокоуровневым HLSL кодом, вполне ощутимое развитие технологий компиляции шейдеров в DirectX (особенно в последних SDK и Update), а также заметно возросший интерес разработчиков и даже появление готовых приложений способных задействовать преимущества шейдеров третьей версии. Итак, время пришло, видимо, решили специалисты ATI и начали разработку R520, способного выполнять шейдеры 3.0 (есть как слухи, так и высказывания сотрудников ATI на этот счет).

Что повлечет за собой поддержка новой шейдерной модели? Во-первых, заметное увеличение сложности пиксельных конвейеров. Во-вторых, некое изменение баланса сил, в сторону, характерную для архитектуры NVIDIA — чуть больше будет зависеть от компиляции и драйверов. Насколько готовы к этому в ATI? В скором времени, все станет ясно из практических тестов, а пока мы можем построить несколько вероятных предположений:

Сценарий 1: Чип содержит 16 конвейеров (как и предыдущее поколение), но имеет более высокую тактовую частоту ядра.

Сценарий 2: Чип содержит 24 конвейера и имеет схожую тактовую частоту ядра.

Сценарий 2-бис: Чип с одержит 24 конвейера, причем восемь из них гибридные (то есть могут выполнять как пиксельные, так и вершинные шейдеры!) и выполняют ту или иную роль в зависимости от текущих потребностей. Очевидно, распределение происходит в драйвере, а не полностью динамически на уровне железа, хотя может быть и второй вариант, более эффективный и «продвинутый».

Вариант с несколькими текстурными модулями и 16 конвейерами маловероятен, поэтому мы не будем его упоминать.

Сценарий 2-бис наиболее интересен, и в итоге представляется одной из самых вероятных и интересных перспектив будущего развития ускорителей вообще. Он позволит несколько эффективнее использовать ресурсы чипа, как вычислительные, так в идеале и возможности кэширования.

Со стратегической, программной точки зрения, никаких существенных архитектурных изменений кроме поддержки шейдеров модели 3.0 не произойдет, но и это немало. Посмотрим, насколько эффективно будет организован доступ к текстурам из вершинных шейдеров, реализация которых в чипах NVIDIA пока оставляет желать лучшего. Обратите внимание, что при выполнении сценария 2-бис, вершинный шейдер получит все возможности интерполяции и выборки текстур доступные в пиксельном шейдере, что видится мне оптимальным вариантом (если, конечно, он будет реализован).

Еще один интересный пункт — симметричная поддержка плавающих форматов. Как известно, NV4X в большинстве (если не считать NV44) обеспечивают не только выборку плавающих текстур и запись в плавающий буфер кадра, но и блендинг (смешение при многопроходном рендеринге) в плавающем буфере формата компонент FP16. Эта возможность видится наиболее вероятным кандидатом к реализации в R520 после шейдерной модели 3.0

Итак, выборка и интерполяция как минимум FP16 текстур и блендинг FP16 буфера кадров. Вероятно, кроме этого будет добавлена одна дополнительная степень анизотропии, и внесены какие-то минорные изменения в технологию сглаживания, впрочем, не принципиальные — гибко программируемые паттерны MSAA у ATI давно на высоте, а новых кардинальных подвижек в этой области пока нет.

Последний момент — MMU — постепенно все PCI-Express чипы (a R520 будет только PCI-Express решением) будут оснащаться страничным MMU, берущим на себя менеджмент ресурсов и автоматическую (в той или иной степени, в связке с драйвером) подгрузку их в локальную память ускорителя по мере необходимости. Эта эволюция описана в статье DX Next и является прямой дорогой к новым требованиям драйверной модели Longhorn. Очевидно, что также будут предприняты различные инженерные шаги по снижению затрат CPU на передачу и подготовку данных ускорителю, а также уменьшению задержек на смену контекстов рендеринга (текстур, буферов кадра, шейдеров и т.д.), настолько критичных для современных приложений величин, зачастую сдерживающих приложения, делающих их CPU «драйверозависимыми» и не дающих им полностью использовать аппаратные возможности ускорителя. Однако все эти новшества во многом ограничены современным DirectX, который не претерпит кардинальных изменений в этой области до выхода Longhorn.

Что касается шины памяти и ее типа — текущие архитектуры и приложения все больше и больше зависят от шейдерной производительности и поставки исходных данных от CPU — локальная память перестала играть настолько критическую роль бутылочного горлышка, как это было два поколения назад. Современные микросхемы, GDDR3, (будут доступны 1.4 и даже 1.2 нс) способны обеспечить синхронную работу шины памяти на частоте 600 МГЦ и более. Судя по сложности ядра, мы вряд ли будем иметь дело с частотой выше 600-650МГц. Наоборот, вероятны и менее быстрые сценарии, какие — покажет только реальное массовое производство, гадать пока невозможно. И, как показал предыдущий год, даже сами специалисты NV или ATI могут только предполагать в таких вопросах, в то время как реальный запуск чипов в серию располагает, порой к совершенно иным цифрам.

Технология, по которой будет производиться новый чип 90нм — что достаточно рискованно учитывая высокую сложность решения и «зеленую» технологию, еще не опробованную производителями графических чипов. Однако кто не рискует, тот не выигрывает — такая технология в случае успеха способна стать залогом экономической выгоды и обеспечить эффективную ценовую конкуренцию. Повторимся, в случае успеха: вспомним, что в свое время NVIDIA имела множество проблем с освоением 130нм.

В итоге мы имеем следующую наиболее вероятную картину:

Кодовое имя: R520;
Вероятное название линейки продуктов: RADEON 900 либо RADEON 10000;
Технология: 90нм (известно);
Вероятное время анонса: Май 2005;
Вероятное число конвейеров 16+8 или 24+8 или 16+8 универсальных;
Шейдерная модель 3.0;
MMU, хранение текстур и рендеринг в PCI-Express память при необходимости;
Вероятны: выборка и интерполяция FP текстур, FP блендинг;
512 Мбайт памяти в настольных решениях (известно), 256 бит GDDR3 память, характерная частота работы (600-750МГц)*2;
Частота ядра не известна, но в любом случае вряд ли превысит 650 МГц;
Достаточно высокая цена — первые 512 Мбайт карты могут стоить дороже $600.

Назидательная история про NVIDIA, ATI и мост PCI-Express <=> AGP

Время показало, что стратегия NVIDIA, связанная с использованием PCI-Express мостов, была более успешным выбором. Переход на PCI-Express происходит с вполне нормальной скоростью: никакого «сногсшибательного» разового скачка, как планировали некоторые фирмы производители, не произошло. Очевидно вполне традиционное вымывание с рынка старых платформ, по мере устаревания, и замена их новыми по мере покупки свежих ПК. Как показывает опыт, такая эволюционная смена платформы требовала и требует как минимум полтора, а то и два года времени, прежде чем масса ускорителей покупаемых для PCI-Express решений станет сравнимой с массой AGP ускорителей. Тем более что пока доступны вполне достойные процессоры и выгодная по цене память для старой платформы, что до сих пор стимулирует ее покупку и в составе новых ПК.

Есть и другие тонкости: вроде отсутствия мотивации для смены уже типичных 2.X ГГц CPU вообще (для многих пользователей их все еще вполне достаточно) и более разумный путь обновления ускорителя. Можно сменить его на топовое решение для AGP, что при одинаковой сумме денег даст больший прирост скорости игр, чем смена всей платформы и покупка нового решения среднего уровня для PCI-Express.

Нет сомнений в том, что PCI-Express это «круто», и что она победит в достаточно скорой исторической перспективе, однако факт: на данный момент организовался заметный дефицит AGP решений на базе нового поколения чипов. NVIDIA воспользовалась этим, увеличив выпуск карт снабженных мостами и просто AGP карт на базе NV40/41, которые в итоге разлетались как горячие пирожки. А ATI наоборот не могла представить свои последние архитектурные технологии на AGP рынке в целом ряде ценовых ниш, и потеряла, таким образом, значительное число покупателей. А также была вынуждена производить некоторые фактически устаревшие решения и увеличивать число запусков новых чипов, чтобы хоть как-то реализовать возникший спрос. Что, несомненно, не выгодно. Например, запуск R481, которого можно было бы избежать при наличии моста.

Итак, уже известно, что в результате ATI все равно пришлось создать свой мост (RIALTO), аналогичный во многом HIS мосту NVIDIA. В скором времени можно ожидать целый ряд анонсов решений на базе всех последних PCI-Express чипов ATI в паре с AGP мостом, для устранения недостатка в предложениях и удовлетворения спроса на AGP рынке. Этот ход позволит свернуть производство очередных инкарнаций старых по архитектуре чипов, упростив и упорядочив линейку продуктов ATI, а также сделав ее более униформичной по возможностям.

Посмотрите, не прошло и года, как время показало, какой подход был верен, а какой ошибочен. Не правда ли, область высоких технологий как никогда азартна и интересна для тех, кто любит делать прогнозы и ставки?

Очевидно, что после весеннего анонса R520 пройдет некоторое время, и (видимо, в начале осени) будут анонсированы более экономичные и массовые решения на основе его архитектуры.

На повестке дня меню лучших поваров NVIDIA: сегодня и завтра.

В далекой и светлой перспективе конца 2005 года нас ждет 90нм чип, соответствующий стандартам WGF 2.0 (Windows Graphics Foundation 2.0, основной частью которого станет т.н. DirectX.Next он же DirectX 10) и драйверной модели Longhorn. Новая версия шейдеров, новая драйверная модель, новые принципы взаимодействия API и железа, новые приложения. Все это появится не раньше поздней весны 2006 года, но в том-то и дело, что железо должно быть готово уже к концу года 2005. Судя по всему, NVIDIA будет пионером, предоставив WGF 2.0 решение (посмотрим, как быстро подтянется ATI). Такие кардинальные архитектурные изменения не даются малой кровью, и поэтому нам приходится ждать. Поскольку до осени 2005 года никаких новшеств от NVIDIA с точки зрения архитектуры мы не увидим.

Зато, будет NV48 — 110нм оптимизированная версия NV45 со встроенным PCI-Express интерфейсом. Число конвейеров не изменится (наиболее вероятный сценарий), но, если все пойдет хорошо — вырастет тактовая частота и, возможно, появятся в широком ходу 512 Мбайт карты. Переживать по поводу отставания от ATI нет повода — архитектура NV4x и так была на шаг вперед относительно ATI — она уже включает в себя и шейдеры 3.0 и выборку/блендинг FP текстур. Вопрос только в скорости, объеме памяти, и, может быть, таких мелочах как аппаратная технология 3Dc (если она будет лицензирована Microsoft или NVIDIA у ATI) и оптимизация доступа к текстурам из вершинных шейдеров (что произойдет, более вероятно, только у NV50).

В остальных нишах NV4X чувствует себя прекрасно и может занимать их еще долго и счастливо, по мере установки более производительной памяти, обкатки производства и увеличения выхода годных.

Интересно, что, наконец-то NVIDIA получила от Intel лицензию на шину CPU семейства Pentium 4. Теперь, очень удачные чипсеты nForce придут и на эту, (не побоюсь этого слова) основную платформу современной IT-индустрии. С одной стороны они могут составить конкуренцию собственным чипсетам Intel, с другой – компенсируют это фактом исчезновения еще одного существенного аргумента в пользу AMD. Интересен иной вопрос — получив лицензию на шину CPU, не займется ли NVIDIA в будущем производством процессоров? Компания, которой по зубам создать настолько сложный ускоритель может попробовать себя и в деле процессоростроения, почему бы нет? С другой стороны, высокие частоты и специфика CPU требуют тесной работы непосредственно с заводами и технологиями производства чипов — у NVIDIA такой возможности и, что самое главное, опыта пока нет, а Intel тренировался в этой области десятилетиями, впрочем, как и AMD. Как бы там ни было, в ближней и далекой исторической перспективе, нельзя не радоваться появлению сильного и актуального игрока на рынке чипсетов для Pentium 4. SiS и VIA последнее время не радовали нас новшествами, все более и более сокращая свое присутствие на этом рынке, сфокусировавшись на дешевых и не очень удачных решениях.

А теперь главный вопрос — когда начнется серьезная битва NVIDIA с Intel за кусок все более растущего рынка интегрированной графики, который, до сегодняшнего дня, только поедал потенциальных покупателей NVIDIA и ATI?

В том, что борьба начнется — не сомневайтесь.

Бонус: проблема конкуренции и отсутствия конкурентов, как проблема завтрашнего дня и новой ОС, в свете проблемы ограниченных потребностей и их роста (совсем запутано).

Напоследок рассудим о тонких материях. В 2006 году нас ожидает скачок возможностей, связанный с появлением новой ОС. Новая графическая архитектура и шейдерная модель, новое поколение ускорителей, адаптация новых возможностей платформы PCI-Express, технологий LaGrand и Vanderpool, многоядерные процессоры на каждом столе. Именно в этом году можно ждать роста потребностей рядовых потребителей ПК, в некотором роде «застывших» в начале 2004 года и приведших к изрядному консерватизму рядового покупателя комплектующих. Последний серьезный прорыв возможностей для конечного пользователя — запись DVD дисков отгремел уже достаточно давно. Пока что основные направления развития легли на мобильные решения (идет повальная ноутбукофикация всех и каждого, рост продаж ноутбуков, бурное количественное развитие сектора пользователей PDA/смартфонов), но в скором времени нас могут ожидать и заметные сдвиги на ПК рынке.

Очевидно, что только новые модели использования ПК (например — цифровой дом), новая ОС и новое программное обеспечение сдвинут с места этот застой локального масштаба. Пока же, как в любой консервативной стране, мы имеем не более двух главных партий (ATI и NVIDIA, Intel и AMD) находящихся либо в состоянии равновесия (два сценария — паритетный 50/50 и оппозиционный 80/20), либо в положении перехода из одного состояния равновесия в другое :-)

Пока длится этот небольшой застой, снизилась и скорость выхода на рынок новых графических архитектур. Без бурного развития возможностей программных, а как следствие и аппаратных, технологий, какие-либо новые производители не имеют особой возможности пробиться на рынок и занять там заметное место (вспомним неудачные потуги XGI, а также много других примеров), и только с выходом Longhorn, скажем, в 2007 году, мы можем надеяться на появление новых игроков или смену расстановки сил. Но и здесь надежды достаточно спорны — бум стремительного роста хайтека прошел, ПК резонно и неуклонно стремятся к бытовой аппаратуре. Так или иначе, и если не считать специальных областей применения (серверы и т.д.), монолитный ПК в виде некоего ноутбука, небольшого музыкального центра или DVD проигрывателя будет вполне естественным финалом этой эволюции.

Всем правит контент (он и доступ к нему первичны), а не само устройство для его создания или воспроизведения, коим является современный ПК. Контент подстегивает развитие аппаратной инфраструктуры, будь это программное обеспечение (игры) или иные формы (фильмы по запросу с серверов в сети, телевидение по запросу и т.д.) и новые модели его создания и потребления. Причем, не секрет, что средний пользователь потребляет контента куда больше, чем создает: творить сложнее.

Итак, в наше время таким крупным компаниям как Интел в погоне за расширением рынка сбыта компьютеров остается только два пути: учить массы создавать, и учить массы новым методам потребления. Тогда появятся новые желающие купить нечто с процессором и ОС внутри. Вот что такое ускорение Internet :-)