Пять особенностей, которые необходимо знать разработчику под Maxwell

ПредыдущаяСледующая
1174
NVIDIA Logo

В официальном блоге компании Nvidia появилась интересная запись, в которой рассказывается об особенностях первого поколения Maxwell. Первые продукты на архитектуре Maxwell, такие, как GeForce GTX 750 Ti, основаны на чипе GM107 и предназначены для использования в малопотребляющих устройствах – ноутбуках, компактных компьютерах и не только. Ключевым моментом Maxwell для разработчиков HPC и других GPU-приложений является большой скачок в энергоэффективности: почте вдвое по сравнению с архитектурой Kepler, что делает Maxwell отличной базой для будущих продуктов в линейке Nvidia Tesla.

В этом посте рассказывается о пяти главных вещах про Maxwell, которые следует знать разработчику GPU-приложений. Среди них - преимущества архитектуры, специфика нового потокового процессора Maxwell, руководства по настройке и ссылки на дополнительные ресурсы.

Maxwell vs Kepler

Сердце Maxwell: более эффективные мультипроцессоры

Потоковый процессор (SM) в Maxwell - его называют SMM - создан с нуля и обладает значительно большей энергоэффективностью по сравнению с предшественниками. Стоит отметить, что Kepler SMX был достаточно эффективен для своего поколения. В результате его создания инженеры Nvidia увидели новые возможности в повышении эффективности архитектуры GPU, которые и были реализованы в SM Maxwell. Улучшения коснулись механизмов распределения управляющей логики и нагрузки, гранулярности алгоритмов энергосбережения, планирования инструкций и количества исполняемых инструкций за такт, а также многих других аспектов, позволивших SM Maxwell намного опередить Kepler SMX по эффективности. Новая архитектура SM Maxwell позволила увеличить количество SM до пяти в GM107, в отличие от двух в GK107, при увеличении площади матрицы всего на 25%.

  • Улучшенное планирование инструкций

    Количество ядер CUDA в одном SM сократилось, однако с учетом возросшей эффективности исполнения в Maxwell (прирост производительность в расчете на SM составляет в пределах 10% от производительности Kepler) и более эффективных размеров SM, общее число ядер CUDA на GPU будет намного выше, чем у Fermi и Kepler. В Maxwell SM осталось то же самое количество планировщиков инструкций и уменьшены задержки на арифметических операциях по сравнению с Kepler.

    Как и в SMX, в каждом SMM есть четыре warp-планировщика, но в отличие от SMX, все ключевые функциональные блоки SMM привязаны к определенному планировщику, а не делятся между ними. Количество ядер на один раздел теперь равно степени двойки, что упрощает планирование – каждый планировщик использует свой собственный набор ядер количеством равным размеру warp`а. Warp-планировщик может по-прежнему за один такт выполнять две инструкции (например, выполняя математическую операцию на CUDA-ядрах одновременно с выполнением операции обращения к памяти в блоке load/store), однако теперь можно полностью загрузить CUDA-ядра даже если планировщик отправляет на выполнение по одной инструкции.

  • Увеличенная загрузка потоковых процессоров

    SMM по многим аспектам похож на SMX архитектуры Kepler, при этом ключевые изменения нового типа процессоров направлены на повышение эффективности без необходимости значительного увеличения параллелизма в расчете на SM в приложении. Размер регистрового файла (64K 32-битных регистров), максимально количество warp`ов на SM (64 warp`а) и максимальное количество регистров (255 регистров) остались прежними. Максимальное количество блоков на потоковый мультипроцессор SMM удвоилось до 32, что должно привести к автоматическому увеличению загрузки для ядер, которые использую малый размер блока – 64 или меньше – в предположении, что регистры и разделяемая память не ограничивают загрузку мультипроцессора.

  • Уменьшены задержки при выполнении арифметических инструкций

    Еще одним значительным преимуществом SMM является уменьшение задержек выполнения арифметических инструкций. Так как загрузка мультипроцессора (которая преобразуется в параллелизм на уровне warp`ов) у SMM такая же или лучше, чем у SMX, сокращенные задержки улучшают использование CUDA-ядер и повышают скорость работы ядра.

Увеличенная выделенная общая память

В архитектуре Maxwell предусмотрено 64 кбайт разделяемой памяти, в то время как в Fermi или Kepler эта память делится между L1-кэшом и разделяемой памятью. В Maxwell один блок по-прежнему может использовать до 48 кбайт разделяемой памяти, причем увеличение общего объема разделяемой памяти может привести к увеличению загрузки мультипроцессора. Это стало возможным благодаря объединению функциональности L1-кэша и текстурного-кэша в отдельном блоке.

Быстрые атомарные операции в разделяемой памяти

В архитектуре Maxwell появились встроенные атомарные операции над 32-битными целыми числами в разделяемой памяти, а также CAS-операции над 32-битными и 64-битными значениями в разделяемой памяти – с помощью них можно реализовать другие атомарные функции. В случае Kepler и Fermi приходилось использовать сложный принцип "Lock/Update/Unlock", что приводило к дополнительным издержкам.

Динамический параллелизм

Динамический параллелизм, появившийся в Kepler GK110, позволяет GPU самому создавать задачи для себя. Поддержка этой функции была впервые добавлена в CUDA 5.0, позволяя нитям на GK110 запускать дополнительные ядра на том же GPU.

Теперь динамический параллелизм поддерживается во всей продуктовой линейке, включая даже такие экономичные чипы, как GM107. Разработчикам это на руку, так как теперь для приложений не требуется создавать специальные алгоритмы для high-end GPU, отличающиеся от тех, которые используются на графических процессорах более низкого уровня.

Подробнее о программировании Maxwell

Подробнее об архитектуре и оптимизации кода под Maxwell смотрите в Руководстве по настройке Maxwell и Руководстве по совместимости Maxwell, которые уже доступны для зарегистрированных разработчиков CUDA. Авторизуйтесь или бесплатно вступайте в сообщество уже сегодня.

13 марта 2014 Г.

08:00

Ctrl
ПредыдущаяСледующая

Все новости за сегодня

Блок питания FSP FSP2000-A0AGPBI мощностью 2000 Вт имеет сертификат 80 Plus Platinum: Кабельная система FSP2000-A0AGPBI — полностью модульная10

Представлена системная плата Gigabyte X299 Aorus Gaming 7 Pro: Цену новинки производитель не называет7

Asus готовит ноутбук-трансформер TP370QL на платформе Snapdragon и под управлением Windows 10: Asus TP370QL получит 13-дюймовый дисплей5

В базе данных ЕЭК замечены камеры Canon EOS 2000D, 3000D, 4000D и M50: Выпуск камер Canon EOS 2000D, 3000D, 4000D и M50 можно ожидать в начале будущего года1

Смартфоны Google Pixel научились более точно прогнозировать время работы без подзарядки: Прогноз по времени работы вы найдете в соответствующем разделе настроек смартфона6

Цена грузовика Tesla Semi приятно удивила специалистов: В продажу Tesla Semi поступит в 2019 году62

Назван срок «ожидаемой доступности» объектива Sony FE 400mm F2.8 GM OSS: К сожалению, цена новинки пока остается неизвестной8

Обновление BIOS для системных плат ASUS подтвердило скорый выход процессоров Raven Ridge и Pinnacle Ridge: Выход этих процессоров ожидается не позднее февраля 2018 года3

Агроэлектрификация: в Германии представлен электрический трактор Fendt e100 Vario: Массовое производство Fendt e100 Vario начнется только через год55

Samsung Electronics создаст центр разработки искусственного интеллекта: Где будет расположен новый исследовательский центр — пока неизвестно24

Беззеркальная камера Leica CL оснащена электронным видоискателем и поддерживает запись видео 4K: Leica CL на родине оценена в 2500 евро12

В Бразилии цена iPhone X начинается с отметки $2170: Столь высокая цена в Бразилии, в частности, объясняется 60-процентным налогом на импортированные товары стоимостью до $3000 26

Экран смартфона Samsung Galaxy S9 будет занимать 90% лицевой панели: Автор слуха утверждает, что нижняя рамка дисплея смартфона практически полностью исчезнет71

Цены на оперативную память увеличатся на 10-15% в текущем квартале: Компании Nanya Technology и Winbond Electronics благодаря росту цен на оперативную памяти смогли попасть в пятерку лучших поставщиков DRAM13

Consumer Report поставила максимальные 100 баллов кухонным плитам Samsung: Обозреватели, в частности, выделили светодиодную систему виртуального пламени, которая имитирует горение газовой конфорки59

Работа камеры OnePlus 5T будет улучшена при помощи обновления ПО: К сожалению, сроки выпуска обновления пока не сообщаются3

Бюджетный смартфон Uhans i8 получил систему распознавания лиц пользователей: Цена Uhans I8 составляет 130 долларов2

Экшн-камера MGCool Explorer 3 будет поддерживать запись видео разрешением 4К при 30 к/с: При помощи специального чехла камера сможет выдерживать погружения на глубину до 30 м2

Eluga C — первый «полноэкранный» смартфон Panasonic: Над дисплеем находится только вырез громкоговорителя, а фронтальная камера переместилась на нижнюю панель7

Смартфон 360 N6 Pro может получить второй экран и два дактилоскопических датчика: Анонс новинки состоится 28 ноября4

Производитель называет Vernee Active лучшим защищенным смартфоном на рынке: Vernee Active оснащен аккумулятором емкостью 4200 мА•ч, разъемом USB-С, модулем NFC, поддерживается 18-ваттная быстрая зарядка6

997
1318

iXBT TV

  • Робот-гимнаст, неудачи Microsoft, переносы Apple, электрический трактор

  • Обзор проекционного документ-сканера Doko BS16

  • Обзор материнской платы Z370 Aorus Gaming 7 под процессоры Coffee Lake

  • Обзор аккумуляторной дрели-шуруповерта Bosch GSR 12V-15 FC Professional

  • Заводские экзоскелеты, обновление Firefox, слишком умные наушники

  • Репортаж с конференции Supercomputing 2017 (SC17), день 3: стенд группы компаний РСК

  • Репортаж с конференции Supercomputing 2017 (SC17), день 2: стенд Intel

  • Репортаж с конференции Supercomputing 2017 (SC17), день 1: рейтинг Top500

  • Обзор кинотеатрального DLP-проектора LG PF1000U со встроенным ТВ-тюнером

  • Камера Panasonic G9, унитазный робот, игровой смартфон, кепка для водителей

  • Обзор портативной беспроводной колонки Sven PS-460

  • Обзор напольного пылесоса Tefal Silence Force 4A TW6477 с одноразовыми мешками для сбора мусора

1212

Календарь

март
Пн
Вт
Ср
Чт
Пт
Сб
Вс

Рекомендуем почитать