Производитель Gemini APU заявляет о 100-кратно большей скорости в сравнении с CPU Xeon для БД (перевод статьи Chris Mellor)

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Обычный топик | Сетевое оборудование

В статье приведен краткий обзор нейросетевого процессора Gemini APU от GSI Technology и его сравнение с наиболее популярными процессорами для машинного зрения.

Автор: Chris Mellor
Перевод: Евгений Павлюкович

Поиск похожих объектов является основной задачей в анализе БД. Ввиду большого объема неструктурированной информации достичь необходимой скорости на традиционных процессорах с последовательным вычислением в ядрах практически невозможно.

В основе решения этой задачи лежит принцип побитового анализа миллионов или даже миллиардов характеристических векторов различных объектов, предварительно записанных в БД, с целью поиска похожих. Примеры задач: распознавание лиц, определение последовательности ДНК, молекулярный поиск в хемоинформатике и разработка лекарств, алгоритм криптографического хеширования SHA-1, обработка естественного языка (NLP). Библиотека FAISS от Facebook* является хорошим примером реализации такой задачи.

Традиционно для поиска похожих объектов используются Xeon CPU и GPU. Однако, они не предназначены для этого и имеют узкую шины данных к памяти.

Xeon CPU может выполнять только последовательный поиск одной записи в каждом ядре.  Для выполнения поиска CPU подгружает небольшую порцию данных из памяти, и каждое ядро сравнивает новый объект с объектами из этой порции. Однако,  если необходимо распознать объекты по изображению, БД может содержать миллиарды записей, в которой поиск займет очень много времени. Кроме этого, CPU потребляет много электроэнергии.

Несмотря на то, что в Nvidia GPU ядер значительно больше, нам все равно придется долго ждать результатов сравнения, особенно, когда БД приближается к миллиарду объектов.

Изложенную выше проблему озвучил производитель микросхем памяти GSI Technology из Кремниевой долины США, который разработал технологию параллельной обработки, предназначенную исключительно для поиска похожих объектов. Компания заявляет, что их ассоциативный процессор Gemini APU выполняет поиск сходств в приложениях c большой БД в сотни раз быстрее, чем Xeon CPU. Энергопотребление при этом на 70% меньше.

Рисунок 1. – Сравнение между Xeon CPU и Gemini APU от GSI Technology.

Вычислительные блоки APU распределены непосредственно в массиве ячеек памяти, благодаря чему они могут работать параллельно. Таким образом, нет необходимости в перемещении данных из внешней памяти в процессор, как это происходит в Xeon CPU, где данные постоянно мигрируют из кэша L3 в L2 и L1.

Процессор Gemini APU по своей сути является вычислительным модулем, предназначенным для разгрузки основного процессора сервера от выполнения большого количества однотипных операций, освобождая его для более сложных задач. Gemini APU выполняет поиск в БД значительно быстрее, чем х86 процессор.

Согласно информации, предоставленной GSI, для распознавания лица в БД из 1 млрд. записей четырем процессорам Gemini APU понадобилось всего 1.25 мс. При этом длина характеристических векторов была довольно большой и содержала 768 бит, хешированных из 96 признаков лица. Для решения этой же задачи серверу на базе Xeon CPU без APU потребовалось 125 мс.

Компания утверждает, что 1U сервер с шестнадцатью Gemini APU процессорами выполняет 5.4 млн. хеширований за одну секунду для алгоритма SHA-1 256-бит. Этот результат лучше, чем у 4U сервера с восьмью модулями Nvidia V100. При этом потребляемая мощность сервера с Gemini APU в два ниже.

Архитектура APU процессора

Архитектура Gemini APU состоит из ячеек SRAM памяти и двух миллионов псевдопроцессоров для выполнения математических функций. SRAM – это сверхоперативное запоминающее устройство, которое значительно быстрее, но и дороже, чем DDR память.

GSI интегрировала двоичные вычислительные блоки в линии чтение-изменение-запись SRAM памяти, что позволило всем псевдопроцессорам работать параллельно.

Рисунок 2. – Архитектура Gemini APU.

В процессоре Gemini APU данные напрямую подаются из памяти в рядом расположенные вычислительные блоки, а объект поиска загружается сразу во все псевдопроцессоры. Затем выполняется одновременный поиск расстояний Хэмминга* во всех двух миллионах псевдопроцессорах. Благодаря тому, что внутри Gemini APU содержится настолько много псевдопроцессоров, его скорость значительно выше, чем у 28 ядерного Xeon, выполняющего ту же самую работу.

Процессор Gemini может обрабатывать два миллиона двоичных вычислений на частоте 400 МГц c полосой пропускания памяти 26 ТБ/с. В то время как Xeon 8280 может обрабатывать 28х2х512 бит на частоте 2.7 ГГц с 1 TБ/c. шиной данных к памяти.

 Gemini APUXeon 8280Nvidia A100GraphcoreПЛИС VU13P
Количество ядер2 млн. х 1 бит28 х 2х512 бит104 х 4096 бит1216 х 64 бит12288 DSP
Частота тактирования, ГГц0,42,71,41,60,775
Вычислительная мощность, TOPS2510751633
Объем кэша, МБайтL1: 12L3: 38,5L2: 40L1: 300L1: 12
Полоса пропускания памяти, ТБайт/с26171617
Тепловой пакет, Вт60205400150225

Таблица 1. – Сравнительная таблица вычислителей, опубликованная GSI в официальных документах.

Nvidia A100 GPU может вычислять 104х4096 бит данных на частоте 1.4 ГГц и обеспечивает шину к памяти 7 ТБ/с, которая значительно уже шины Gemini APU.

*Расстояние Хэмминга

Когда компьютер выполняет поиск, он обрабатывает запросы, представленные в виде бинарных векторов. Задача заключается в поиске таких же или похожих векторов из БД. Степень похожести определяться количеством отличных друг от друга бит.

Например, у нас есть два вектора одинаковой длины 1101 1001 и 1001 1101. Сложив их, мы получим новый вектор 0100 0100. Новый вектор содержит две единицы, соответственно расстояния Хэмминга равно 2. Очевидно, что чем меньшая длина векторов, тем большая вероятность того, что они будут похожими. Такой метод применяется для распознавания лиц, геномов, активных молекулярных веществ, а также в алгоритме хеширования SHA-1 и во многих других задачах.

  • * — Компания Meta (социальные сети Instagram и Facebook) - признана экстремистской организацией на территории Российской Федерации

Источник: DPU maker claims 100x speedup vs. Xeon for big data similarity search

Автор не входит в состав редакции iXBT.com (подробнее »)

Сейчас на главной

Новости

Публикации

Подложка под ламинат: как правильно выбрать типы и варианты для разных нужд

Ламинат давно занял своё место в рядах популярных напольных покрытий благодаря своей привлекательности, долговечности и простоте укладки. Однако мало кто знает, что истинный потенциал ламината...

«Неубиваемый» SLIM: японский модуль бросает вызов лунной ночи (и побеждает!)

В бескрайнем океане космоса, где царит вечная тишина и холод, маленькое устройство, созданное человеческими руками, одержало победу над суровыми условиями. Японский лунный модуль SLIM, словно герой...

Можно ли использовать воду вместо воздуха в автомобильных шинах?

Не секрет, что абсолютное большинство шин для автомобилей наполняются воздухом. Однако у вас может возникнуть вопрос: существуют ли альтернативы этому газу? Могут ли шины быть наполнены...

Как выбрать карту памяти для вашего смартфона или другой техники

Если вы уже принялись выбирать карту памяти для вашего смартфона или другой техники, то, наверное, обратили внимание, что выбор довольно широкий, и речь не только об объёме памяти. Ещё следует...

Безопасная езда: новые дорожные знаки, которые скоро появятся на дорогах

С каждым годом дорожных знаков становится все больше — все для того, чтобы улучшить безопасность на дорогах. Сегодня я хочу поделиться с автолюбителями и всеми водителями и пешеходами...

Хлеб из мух: новый суперфуд или маркетинговый ход?

Пищевая промышленность постоянно находится в поиске новых источников белка, и в последнее время внимание приковано к нетрадиционным вариантам. Одним из таких вариантов являются насекомые, а именно,...