Аудитория iXBT.com задаёт вопросы компании Intel


 Слушать подкаст

Тема беседы: «Высокопроизводительные решения и суперкомпьютеры: будущее начинается сегодня»

Сегодня высокопроизводительные решения (НРС) приобретают все более важное значение.

Казалось бы, сравнительно недавно суперкомпьютеры преодолели планку производительности в один терафлопс (триллион операций с плавающей запятой в секунду), а уже не за горами эра петафлопс (квадриллион, или 1015 операций с плавающей запятой в секунду). Первые пета-суперкомпьютеры, по прогнозам экспертов, появятся в 2008-2009 годах, в Европе уже стартовала подготовка к нескольким пета-проектам. Между тем Россия, успешно начавшая инвестировать в разработку и строительство высокопроизводительных систем, имеет всешансы к концу десятилетия прочно утвердиться в престижном мировом списке самых мощных суперкомпьютеров ТОР500.

На данный момент наша страна представлена в рейтинге 4 системами. Американский профессор и писатель Стив Чен попытался рассчитать, какая производительность необходима для решения различных задач будущего. По его мнению, для задач аэродинамики хватит производительности в несколько петафлопсов, для задач молекулярной динамики требуется уже 20 петафлопсов, а для вычислительной космологии — фантастическая производительность на уровне 10 экзафлопсов (10 квинтиллионов флопсов, или 10×1018 флопс). Для задач вычислительной химии потребуются еще более мощные суперкомпьютеры. По мнению Стива Павловского, старшего заслуженного инженера-исследователя Intel, главного директора по технологиям и генерального менеджера по архитектуре и планированию подразделения Digital Enterprise Group корпорации Intel, появление компьютеров с производительностью в секстиллион операций в секунду (1021 флопс) можно ожидать уже к 2029 году.

Что лежит в основе НРС решений? Какие платформы применяются для их построения, как пишется для них ПО? Каков расклад на современном рынке высокопроизводительных решений и каковы последние тенденции? Какие страны являются законодателями мод в области НРС?

На эти и многие другие вопросы читателям iXBT.com отвечали эксперты корпорации Intel — директор по развитию рынка НРС решений в финансовой сфере Николай Местер


и руководитель службы технического маркетинга Intel в регионе ЕМЕА Андрей Семин.

Чтобы задать вопрос, необходимо было сформулировать его и оставить в виде одной из тем в специальном форуме нашей конференции.



1. Gromit: Сопроцессор (возможно интегрированный в основной процессор) для работы с векторами, матрицами, физикой?

Андрей Сёмин: На сегодняшний день существует множество различных ускорителей, некоторые из которых весьма популярны для решения описанных в вопросе задач. Для примера можно привести ускорители компании ClearSpeed, которые, по сути, являются массивом вычислительных ядер, и, в отличие от GPU, поддерживают стандарт IEEE 754 вычислений с плавающей запятой двойной точности. Также стоит упомянуть, что Intel разрабатывает интегрированную систему на чипе с кодовым именем Tolapai для ускорения криптографических вычислений.

Можно приводить еще примеры, но хотелось бы осветить общую позицию Intel в данном вопросе: в ближайшее время Intel не собирается выпускать специализированные ускорители, интегрированные на кристалле, хотя мы рассматриваем такие варианты на будущее (как, например, ускоритель Intel QuickAssist в составе упомянутой «системы-на-чипе» Tolapai). Сегодня мы концентрируемся на обеспечении эффективного метода подключения ускорителей. В нашем подходе можно разделить ускорители на два типа — с точки зрения метода их подключения:

1. Через интерфейс PCI Express.
2. Подключаемые к шине процессора.

К первому классу относятся упомянутые ускорители ClearSpeed, графические ускорители различных производителей, FPGA (Field Programmable Gate Array), подключаемые к PCIe, и пр. Развитие интерфейса подключения с использованием PCI Express ведется Intel совместно с другими компаниями и PCI-SIG. Ко второму относятся, например, FPGA нескольких производителей Nallatech, Altera, которые сегодня предлагают FPGA, подключаемые в сокет процессора. FPGA можно использовать для программирования необходимых функций. В данном контексте Intel лицензировала шину для нескольких производителей FPGA.

Кроме этого, при подключении ускорителя немаловажным является простота его программирования, а также открытость и переносимость интерфейса программирования и его независимость от конкретного производителя ускорителя. Для обеспечения такого интерфейс Intel предлагает программный уровень абстракции для ускорителей как часть технологии QuickAssist (Intel QuickAssist Technology Accelerator Abstraction Layer (AAL)). Более подробную информацию по AAL можно посмотреть здесь.

В дополнение по этой теме можно почитать описание технологии Geneseo на русскоязычном сайте Intel, или на английском языкездесь).

2. Илья_086: Распределение памяти в SMP системах.

Андрей Сёмин: Да, при использовании предложенной конфигурации и 64-битного приложения задача может получить требуемые 12 ГБ памяти. В случае, если приложение не использует более одного потока, то будет достаточно одного процессора. Если есть желание, то мы можем организовать удаленный доступ к похожей системе с платой Intel S5000XAL (Intel 5000X chipset) и 16 ГБ УЗУ, которых должно быть достаточно для проверки работоспособности вашей задачи.

В принципе, если есть время и желание, а также доступ к исходному коду приложения, то рекомендуется рассмотреть варианты распараллеливания кода для более эффективного использования ресурсов многоядерных процессоров.

3. Андрей Кочин: Аппаратные ускорители расчетов, QuickPath, Geneseo, Torrenza, FPGA на шине Xeon…

Андрей Сёмин: Да, Intel непосредственно разрабатывает устройства, которые можно отнести к классу аппаратных ускорителей расчетов. Хорошим примером является анонсированный недавно проект Tolapai — интегрированная система с ускорителем криптографических задач.

Обычно сдерживающим фактором развития той или иной технологии является ее применимость и полезность. Если ускорители находят применение, то они развиваются, и если проникновение ускорителей становится достаточно большим и потребность в интеграции становится экономически целесообразной, то происходит интеграция функций. Можно посмотреть на историю x87-устройств, которые достаточно долго (по меркам компьютерной индустрии) были внешними устройствами, и были интегрированы на процессоры x86-архитектуры лишь тогда, когда потребность в них перестала быть спорным вопросом.

Многие факторы, ограничивающие развитие ускорителей, связаны, прежде всего, с самими ускорителями — они, зачастую, слишком дороги и поэтому экономически неэффективны, а дороги они потому, что их мало продается, а их продается мало, потому что они специализированы только для узкого спектра задач, и их достаточно сложно программировать. Соответственно, если поискать по веб-сайтам компаний, производящих ускорители, то можно найти упоминания 10- и 100-кратных ускорений (надо только убедиться, что сравнивают с современными процессорами, а не 3-летней давности). Исходя из моего опыта общения с людьми, которые рассматривают переход на специализированные ускорители, они серьезно задумываются над инвестициями в перенос приложения, если ускорение превышает 10 раз. Если ускорение меньше, то для них будет дешевле подождать прироста производительности ЦПУ в соответствии с законом Мура, чем инвестировать 2-4 года в перенос ПО, его отладку, и пр., и потом «заработать» необходимость поддерживать дополнительную реализацию ПО или начать перенос на следующее поколение ускорителей.

Про участие российских исследовательских центров Intel ответить сложно: группы имеют специализацию в широком спектре вопросов и интегрированы в различные проекты, что делает вполне вероятным их участие в работах, связанных с ускорителями.

4. alph@: Многоядерность и/или многопроцессорность?

Андрей Сёмин: Вопрос действительно актуальный, так как обеспечение быстрого доступа к данным при увеличении производительности процессора необходим для обеспечения сбалансированности платформы в целом. Во многом появление кэш-памяти было продиктовано именно такой необходимостью, и можно ожидать, что поддержка иерархии кэш-памяти на кристалле продолжится; в то же время будет продолжено развитие подсистемы ввода-вывода: скоро появятся системы PCI Express второго поколения, которые в 2 раза быстрее, чем существующие системы PCI Express первого поколения. Ведутся работы над PCIe v3. Развитие этих технологий обеспечит сбалансированность платформ в будущем — как минимум, можно с уверенность говорить о периоде до достижения технологического предела многоядерности.

Дальше прогнозировать сложно, так как возможных путей развития технологий множество, и сегодня, наверное, никто не сможет с уверенностью сказать какая технология окажется наилучшей. В Intel есть несколько проектов, один из наиболее перспективных — это Silicon Photonics, который позволит совместно использовать вычислители, реализованные с использованием кремния, и транспорт с использованием света, обходящий ограничения сегодняшних медных соединений.

5. Shams: Кластер из компьютеров Intel и специализированных вычислителей

Андрей Сёмин: Да, возможно построение гибридных кластеров на базе серверов с процессорами Intel.

Принципиально видится два метода подключения ускорителей в платформе:

1. Через интерфейс PCI Express.
2. К шине процессора.

К первому классу относятся уопмянутые ускорители ClearSpeed, графические ускорители различных производителей, FPGA (Field Programmable Gate Array), подключенные к PCIe, и пр. Ко второму относятся, например, FPGA нескольких производителей (Nallatech, Altera), которые сегодня предлагают FPGA, подключаемые в сокет процессора. Например в один из сокетов 2-процессорной серверной платы можно вставить модуль XD2000i от Altera, FPGA можно использовать для программирования необходимых функций.

Для устройств, подключенных к шине процессора, «расходы» ресурса на синхронизацию соизмеримы с расходами между процессорами в сервере. Накладные расходы на синхронизацию устройств, подсоединяемых к PCI Express, будут выше, так как устройства «общаются» с использованием механизма PCI.

6. gentoorion: 3 вопроса Intel

1. В феврале этого года Intel продемонстрировала процессор с 80 ядрами, 3.16 GHz. Существует ли прогноз, когда Intel продемонстрирует контроллер памяти, способный «накормить» этот процессор?
2. Анализируя последний список top500 (июнь 2007) нельзя не обратить внимание на огромное количество систем в нижней части списка, построенных, по сути, на обычном Gigabit Ethernet вместо специализированных решений, типа Myrinet или Infiniband. Да, эффективность (Rmax/Rpeak) этих систем не 0,7, а 0,63-0,65, но и оборудование для Gigabit Ethernet не будет стоить до 20% от стоимости узлов. Я понимаю, что HPL не отражает в полной мере особенности архитектур с распределенной оперативной памятью. Однако, можно констатировать, что «враг у ворот». Как планирует Intel ответить на этот вызов?
3. Если посмотреть на историю развития вычислительной техники, то HPC традиционно была уделом «больших мальчиков» типа IBM, DEC, Sun. Intel же начинала с «несерьезных» офисных машин. Еще в 80-е Intel и HPC рядом бы никому не пригрезились. Но произошло, то что произошло. Обычный сапожник научился точать сапоги гораздо лучше, чем императорские сапожники. И сейчас он во главе цеха. Совершенно заслужено. Однако, появились новые обычные сапожники. Они делают совершенно несерьезные вещи — видеоприставки для сопливых детишек, и эти устройства все отчетливее вырисовываются как новое слово в нише параллельных вычислений, а значит HPC. Ведь самый массовый спрос на параллельные вычисления сейчас находится в сегменте real time computer graphics. А теперь вопрос — а почему Intel отсутствует в этом сегменте? Ведь у какой компании как не Intel есть все, чтобы туда внедриться.

Андрей Сёмин: Совместно с демонстрацией чипа, достигающего терафлопа производительности, мы анонсировали технологию 3D Stacked Memory, позволяющую достичь сбалансированной производительности подсистемы памяти (соотношение Byte/FLOP), а также последние достижения в рамках технологии Silicon Photonic для построения сбалансированной системы ввода-вывода. Таким образом, хотелось бы подчеркнуть, что исследования ведутся не только в направлении наращивания вычислительного потенциала процессора, но и обеспечения эффективного и сбалансированного доступа к памяти и вводу-выводу.

К сожалению не совсем понятен второй вопрос. Действительно, из последнего списка «выпали» 285 систем (то есть больше половины), что во многом объясняется притоком большого количества кластеров на 2- и 4-ядерных процессорах Intel Xeon 5100 и 5300 серий. При этом общее количество систем на базе Intel выросло на 26 систем и составило 289. Также в текущем списке более половины (174) систем на базе процессоров Intel расположены в верхней половине списка. Следует отметить, что рост количества суперкомпьютерных систем на базе кластерных технологий, используемых, в частности, для решения задач визуализации, продолжается.

7. nexERR: Распределенные вычисления и Intel

Андрей Сёмин: Да, разработки ведутся, и для начала я бы порекомендовал посетить наш сайт, посвященный программе Tera-Scale Computing. Я отвечал на несколько вопросов, касающихся ускорителей, ранее, но есть несколько моментов, на которых, наверное, надо остановиться подробнее:

    — высокопроизводительные вычисление требуют элементарной защиты от сбоев — такой, как проверка четности и ECC. Intel разрабатывает и является одним из лидирующих производителей графических адаптеров, но не позиционирует их для решения HPC задач. Многие графические процессоры для ПК или приставок не только не обладают встронной поддержкой вычислений с двойной точностью (что чаще встречается в HPC, чем в видео-играх), но и простой проверки вычислений по четности и ECC. В частности, это может приводить к результатам операции 2,0+2,0=5,0. В игре вы, скорее всего, не заметите этой ошибки, а вот последствия от таких ошибок при проектировании прочности самолета могут быть фатальными.
    — простота и доступность программирования. Залогом успеха эффективного применения продукта (будь то процессор или спец ускоритель) является простота его программирования. Если потребуется 2 года на перенос кода на ускоритель и отладку для достижения двукратного прироста производительности, то проще просто купить новый х86 процессор через два года. Сравните упомянутый Pentium 4 631 (3,0 ГГц) и Core 2 Quad Q6600: более чем двукратный прирост производительности по SPEC CPU2000 FP Rates (взят 2000, так как результаты опубликованы для обоих процессоров на SPEC.org). Все, что потребовалось, это перекомпилировать тест SPEC CPU2000. Для большинства ускорителей такой простой тестовый набор, как SPEC CPU, является непосильной задачей.

Про тепловыделение: всегда есть баланс между тепловыделением и производительностью. Если говорить про сегодняшний день или не совсем далекое будущее, то предложения в нашей продуктовой линейке варьируются от процессоров, позволяющих получать наилучшую производительность (например 48 GLOPS peak при 3,0 ГГц) при 80W TDP, до ~3 GFLOPS при всего нескольких ваттах.

8. Disciples: Pthreads vs OpenMP

Андрей Сёмин: OpenMP является одним, но не единственным способом реализации многопоточности. Кроме OpenMP или интерфейсов операционной системы (потоки Win32, Posix) можно использовать многопоточность, встроенную в библиотеки (например Intel MKL, IPP), или, для приложений написанных на C++, использовать Open Source библиотеку Intel Threading Building Blocks или здесь.

Ключевой проблемой реализации многопоточности является реализация эффективной синхронизации потоков. В этой связи рекомендую обратить внимание на технологию Software Transactional Memory. Экспериментальная версия компилятора и описание этой технологии доступны на сайте или здесь.

9. Vogt: Доступность НРС

Николай Местер: Проще всего ответить для себя на этот вопрос, если идти от самой задачи — зачем вам НРС в вузе. Это может быть:

  • обучение студентов,
  • выполнение простейших НИРов и НИОКРов силами студентов и/или аспирантов
  • ведение серьезной научной деятельности силами кафедр по заказам внешних организаций.

Задачи, выполняемые вузом, и определяют понятие достаточного размера НРС системы. Так например, для начала обучения студентов по курсу параллельных вычислений вполне достаточно 4-8 систем, собранных в кластер; для более серьезных расчетов это может быть 8-16, 100, 1000 систем, работающих параллельно.

Хочу отметить, что динамика роста производительности процессоров и, соответственно, систем привела к тому, что относительно серьезную систему производительностью в 1 Тфлопс можно собрать всего на 16 двухпроцессорных серверах с четырехъядерной архитектурой Intel (Intel Xeon 5365) — в 2005 году для этого тербовалось около сотни двухпроцессорных серверов. Соответственно стоимость терафлопса стремительно идет вниз, приближаясь к $120-150.000 долларов за терафлопс (включая сервера, системы хранения и межсоединения). Поэтому НРС-системы становятся вполне по карману многим вузам, и, как показали многие проекты в сфере образования, кластры на 4-8Тфлопс становятся повседневной реальностью в вузах России в 2007 году.

В случае некоторых сомнений со стороны руководства вуза или научной организации в необходимости инвестировать средства в НРС систему, Intel совместно с рядом учреждений развивает программы (в том числе и государственные) по созданию средств коллективного доступа к основным НРС ресурсам. В частности, инициатива СКИФ-Полигон — объединение крупнейших образовательных НРС-систем страны в единую GRID-сеть — дает возможность вузу или научной организации получить доступ к серьезному ресурсу для решения своих задач. И эта возможность — не единственная. Если эта тема заинтересовала вас всерьез, вы можете обратиться непосредственно ко мне и мы поможем найти решение вашей проблемы.

10. Ralari: Каковы перспективы развития семейства процессоров Itanium и архитектуры EPIC?

Николай Местер: Если отвечать на вопрос про перспективы Intel Itanium кратко, то ответ будет простой — перспективы весьма хорошие. Архитектура является перспективной, открытой и имеющей множество приверженцев как в среде производителей (более 10 крупнейших вендоров) и разработчиков ПО (более 12000 приложений), так и в среде потребителей (более 200 крупных инсталляций на территории России и 75 из 100 компаний списка Fortune 100).

Теперь в деталях про RISC, x86 и Intel Itanium. Как всегда — нужно идти от задачи. Что является целевым сегментом для данного подукта? Целевой сегмент Itanium — это решения для больших и сверхбольших масштабируемых вычислительных систем с высоким и высочайшим уровнем надежности (mission critical application), так называемый back-end центров обработки данных. Именно этот сегмент ранее был занят системами на базе RISC и mainframe. Размер сегмента оценивался в 21 млрд долларов.

Сегмент инфраструктурных серверов, средних и больших СУБД вполне прочно занят архитектурой x86, вытеснять которую смысла не имеет ввиду того, что Intel весьма успешно предлагает для этого сегмента линейку продуктов Intel Xeon.

Основной идеей, лежащей в основе Itanium, была и остается идея явного массивного параллелизма — EPIC. Это именно то, что помогает существенно ускорить выполнение операций в среде транзакционных и аналитических задач — отсюда и подход: много исполняемых инструкций за такт, большой кэш для хранения данных на одном кристалле с вычислительными ядрами процессора и т. д. Как результат мы имеем около 1,72 млрд транзисторов на кристале. Это явный и несомненный рекорд в микроэлектронике, так как решены многие научно-технические задачи, и продукт с таким количеством транзисторов выведен в успешное массовое промышленное производство. TDP в 104 вт является прямым следствием выбранного подхода — да, транзисторы потребляют и выделяют энергию, однако Intel усиленно работает в направлении снижения средней потребляемой энергии. Уже внедрена технология Demand Base Switching, анонсированная в продуктах серии Intel Itanium 9100, а изменение техпроцесса на 65нм и, соответственно, уменьшение потребления энергии на ядро, будет сделано для следующего в линейке Itanium процессора, кодовое имя которого Tukwila. Далее мы планируем увеличение количества ядер в продукте, определенное повышение частоты ядер, переход на общую архитектуру внутренних межсоединений Intel Quick Path Interconnect c Intel Xeon. Сейчас Intel объявил о разработке уже 9-го поколения процессоров линейки Intel Itanium — Kittson. Так что линейка процессоров чувствует себя уверенно, и архитектура Intel Itanium имеет прекрасную перспективу развития и использования.

Что касается упоминания архитектуры в новостях, то, если мы посмотрим в целом на принцип упоминания того или иного продукта, чаще всего пишут и обсуждают наиболее массовые и простые вещи, которые вызовут отклик максимально широкой аудитории. Решения на базе Intel Xeon — стоят на столе, под столом, в стойке практически на каждом предприятии начиная с 30-40 человек, а вот решения на базе Intel Itanium — это решения для крупных и мощных компаний, коих уже не десятки тысяч в стране, а сотни. Зато и инсталляции там серьезные — по 5-10 систем класса 64 и более процессоров в каждой системе (200-600 процессоров Intel Itanium в ЦОДе). Примерами таких компаний являются Мегафон с количеством абонентов в десятки миллонов, Альфа-банк с клиентской базой в миллоны физических лиц и другие компании — те, которым нужно ежесекундно, не прерываясь, максимально надежно обрабатывать терабайты информации о своих клиентах, сделках, бизнесе. Поэтому и аудитория для обсуждения Itanium — это аудитория серьезных профессионалов от ИТ, которые во многом работают напрямую с вендорами для получения самых новейших знаний о продуктах.

Имена и торговые марки являются собственностью законных владельцев.

Итак, время подводить итоги. Было нелегко определить наиболее интересный вопрос, но наши собеседники и редакция iXBT.com выделили вопрос Александра, участвующего в конференции iXBT.com под ником Gromit, Сопроцессор (возможно интегрированный в основной процессор) для работы с векторами, матрицами, физикой?.

Поздравляем нашего читателя! В редакции iXBT.com Александру был вручен приз — процессор Intel Core 2 Duo E6750.




Дополнительно

iXBT BRAND 2016

«iXBT Brand 2016» — Выбор читателей в номинации «Процессоры (CPU)»:
Подробнее с условиями участия в розыгрыше можно ознакомиться здесь. Текущие результаты опроса доступны тут.

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.