В погоне за ПетаФлопом


Включая свою персональную ЭВМ, усаживаясь за экран рабочей станции или за терминал суперкомпьютера, профессиональный пользователь рано или поздно приходит к выводу, что вычислительные возможности его электронного помощника ограничены. Физики и астрофизики, генетики и метеорологи, военные и контрразведчики все чаще сталкиваются с задачами, для решения которых требуется больше ресурсов, чем имеется в наличии на всем земном шаре.

Как панацея от неотвратимо надвигающегося мрака вычислительной беспомощности, на пороге XXI века появилось слово "petaflop" (петафлоп) — миллион миллиардов операций с плавающей запятой в секунду.

Задачи, эффективное решение которых под силу исключительно суперкомпьютеру с производительностью порядка одного петафлопа, распадаются на два класса: задачи с преобладанием целочисленных вычислений и задачи с преобладанием вычислений с плавающей запятой. В каждом классе, в свою очередь, легко выделить подклассы военно-прикладных и научно-практических приложений.

К первому классу относятся криптография (например взламывание кодов) и создание полноценного искусственного интеллекта, ко второму — моделирование ядерных взрывов, долгосрочный прогноз погоды и вычислительные задачи гидродинамики.

В США главным спонсором и заказчиком первого класса задач является Агенство национальной безопасности (АНБ), второго — Национальное аэрокосмическое управление (НАСА).

Противоречивые требования, предъявляемые заказчиками к суперкомпьютеру, приводят к необходимости проектирования ЭВМ общего назначения, хотя специализированные архитектуры (например, векторная) могли бы быть более эффективными для тех или иных приложений.

В настоящее время становится очевидным, что классические суперкомпьютеры достигли максимума производительности либо близки к нему. Использование глубокосубмикронных полупроводниковых технологий позволит увеличить тактовую частоту не более чем до 1-2 гигагерц. Так же очевидно, что путь к петафлопной супер-ЭВМ лежит через массированное распараллеливание вычислений. Одним из наиболее успешных шагов в этом напралении стало создание в Калифорнийском Технологическом Институте (CalTech, США) распределённого вычислительного комплекса "Беовульф", состоящего из кластера персональных ЭВМ, соединенных высокоскоростной специализированной сетью и оснащенных операционной системой Линукс.

Триумфальный успех, а также сравнительная дешевизна и простота изготовления комплекса привели к возникновению в американском истэблишменте "синдрома Беовульфа". В самом деле, комплекс типа "Беовульф" с производительностью, достаточной для военных и криптографических приложений, может быть собран из общедоступных компонент в любой стране мира, включая государства с репутацией "очагов международного терроризма" (Ирак, Ливия, Иран). Ситуация усугубляется тем, что комплектующие для персональных ЭВМ, используемые для сборки "Беовульфа", не попадают под экспортные ограничения правительства США, а также могут быть легко приобретены в третьих странах. Противовесом "Беовульфу" мог бы стать только суперкомпьютер, основанный на радикально иных принципах.

К несчастью для международных террористов, при всей своей привлекательности, у "Беовульфа" есть как минимум один серьезный недостаток. Простые оценки, основанные на анализе энерговыделения современных персональных ЭВМ и рабочих станций, показывают, что суперкомпьютер с производительностью 1 петафлоп, собранный из полупроводниковых микропроцесоров, будет потреблять мощность в 10 мегаватт. Учитывая, что для уменьшения времени распространения сигналов между процессорами и оперативной памятью суперкомпьютер должен быть плотно упакован в несколько кубометров пространства, легко предсказать, что через несколько минут работы он просто расплавится. Адекватная жидкостная система охлаждения могла бы обеспечить теплоотвод, однако ее геометрические размеры приводят к существенному увеличению задержек и количества параллельных процессов, необходимых для компенсации этих задержек. Это, в свою очередь, увеличивает мощность, потребляемую микропроцессорами и суперкомпьютером в целом. Казалось бы, что этот фундаментальный замкнутый круг ставит крест на возможности создания петафлопного суперкомпьютера.

Решение проблемы было предложено учеными Томасом Стерлингом и Полом Мессиной из Калифорнийского Технологического Института (Tomas Sterling, Paul Messina, Caltech, США), Гуаном Гао из университета Мак-Гилл (Guang Gao, McGill, Канада) и Константином Лихоревым из университета штата Нью-Йорк (Konstantin Likharev, SUNY, США). Ими была разработана принципиально новая архитектура будущего суперкомпьютера — Гибридно-технологическая Многопоточная Архитектура (ГТМПА; Hybrid Technology Multithreaded Architecture, HTMT). В основе ГТМПА лежит использование нетрадиционных технологий ("гибридность") и расщепление параллельных процессов на более мелкие независимые фрагменты: потоки и нити ("многопоточность").

За новым петафлопным суперкомпьютером закрепился термин "гиперкомпьютер", выделяющий его из семейства "младших братьев" (Cray, IBM и Silicon Graphics).

Для уменьшения энергопотребления и повышения тактовой частоты вычислительного ядра гиперкомпьютера кремниевые полупроводниковые микропроцессоры должны уступить место ниобиевым сверхпроводниковым, основанным на быстрой одноквантовой логике (БОК).

Единицей представления информации в БОК являются одиночные кванты магнитного потока (2,06*10-15 Вб). Кванты перемещаются от вентиля к вентилю микроскопическими токами, наводимыми такими же квантами в управляющих контурах. Характерная тактовая частота БОК устройств, изготовленных с применением архаичной 3,5-микронной технологии, составляет 20 гигагерц. Переход на более прогрессивную полумикронную технологию позволит поднять эту цифру до 100 ГГц. Мощность, потребляемая сверхпроводниковыми БОК схемами, мизерна. Несмотря на то, что для работы БОК устройств их необходимо охлаждать до температуры жидкого гелия (4-9 градусов Кельвина, или от минус 269 до минус 264 градусов Цельсия), полная мощность, потребляемая сверхпроводниковой подсистемой гиперкомпьютера с учетом криогенного оборудования, оценивается всего в 500 киловатт.

Устройства, основанные на БОК логике, являются также базовыми элементами сверхпроводниковых буферов памяти (СвОЗУ) и межпроцессорной пакетной сети. Сеть выполняет функции системной шины и позволяет передавать 1 петабайт информации в секунду, что превышает суммарный объём всех экземпляров книг на земном шаре.

Каждый из 4096 микропроцессоров аппаратно поддерживает 16 параллельных процессов ("потоков"). Каждому потоку предоставляется набор из шестидесяти четырех 64-битных регистров общего назначения, необходимые контрольные регистры и целочисленное АЛУ, образующие аппаратный контекст потока (АКП). Функциональные устройства с плавающей запятой и закрепленный за процессором буфер памяти (СвОЗУ) одинаково доступны для всех 16 потоков.

Многопоточная архитектура позволяет избегать простоев микропроцессора, вызванных обращениями к памяти, будь то СвОЗУ либо внешняя память: инструкции чтения из памяти и записи в память блокируют только те потоки, к которым они принадлежат, в то время как остальные потоки могут продолжать исполнение.

В составе каждого АКП имеются 8 программных счетчиков и 8 командных регистров для параллельного запуска и декодирования нескольких команд ("нитей"). Группа команд, принадлежащих одному потоку, но разным нитям, может быть запущена на исполнение параллельно, если операнды каждой из команд не являются результатами исполнения других команд из той же группы. Проверка независимости команд осуществляется апппаратно на этапе доступа к регистрам. Разделение потоков на нити, осуществляемое компилятором, увеличивает среднее число команд, исполняемых за один такт, и, следовательно, производительность процессора.

Ограниченный объем СвОЗУ (512 кбайт на процессор) и огромное время доступа к внешней памяти (несколько сот тактов) требуют тщательной организации данных в СвОЗУ. В идеале в СвОЗУ должны находиться все данные, которые могут потребоваться всем потокам, исполняемым в процессоре (фреймы потоков). Загрузка фреймов в СвОЗУ и выгрузка результатов вычислений в главную полупроводниковую память, расположенную вне гелиевого криостата, производится процессорами-в-памяти (ПВП; processor-in-memory, PIM).

Технология ПВП была разработана группой Питера Когге из университета Нотр-Дам (Peter Kogge, Notre Dame, США), ПВП состоит из одной или нескольких матриц памяти и микропроцессора типа RISC, расположенных на одной микросхеме. Процессор позволяет выполнять простые, но часто встречающиеся операции: сборка и разборка фреймов, индексированный доступ и доступ по указателю, обработка списков и т.п. Локализация этих операций в ПВП позволяет существенно ускорить доступ к оперативной памяти и уменьшить потоки данных между памятью и главными процессорами.

Необходимо отметить, что проект гиперкомпьютера предусматривает два типа полупроводниковой оперативной памяти: статическую (возможно, охлажденную до температуры жидкого азота, 77 градусов Кельвина) и динамическую. С точки зрения процессоров, вся память образует единое адресное пространство.

Важнейшей коммуникационной артерией гиперкомпьютера, используемой ПВП для формирования фреймов, является "Вихрь Данных" ("Data Vortex") — широкополосная оптическая многоступенчатая пакетная сеть. Эта сеть, создаваемая группой Коука Рида и Керен Бергман в Принстонском университете (Coke Reed, Keren Bergman, Princeton, США), соединяет друг с другом все банки динамической и статической полупроводниковой памяти.

Еще одна оптическая компонента гиперкомпьютера — голографическая память (Деметри Псалтис, Калифорнийский Технологический институт; Demetri Psaltis, Caltech, США). Один кристалл голографической памяти будет вмещать 1 гигабайт информации, которая может быть считана или записана в виде одномегабайтных страниц. Отличительной особенностью голографической памяти является ее нечувствительность к перебоям электропитания. Вероятно, голографические кристаллы будут выполнять те же функции, что и жесткие диски в современных компьютерах (например, виртуальная память и файловая система).

Несмотря на активно ведущиеся разработки и безусловно назревшую необходимость создания, будущее гиперкомпьютера в первую очередь зависит от бюджетного финансирования, то есть от настроений американских налогоплательщиков. Если наблюдающаяся в настоящее время благоприятная тенденция сохранится, то в 2007 году человечество, быть может, преодолеет очередной рубеж — рубеж петафлопных вычислений.




Дополнительно

Need for PetaFlop!

В погоне за ПетаФлопом

Включая свою персональную ЭВМ, усаживаясь за экран рабочей станции или за терминал суперкомпьютера, профессиональный пользователь рано или поздно приходит к выводу, что вычислительные возможности его электронного помощника ограничены. Физики и астрофизики, генетики и метеорологи, военные и контрразведчики все чаще сталкиваются с задачами, для решения которых требуется больше ресурсов, чем имеется в наличии на всем земном шаре.

Как панацея от неотвратимо надвигающегося мрака вычислительной беспомощности, на пороге XXI века появилось слово "petaflop" (петафлоп) — миллион миллиардов операций с плавающей запятой в секунду.

Задачи, эффективное решение которых под силу исключительно суперкомпьютеру с производительностью порядка одного петафлопа, распадаются на два класса: задачи с преобладанием целочисленных вычислений и задачи с преобладанием вычислений с плавающей запятой. В каждом классе, в свою очередь, легко выделить подклассы военно-прикладных и научно-практических приложений.

К первому классу относятся криптография (например взламывание кодов) и создание полноценного искусственного интеллекта, ко второму — моделирование ядерных взрывов, долгосрочный прогноз погоды и вычислительные задачи гидродинамики.

В США главным спонсором и заказчиком первого класса задач является Агенство национальной безопасности (АНБ), второго — Национальное аэрокосмическое управление (НАСА).

Противоречивые требования, предъявляемые заказчиками к суперкомпьютеру, приводят к необходимости проектирования ЭВМ общего назначения, хотя специализированные архитектуры (например, векторная) могли бы быть более эффективными для тех или иных приложений.

В настоящее время становится очевидным, что классические суперкомпьютеры достигли максимума производительности либо близки к нему. Использование глубокосубмикронных полупроводниковых технологий позволит увеличить тактовую частоту не более чем до 1-2 гигагерц. Так же очевидно, что путь к петафлопной супер-ЭВМ лежит через массированное распараллеливание вычислений. Одним из наиболее успешных шагов в этом напралении стало создание в Калифорнийском Технологическом Институте (CalTech, США) распределённого вычислительного комплекса "Беовульф", состоящего из кластера персональных ЭВМ, соединенных высокоскоростной специализированной сетью и оснащенных операционной системой Линукс.

Триумфальный успех, а также сравнительная дешевизна и простота изготовления комплекса привели к возникновению в американском истэблишменте "синдрома Беовульфа". В самом деле, комплекс типа "Беовульф" с производительностью, достаточной для военных и криптографических приложений, может быть собран из общедоступных компонент в любой стране мира, включая государства с репутацией "очагов международного терроризма" (Ирак, Ливия, Иран). Ситуация усугубляется тем, что комплектующие для персональных ЭВМ, используемые для сборки "Беовульфа", не попадают под экспортные ограничения правительства США, а также могут быть легко приобретены в третьих странах. Противовесом "Беовульфу" мог бы стать только суперкомпьютер, основанный на радикально иных принципах.

К несчастью для международных террористов, при всей своей привлекательности, у "Беовульфа" есть как минимум один серьезный недостаток. Простые оценки, основанные на анализе энерговыделения современных персональных ЭВМ и рабочих станций, показывают, что суперкомпьютер с производительностью 1 петафлоп, собранный из полупроводниковых микропроцесоров, будет потреблять мощность в 10 мегаватт. Учитывая, что для уменьшения времени распространения сигналов между процессорами и оперативной памятью суперкомпьютер должен быть плотно упакован в несколько кубометров пространства, легко предсказать, что через несколько минут работы он просто расплавится. Адекватная жидкостная система охлаждения могла бы обеспечить теплоотвод, однако ее геометрические размеры приводят к существенному увеличению задержек и количества параллельных процессов, необходимых для компенсации этих задержек. Это, в свою очередь, увеличивает мощность, потребляемую микропроцессорами и суперкомпьютером в целом. Казалось бы, что этот фундаментальный замкнутый круг ставит крест на возможности создания петафлопного суперкомпьютера.

Решение проблемы было предложено учеными Томасом Стерлингом и Полом Мессиной из Калифорнийского Технологического Института (Tomas Sterling, Paul Messina, Caltech, США), Гуаном Гао из университета Мак-Гилл (Guang Gao, McGill, Канада) и Константином Лихоревым из университета штата Нью-Йорк (Konstantin Likharev, SUNY, США). Ими была разработана принципиально новая архитектура будущего суперкомпьютера — Гибридно-технологическая Многопоточная Архитектура (ГТМПА; Hybrid Technology Multithreaded Architecture, HTMT). В основе ГТМПА лежит использование нетрадиционных технологий ("гибридность") и расщепление параллельных процессов на более мелкие независимые фрагменты: потоки и нити ("многопоточность").

За новым петафлопным суперкомпьютером закрепился термин "гиперкомпьютер", выделяющий его из семейства "младших братьев" (Cray, IBM и Silicon Graphics).

Для уменьшения энергопотребления и повышения тактовой частоты вычислительного ядра гиперкомпьютера кремниевые полупроводниковые микропроцессоры должны уступить место ниобиевым сверхпроводниковым, основанным на быстрой одноквантовой логике (БОК).

Единицей представления информации в БОК являются одиночные кванты магнитного потока (2,06*10-15 Вб). Кванты перемещаются от вентиля к вентилю микроскопическими токами, наводимыми такими же квантами в управляющих контурах. Характерная тактовая частота БОК устройств, изготовленных с применением архаичной 3,5-микронной технологии, составляет 20 гигагерц. Переход на более прогрессивную полумикронную технологию позволит поднять эту цифру до 100 ГГц. Мощность, потребляемая сверхпроводниковыми БОК схемами, мизерна. Несмотря на то, что для работы БОК устройств их необходимо охлаждать до температуры жидкого гелия (4-9 градусов Кельвина, или от минус 269 до минус 264 градусов Цельсия), полная мощность, потребляемая сверхпроводниковой подсистемой гиперкомпьютера с учетом криогенного оборудования, оценивается всего в 500 киловатт.

Устройства, основанные на БОК логике, являются также базовыми элементами сверхпроводниковых буферов памяти (СвОЗУ) и межпроцессорной пакетной сети. Сеть выполняет функции системной шины и позволяет передавать 1 петабайт информации в секунду, что превышает суммарный объём всех экземпляров книг на земном шаре.

Каждый из 4096 микропроцессоров аппаратно поддерживает 16 параллельных процессов ("потоков"). Каждому потоку предоставляется набор из шестидесяти четырех 64-битных регистров общего назначения, необходимые контрольные регистры и целочисленное АЛУ, образующие аппаратный контекст потока (АКП). Функциональные устройства с плавающей запятой и закрепленный за процессором буфер памяти (СвОЗУ) одинаково доступны для всех 16 потоков.

Многопоточная архитектура позволяет избегать простоев микропроцессора, вызванных обращениями к памяти, будь то СвОЗУ либо внешняя память: инструкции чтения из памяти и записи в память блокируют только те потоки, к которым они принадлежат, в то время как остальные потоки могут продолжать исполнение.

В составе каждого АКП имеются 8 программных счетчиков и 8 командных регистров для параллельного запуска и декодирования нескольких команд ("нитей"). Группа команд, принадлежащих одному потоку, но разным нитям, может быть запущена на исполнение параллельно, если операнды каждой из команд не являются результатами исполнения других команд из той же группы. Проверка независимости команд осуществляется апппаратно на этапе доступа к регистрам. Разделение потоков на нити, осуществляемое компилятором, увеличивает среднее число команд, исполняемых за один такт, и, следовательно, производительность процессора.

Ограниченный объем СвОЗУ (512 кбайт на процессор) и огромное время доступа к внешней памяти (несколько сот тактов) требуют тщательной организации данных в СвОЗУ. В идеале в СвОЗУ должны находиться все данные, которые могут потребоваться всем потокам, исполняемым в процессоре (фреймы потоков). Загрузка фреймов в СвОЗУ и выгрузка результатов вычислений в главную полупроводниковую память, расположенную вне гелиевого криостата, производится процессорами-в-памяти (ПВП; processor-in-memory, PIM).

Технология ПВП была разработана группой Питера Когге из университета Нотр-Дам (Peter Kogge, Notre Dame, США), ПВП состоит из одной или нескольких матриц памяти и микропроцессора типа RISC, расположенных на одной микросхеме. Процессор позволяет выполнять простые, но часто встречающиеся операции: сборка и разборка фреймов, индексированный доступ и доступ по указателю, обработка списков и т.п. Локализация этих операций в ПВП позволяет существенно ускорить доступ к оперативной памяти и уменьшить потоки данных между памятью и главными процессорами.

Необходимо отметить, что проект гиперкомпьютера предусматривает два типа полупроводниковой оперативной памяти: статическую (возможно, охлажденную до температуры жидкого азота, 77 градусов Кельвина) и динамическую. С точки зрения процессоров, вся память образует единое адресное пространство.

Важнейшей коммуникационной артерией гиперкомпьютера, используемой ПВП для формирования фреймов, является "Вихрь Данных" ("Data Vortex") — широкополосная оптическая многоступенчатая пакетная сеть. Эта сеть, создаваемая группой Коука Рида и Керен Бергман в Принстонском университете (Coke Reed, Keren Bergman, Princeton, США), соединяет друг с другом все банки динамической и статической полупроводниковой памяти.

Еще одна оптическая компонента гиперкомпьютера — голографическая память (Деметри Псалтис, Калифорнийский Технологический институт; Demetri Psaltis, Caltech, США). Один кристалл голографической памяти будет вмещать 1 гигабайт информации, которая может быть считана или записана в виде одномегабайтных страниц. Отличительной особенностью голографической памяти является ее нечувствительность к перебоям электропитания. Вероятно, голографические кристаллы будут выполнять те же функции, что и жесткие диски в современных компьютерах (например, виртуальная память и файловая система).

Несмотря на активно ведущиеся разработки и безусловно назревшую необходимость создания, будущее гиперкомпьютера в первую очередь зависит от бюджетного финансирования, то есть от настроений американских налогоплательщиков. Если наблюдающаяся в настоящее время благоприятная тенденция сохранится, то в 2007 году человечество, быть может, преодолеет очередной рубеж — рубеж петафлопных вычислений.