По полной программе. Суперкомпьютерам добавят эффективности.

Яркой солнечной погодой встретила столица Урала участников Международной научной конференции “Параллельные вычислительные технологии” (ПаВТ’2015). После ураганных ветров, терзавших восточноевропейскую часть России на прошлой неделе, и снежной пелены, никак не желавшей идти на убыль, столь теплый прием сразу настроил гостей Екатеринбурга на позитив и, конечно, на рабочий лад. Почти 200 участников ПаВТ’2015 — представители университетов, академических институтов и ИТ-бизнеса — собрались на площадке Уральского федерального университета им. первого Президента России Б.Н.Ельцина, чтобы обсудить перспективы развития параллельных вычислительных технологий, поделиться проблемами, которые мешают наиболее эффективно использовать мощности и возможности супервычислителей, а также представить коллегам результаты, полученные ведущими научными группами в использовании суперкомпьютерных технологий для решения самых разных задач.
ПаВТ’2015 стала девятой в серии ежегодных встреч профессионалов в области суперкомпьютинга, посвященных развитию и применению параллельных вычислительных технологий в различных областях. Напомним, ПаВТ — конференция “мигрирующая”: городами ее проведения в разные годы уже становились Москва, Санкт-Петербург, Челябинск, Уфа, Нижний Новгород, Новосибирск, Ростов-на-Дону. Именно такой формат проведения конференции позволяет наиболее эффективно вести диалог между научным сообществом, практиками — компаниями, работающими в сфере создания суперкомпьютерных вычислительных систем, программного обеспечения к ним, и потребителями того самого “суперпродукта”. Конференция имеет свои традиции: ее организаторами все годы выступают Суперкомпьютерный консорциум университетов России и Российская академия наук, поддержку в проведении встречи оказывает и Российский фонд фундаментальных исследований. Сохраняются традиции спонсорского участия в ПаВТ таких известных вендоров, как группы компаний РСК, “Т-Платформы”, корпораций Intel, Hewlett-Packard, NVIDIA, компании “Иммерс”…
Открывая конференцию, ректор УрФУ Виктор Кокшаров отметил актуальность ее тематики, прежде всего в современных условиях борьбы стран за лидерство на международной арене.
— Урал славится своей математической школой, — подчеркнул глава вуза, — и мы всемерно поддерживаем ее развитие, в том числе в рамках программы повышения конкурентоспособности нашего университета. Сегодня параллельные высокопроизводительные вычисления играют в этом особую приоритетную роль. Совместно с Институтом математики и механики УрО РАН мы готовим специалистов в области суперкомпьютерных технологий, ведем сотрудничество с российскими центрами высокопроизводительных вычислений. Наши студенты активно и успешно участвуют в различных международных соревнованиях по данной тематике. Так, например, в прошлом году студенты и магистранты Института радиоэлектроники и информационных технологий УрФУ завоевали серебро в Китае на международных компьютерных соревнованиях ASC 14 Student Supercomputer Challenge, став единственной командой из России, вошедшей в число 16 победительниц. Кстати, свои способности по оптимизации приложений ребята продемонстрировали на самом мощном суперкомпьютере мира Tianhe-2 (MilkyWay-2)…
Подготовке специалистов в суперкомпьютерной области в УрФУ уделяют особое внимание. Как рассказал директор Института математики и компьютерных наук УрФУ (в прошлом математико-механический факультет УрГУ) Магаз Асанов, выпускников уральского матмеха хорошо знают и ценят не только на родной земле, но и за рубежом. Более полувека этот факультет (в 2015 году он отмечает юбилей — 55 лет) выпускает профессионалов, которые добиваются успеха и признания как в науке, так и на производстве: возглавляют крупные предприятия, открывают собственные компании, становятся известными людьми в мировой ИТ-отрасли. Поблагодарив компании — спонсоров ПаВТ’2015, директор ИММ УрО РАН академик Виталий Бердышев напомнил о задачах национального значения, в том числе направленных на построение технологических платформ и создание к 2020 году системы из 25 миллионов новых высокотехнологичных рабочих мест. Из поданных РАН Президенту РФ четырех больших проектов, связанных с реализацией задуманного, один — “суперкомпьютерный” с упором на открытое ПО.
Еще одна традиция ПаВТ — представление новой редакции списка самых мощных компьютеров СНГ. Как изменился суперкомпьютерный ландшафт Содружества за последние полгода? 22-й рейтинг супермощностей СНГ продемонстрировал заметный рост: так, суммарная производительность систем на тесте Linpack за прошедшее время выросла с 4677,2 до 6866,9 TFlop/s. А суммарная пиковая производительность систем списка впервые превысила рубеж в 10 PFlop/s и составила 10811,2 TFlop/s (против 7825,5 TFlop/s в предыдущей редакции рейтинга).
За полгода в Тор50 появилось семь новых суперкомпьютеров и произошло обновление еще четырех систем. Не может не радовать, что первые шесть мест в списке теперь заняты системами, разработанными российскими компаниями.
Новым лидером Тор50, сместив впервые за несколько лет прежнего победителя, стал суперкомпьютер “Ломоносов-2” производства компании “Т-Платформы”, установленный в МГУ им. М.В.Ломоносова (его производительность на тесте Linpack выросла с 319,8 до 1849 TFlop/s). Прежний фаворит списка, также установленный в МГУ, — суперкомпьютер “Ломоносов” производства компании “Т-Платформы”, чья производительность на тесте Linpack составляет 901,9 TFlop/s, — опустился на второе место. На третьем месте оказался новый суперкомпьютер “Политехник РСК Торнадо” производства группы компаний РСК (производительность на тесте Linpack — 658,1 TFlop/s), установленный в Санкт-Петербургском политехническом университете. На четвертое место перешел суперкомпьютер МВС-10П (также детище группы компаний РСК), установленный в Межведомственном суперкомпьютерном центре РАН, с производительностью на тесте Linpack 375,7 TFlop/s.
На пятую позицию поднялся суперкомпьютер “Лобачевский” производства компании “Ниагара Компьютерс”, установленный в Нижегородском государственном университете им. Н.И.Лобачевского, чья производительность на тесте Linpack выросла с 282,6 до 289,5 TFlop/s. Новый суперкомпьютер Cluster Platform 3000 BL460c Gen8 производства компании Hewlett-Packard, установленный на базе неназванного поставщика ИТ-услуг, с производительностью на тесте Linpack 189,3 TFlop/s попал на седьмое место списка. На восьмой строке расположился еще один новичок — “Политехник — RSC PetaStream” производства группы компаний РСК, установленный в СПбПУ, его производительность на тесте Linpack составляет 170,5 TFlop/s.
Производительность в 21,9 TFlop/s (на тесте Linpack) потребовалась на этот раз для попадания в текущую редакцию Top50 (против 17,7 TFlop/s в предыдущей редакции), а нижняя граница первой десятки систем по производительности на тесте Linpack поднялась со 101,213 до 119,9 TFlop/s.
Еще немного статистики: в Тор50 продолжают доминировать системы, построенные на процессорах Intel, их число осталось равным 48; на процессорах AMD и IBM построены по одной системе новой редакции рейтинга. Число гибридных суперкомпьютеров, использующих для вычислений графические процессоры, уменьшилось с 19 до 16, а количество систем, использующих ускорители Intel Xeon Phi, выросло с 3 до 7.
Девятнадцать суперсистем по-прежнему остаются задействованы в науке и образовании, а вот количество систем, ориентированных на конкретные прикладные исследования, увеличилось, правда, всего с девяти до десяти. Число систем, используемых в промышленности, осталось равным шести, а в финансовой области — трем. Дополнительная информация и статистика новой редакции Тор50 представлены на официальной странице списка самых мощных компьютеров СНГ http://top50.supercomputers.ru. Следующая, двадцать третья, редакция Top50 будет объявлена 28 сентября 2015 года на международной конференции Russian Supercomputing Days (http://russianscdays.org).
Эффективность суперкомпьютерных центров в эпоху тотального параллелизма стала темой одного из пленарных докладов. Об актуальности этого вопроса и путях решения задач, связанных с достижением наибольшего КПД при работе на суперЭВМ, на примере суперкомпьютерного центра МГУ им. М.В.Ломоносова рассказал заместитель директора Научно-исследовательского вычислительного центра МГУ член-корреспондент РАН Владимир Воеводин.
— Вопрос эффективности использования больших суперкомпьютерных центров — проблема, актуальная не только для России, — отметил Владимир Валентинович. — Не менее остро стоит она и перед зарубежными центрами, занятыми высокопроизводительными вычислениями. Лучшие американские, китайские, российские суперкомпьютеры — все они устроены примерно одинаково и потому “болеют” одинаковыми “болезнями”. Вот, например, с помощью своего смартфона я могу в режиме реального времени видеть картинку использования мощностей нашего суперкомпьютера “Чебышев”. Если пиковая производительность одного его ядра (усредненная по всем узлам) составляет 12 Гфлопс, то реальная — чуть больше 3% от этой цифры. Казалось бы, все должно работать по полной программе. Но, тем не менее, эффективность и производительность достаточно низки… Мы смело показываем подобные данные, поскольку, повторюсь, это проблема не только российских суперкомпьютеров, но и других систем высокого вычислительного уровня.
Необходимо понять причину этого дисбаланса и постараться изменить ситуацию, чтобы поднять эффективность использования систем. Мы многого ожидаем от суперкомпьютеров, и надо сделать все, чтобы можно было использовать их в полной мере.
Следует понимать, что проблема достижения эффективности в данном случае весьма сложна и имеет много аспектов. Говоря об эффективности суперкомпьютерного центра, какие параметры мы должны учитывать? На что следует обращать особое внимание? Казалось бы, не столь и много таких параметров — всего-то один-два… Но если ставить задачу комплексно, число их оказывается очень и очень велико. Вот, например, те, которые, так или иначе, необходимо принимать в расчет: проекты, лицензии, организации; разделы, компоненты ПО и аппаратуры, приложения; очереди, статусы, квоты, задачи, а также разные категории пользователей: сисадмины, руководство… Кто-то подумает: мелочь — всего-то неправильно оформили лицензию или она не была возобновлена в срок, а в результате какое-то время люди и машины не работают, эффективность падает…
Сложно ли контролировать весь комплекс параметров, отвечающих за эффективность? Вроде не очень: завел все данные в специальный excel-файл и держи их под контролем. Но параметров-то тысячи! Никаких глаз и excel-файлов не хватит. А значит, требуется некий автомат, который будет аккуратно отслеживать то, что происходит в суперкомпьютере. Уже сегодня понятно, что со временем количество параметров, действующих компонентов будет расти и мы не сможем описать то, что в данный момент происходит в системе, как и не сможем предсказать, что в ней будет происходить далее… Получается, мы вроде бы потеряли контроль над суперкомпьютерами?..
Кстати, еще одна важная тенденция, которую необходимо учитывать, — рост стоимости простоя суперкомпьютера. Несвоевременно отреагировали на сбой? Придется платить. Для справки: стоимость работы одного дня суперкомпьютера “Ломоносов” — это примерно 20 тысяч долларов, а суперкомпьютера “Титан” (второе место в списке Тop500 суперкомпьютеров мира) — это уже примерно 300 тысяч долларов… Всего через два-три часа после того, как “зависнет” планировщик задач на “Ломоносове”, половина машины будет попросту простаивать. С учетом вышеназванной стоимости работ на суперкомпьютере становится понятной и важность эффективной организации работ больших суперкомпьютерных центров.
Для устранения проблем, мешающих эффективной работе суперкомпьютеров, специалистами НИВЦ МГУ разработан набор специальных систем. Пока их только шесть, но они постоянно совершенствуются
— Прежде всего, надо провести инвентаризацию имеющегося, — продолжает Владимир Воеводин. — Аккуратно и точно описать все то, с чем мы работаем и за чем надо следить. Реализовать это на практике невероятно сложно, поскольку учесть требуется многое. Но если не сделать этого, мы не сможем быть уверенными, что все работает эффективно: именно так, как и задумывалось. Как же обеспечить этот глобальный мониторинг? Например, так: если мы не можем следить за тем, что происходит в суперкомпьютере в данный момент, тогда пусть он сам следит за собой. А нам останется лишь объяснить ему то, что мы от него ожидаем.
Осуществить такое не очень-то и сложно: наши ожидания можно выразить в виде формальной модели суперкомпьютера. А уж он-то всегда знает, что реально происходит в его недрах… Сопоставление данных мониторинга с формальным описанием того, что должно быть, согласно модели, — позволяет сразу обнаружить сбой. Обнаружив несоответствие, компьютер сам принимает решение, какое действие надо выполнить для исправления ситуации. С этой точки зрения суперкомпьютеры должны быть автономны.
Конечно, кто-то может сказать: это некий шаг навстречу Скайнет (от англ. SkyNet — “небесная сеть” — искусственный интеллект, персонаж фильмов о Терминаторах. — Прим. ред.). Компьютер сам принимает решения!.. Но в противном случае мы не уследим за происходящим. Система самостоятельно должна отслеживать свое состояние, знать, что мы ожидаем от нее, и, сравнивая эти два понятия, предупреждать, если что-то идет не так. Чем больше суперкомпьютер, тем более автономным он должен быть. И, похоже, это уже становится некоторым законом.
Сказанное вызвало активное обсуждение участниками конференции. Как и предложение подумать о создании коллективного банка особенностей поведения суперкомпьютерных систем, ведь наверняка в каждом крупном суперкомпьютерном центре имеется свой опыт их сопровождения. Описав в виде формального набора правил такой “багаж ошибок и сбоев”, его можно потом распространить на все сообщество. Это в итоге позволит избежать многих неприятностей, способных привести к серьезным последствиям.
При обсуждении вопросов эффективности больших систем зашла речь и о структуре алгоритмов. Для работы в данном направлении представители НИВЦ МГУ предложили познакомиться с их новым проектом — AlgoWiki: открытой энциклопедией по свойствам алгоритмов и особенностям их реализации на разных программно-аппаратных платформах с возможностью коллективной работы всего мирового вычислительного сообщества. Зарегистрироваться и начать работу можно на сайте http://algowiki-project.org. Цель AlgoWiki — дать исчерпывающее описание алгоритма, которое поможет оценить его потенциал применительно к конкретной параллельной вычислительной платформе. Кроме классических свойств алгоритмов, например последовательной сложности, в AlgoWiki представлены дополнительные сведения, составляющие в совокупности полную картину об алгоритме: параллельная сложность, параллельная структура, детерминированность, оценки локальности  данных, эффективность и масштабируемость, коммуникационный профиль конкретных реализаций и многие другие.
При выполнении проекта AlgoWiki, поддержанного грантом Российского научного фонда, была сделана ориентация на использование wiki-технологий с возможностью коллективной работы над энциклопедией всего вычислительного сообщества. На первом этапе проекта основное внимание уделялось отработке именно структуры описания алгоритмов. В настоящее время энциклопедия активно расширяется за счет описаний алгоритмов, составленных внешними экспертами, а также создается многоязычная версия, которая затем и станет основной.
Еще одной важной темой конференции стала “проблема номер один”, стоящая перед суперкомпьютерным миром на пути к ExaScale. Подробнее о ней рассказал в своем выступлении директор Института программных систем им. А.К.Айламазяна РАН член-корреспондент РАН Сергей Абрамов. Интерконнект, масштабируемость систем, новые математические методы, устойчивость к ошибкам, создание чипов и пр. — все это, несомненно, важно и требует внимания суперкомпьютерного сообщества. Но если говорить о столь актуальных сегодня вопросах импортозамещения и критических технологиях, то на первом месте должна стоять проблема, связанная с энергоэффективностью.
— Инженерная логика проста, — подчеркнул Сергей Михайлович. — Если мы хотим быстрее считать, значит, нам нужны все более эффективные системы охлаждения. Есть непреложная эволюция системы охлаждения, которая будет происходить в вычислительной технике. Впрочем, как и в любой потребляющей энергию электронике. В 2009 году прекратилась эра воздуха: мир стал переходить на жидкостное охлаждение.
Кстати, как напомнил Сергей Абрамов, именно 1 апреля на конференции ПаВТ, проходившей в 2009 году в Нижнем Новгороде, им впервые было представлено решение жидкостного охлаждения: “Для универсальных процессоров это был первый подход, мы обогнали всех в мире. Даже IBM представил свою машину на жидкостном охлаждении позже нас. Пусть и на три дня…”. С 2011 года все машины из Тор10 суперкомпьютеров мира работают на жидкостном охлаждении. Хотя 40% машин Тор500 все еще используют воздушные системы.
Для успешного движения по дороге к ExaScale необходимо, чтобы существующие парадигмы программирования развивались эволюционным путем, одновременно с поддержкой революционных парадигм, преодолением физических ограничений. И революционные технологии, разрабатываемые и внедряемые ведущими компаниями на российском рынке, позволяют ответить на “физические” вызовы времени.
На секциях и пленарных заседаниях с большим вниманием участники ПаВТ выслушали выступления представителей компаний-вендоров. Так, мнением компании Intel о трансформации подходов к высокопроизводительным вычислениям поделился Николай Местер, взгляд компании “РСК Технологии” на настоящее и будущее лидирующих сегодня массивно-параллельных систем представил Александр Московский, что думает компания “Т-Платформы” о движении от суперкомпьютинга к полному циклу инжиниринга и производства рассказал Александр Мурашов, а возможности платформ НР для высокопроизводительных вычислений, причем не только с точки зрения теории, но и с точки зрения практического применения, представил Вячеслав Елагин.
В дни конференции состоялось также собрание представителей Суперкомпьютерного консорциума университетов России. Его участники обсудили текущее состояние и актуальные задачи развития суперкомпьютерного образования в университетах России. Одной из новых инициатив консорциума стала организация и проведение серии семинаров “Суперкомпьютерные технологии и промышленные организации”. Первая такая встреча, посвященная СКТ в промышленности Самарского региона должна уже состояться 15 апреля. О проблеме, связанной с необходимостью обновления формата работы (а в ряде случаев создания) отделов и лабораторий современных информационных технологий в институтах и на заводах, говорил в своем выступлении представитель Института нефтехимии и катализа РАН Ирек Губайдуллин. Обсудили участники консорциума и вопросы организации регионального этапа отбора слушателей в Летнюю суперкомпьютерную академию, которая состоится в нынешнем году в Москве на базе МГУ (http://academy.hpc-russia.ru).
Познакомиться с материалами ПаВТ’2015 можно на сайте конференции — http://agora.guru.ru/display.php?conf=pavt2015.

Нина ШАТАЛОВА
Фото автора

Нет комментариев