Центр управления сетью компании «Мегафон»

Представители «Мегафона» пригласили журналистов в новый ЕЦУС (Единый центр управления сетью) ПАО «Мегафон» в Санкт-Петербурге, чтобы познакомить их с тем, как он выглядит и работает.

Презентацию проводили Станислав Мирон, директор по эксплуатации сети «Мегафон» и Валентин Полозенко, директор ЕЦУС.

Общая информация

На сегодня «Мегафон» предоставляет широкий комплекс услуг, связанных со связью, причем не только мобильной, но и фиксированной. Сотовые сети поддерживают все существующие технологии, включая LTE и LTE Advanced, компания готовится к внедрению 5-го поколения. На сегодня компания «Мегафон» обслуживает около 70 млн. абонентов, имеет более 103 000 базовых станций и работает с оптоволоконной сетью протяженностью более 160 000 км.

Программа по созданию единого центра управления стартовала два года назад. Само строительство центра заняло один год (по словам представителей «Мегафона» — это очень небольшой срок. Совокупные затраты на реализацию программы превышают 1 млрд. Эта сумма включает и расходы на создание зонтичных OSS (Operation Support System) систем, создание которых потребовало еще год.

Цель создания ЕЦУС — объединение функций управления и мониторинга сети в едином центре с помощью зонтичных систем, главная задача которых — автоматическое аккумулирование событий от оборудования, обработка, анализ и передача либо специалисту для принятия решения, либо для исполнения.

Создание ЕЦУС позволяет организационно упростить управление сетью и добиться более быстрого решения возникающих проблем, плюс, теперь он является общим центром ответственности за работу сети. Его создание позволило заменить порядка 500 различных систем — промышленных локальных, вендорных, самописных и пр., с помощью которых управление осуществлялось раньше. Центр не только осуществляет удаленное управление, но и координирует деятельность бригад «на местах», что необходимо, например, при физических повреждениях.

Физическая организация ЕЦУС

Центр управления, в котором были журналисты, располагается в принадлежащем «Мегафон» здании в Санкт-Петербурге, на Васильевском острове.

Его сердце — рабочий зал на 52 круглосуточных рабочих места. Здесь располагаются сотрудники группы мониторинга, сотрудники техподдержки, главный оперативный дежурный, который руководит оперативной работой.

Центральный элемент зала — огромная видеостена (ее длина — 29 метров). Технически она выполнена на светодиодных проекторах, которые проецируют изображение на пластиковые экраны. По мнению представителей «Мегафон», это в целом эффективнее, чем использование ЖК или плазмы: нет деградации из-за статической картинки, нет нагрева, не выгорают пиксели, равномерная яркость и т. д.

На видеостене отображаются основные параметры работы сети. Также здесь идет видеотрансляция из аналогичного зала в Самаре, а в углу расположена интегральная карта России, показывающая «здоровье» сети по всем регионам страны.

По словам представителей компании, основная задача видеостены — возможность мгновенно оценить состояние сети и отдельных компонентов. Оператор буквально с одного взгляда может оценить ситуацию и понять, в чем проблема — а получить детальную информацию и принять меры он может уже на своем рабочем месте.

Отдельный телевизор в зале настроен на новостной канал «Россия-24». Это сделано для того, чтобы сотрудники могли оперативно узнать о каких-то событиях (например, природных катаклизмах) из новостей. Впрочем, зачастую собственные системы мониторинга срабатывают быстрее: например, тайфуны на Сахалине по ним сотрудники компании увидели быстрее (по аварийным сообщениям из сети), чем в новостях.

Рабочие места располагаются амфитеатром перед видеостеной. На первой линии находятся сотрудники, которые отвечают за мониторинг и управление сетью. Рабочие места специализированы: кто-то отслеживает работу ИТ-платформы, кто-то — роуминг, сеть и пр. Вторая половина — мониторинг базовых станций. Следующий ряд — дневное усиление, т. к. днем больше событий в сети. В центре третьего ряда располагается рабочее место главного оперативного дежурного. На последнем ряду сидят инженеры, осуществляющие техподдержку высокого уровня — они помогают в решении тех вопросов, с которыми не справились специалисты колл-центра. При этом они находятся в том же информационном поле и могут оценить состояние сети. Здесь же находятся профильные эксперты.

Зал оптимизирован для постоянной работы: в нем поддерживается нужный микроклимат, специальные шумогасящие потолки снижают уровень шума и приглушают разговоры. Вся разводка убрана под пол и не мешается под ногами. У сотрудников — специальные анатомические кресла, которые уменьшают усталость. Плюс, рядом с залом есть комната отдыха, где можно отвлечься и расслабиться. По одному направлению всегда работает несколько специалистов, так что один может отойти с рабочего места. Рядом с комнатой отдыха есть несколько переговорных комнат и конференц-зал с изменяемым расположением стен. Это позволяет быстро создать отдельные комнаты, например, для экспертов, обсуждающих пути решения той или иной проблемы.

Разумеется, центр защищен от вторжений — как физических, так и виртуальных. Здание оборудовано системой контроля доступа по карточкам, есть пост охраны, которая может заблокировать помещения и отловить проникших в него незаконно людей. Приложения для управления техникой работают в отдельном сегменте сети, в который сотрудник заходит по защищенному каналу удаленного доступа и пр. Есть система перекрестного мониторинга, которая может уведомить, если сотрудник делает что-то не то. Если какое-то действие вызвало сбой, его можно откатывать и т. д.

Оборудование и ПО при создании зонтичных OSS выбиралось от самых надежных мировых поставщиков: IBM, Hewlett-Packard, NEC. По словам представителей «Мегафон», они выбирали лучшее из существующего на рынке, включая программные решения, а главным приоритетом была репутация и надежность. Обеспечение работы сети с 70 млн. абонентов — это совершенно другой уровень требований к решениям, и, например, решения, которые работают для базы в 2 млн. абонентов даже не рассматривались. Самописных решений в современной структуре нет, российское ПО есть, но его доля невелика. У отечественных программных решений пока не тот уровень, чтобы гарантировать нужные возможности, надежность и пр. Также Станислав Мирон подчеркнул, что в компании не хотели бы уходить в кастомизированные уникальные решения, которые потом будет очень дорого поддерживать и развивать, а эксклюзивность и кастомизация не являются приоритетом. Вместо этого в «Мегафон» предпочитают выбрать лучшие коммерческие решения, подходящие под сценарии работы компании. В общем, при создании систем управления компания делает акцент на проверенные, оттестированные, готовые к работе решения мирового уровня.

Организационная структура ЕЦУС

Главная задача ЕЦУС — осуществлять круглосуточный мониторинг состояния сети, ИТ-структур и сервисов, управление сетями (опорной, транспортной и т. д.), сервисной платформой и т. д., а также техническую поддержку пользователей (выходящую за компетенцию колл-центра).

Организационно и технически ЕЦУС — единое подразделение, но физически он работает на двух площадках, «Запад» и «Восток», которые расположены в Санкт-Петербурге и Самаре. При отборе городов для размещения центра рассматривалось несколько вариантов на основании широкого круга критериев — в т. ч., по наличию вузов, способных обеспечить приток свежих кадров. Кроме того, в Самаре располагается крупнейший ЦОД «Мегафон», который сертифицирован по TIER III, там очень большой объем корневого оборудования, в т. ч. компетенции по управлению магистральной сетью и пр. А Санкт-Петербург — это город и регион, с которого началась история «Мегафон». Здесь опытнейшие инженеры, многие из которых работают в компании с момента основания, здесь установлены сервисные платформы, предоставляющие уникальные услуги.

ЕЦУС представляет собой, грубо говоря, стационарный пункт удаленного управления: само оборудование установлено по всей сети «Мегафон», а два центра управления получают к нему удаленный доступ. Таким образом, с точки зрения доступа к оборудованию центр может располагаться в любом месте.

Программа по созданию единого центра стартовала с реализации программы OSS, которая включала четыре основных компонента:

  • Network resource inventory — система учета данных сети. Ежедневно все сети (не только сотовые — все сети передачи данных и обеспечения связи) сканируются, аккумулируется актуальная информация об их инвентарном состоянии.
  • Fault management — система аналитики и реагирования на проблемы и сбои в работе. С ее помощью на основании данных, полученных предыдущей компонентов, собирается информация о событиях в сети, включая сбои, отклонения в работе и пр.
  • Trouble Ticketing — единая система работы с инцидентами и координации плановых работ. С ее помощью осуществляется реакция на события и сбои: планируются работы, отдаются указания полевым командам и т. д. Плановые работы (например, замена оборудования) выполняются тоже через нее.
  • Performance management — техническая статистика. Она позволяет видеть сводные параметры работы сети в реальном времени и наглядном виде, причем на любом уровне — субъекта федерации, города или отдельной базовой станции. Если какие-то параметры находятся вне нормальных значений, система обращает внимание на нестандартную ситуацию, что позволяет оператору заблаговременно принять нужное решение, в том числе до того, как произошел сбой.

При нормальной работе ЕЦУС и сети, функции мониторинга и управления разделены между двумя площадками: ЦУС Запад отвечает за Москву, СЗФО, ЦФО и Урал, ЦУС Восток за Поволжье, Кавказ, Сибирь и Дальний Восток. Те системы, которые не могут быть разделены на сегменты, например, магистральная сеть, контролируются целиком из одного центра.

Если на одной из площадок что-то случилось, то в течение 15 минут все управление сетью полностью передается другой. Вся информация стекается на обе площадки, просто фильтры на входе отсеивают то, что находится в сфере ответственности другой площадки. То есть достаточно снять эти фильтры, ну и какое-то время требуется сотрудникам, чтобы принять управление на себя и вникнуть в ситуацию. При этом наличие двух центров не предполагает постоянного «двойного резервирования», когда в нормальной ситуации задействуется 50% ресурсов, а остальные стоят наготове на случай сбоя. Инженеры работают с высокой нагрузкой и в нормальных ситуациях, поэтому при выходе из строя одной из площадок может увеличиваться время реагирования на события.

Наконец, создание единого центра, где сосредоточены все функции по мониторингу и управлению сетью, позволило собрать всех экспертов, обладающих полными знаниями по работе сети, в одном месте. Кроме того, в центре круглосуточно работает главный оперативный дежурный по сети, который имеет все полномочия по оперативному управлению подразделениями компании. Точнее, работают разные люди по графику, но нужный сотрудник круглосуточно на месте. Все это позволяет существенно поднять как скорость, так и эффективность реагирования на события в сети.

Площадка в Санкт-Петербурге считается основной: здесь находится главный оперативный дежурный, отсюда осуществляется координация работы с госорганами и т. д.

Как работает сбор информации

При создании универсальных систем управления необходимо привести поступающие от оборудования данные к единому формату. Хотя все оборудование объединено в единую сеть, но оно произведено разными вендорами и сильно отличается по функциям и способам управления — в рамках компании «Мегафон» насчитали примерно 160 разных систем управления от разных производителей. Без высокоуровневой системы придется отдельно управлять каждой из них, вручную анализируя поступающие от них сообщения и пр.

Зонтичная система позволяет собирать все сообщения (а один сбой генерирует их очень много) в единый пакет, анализировать и генерировать на их основе единое полноценное уведомление. Плюс, NRI сопровождает инцидент справочной информацией (адрес, тип системы, ответственный за нее и пр.). В некоторых ситуациях система способна сама, в автоматическом режиме классифицировать и определить проблемы, а также выработать решение без участия оператора и передать его рабочей группе. Оператору придется вмешаться только в случае сложных или нестандартных проблем.

Однако не всегда есть ясно выраженный сбой. Вот для этого нужна система Performance management, которая позволяет отслеживать работу сети и обращает внимание оператора на отклонение от стандартных параметров работы. Это позволяет быстрее реагировать и не допускать сбоев вовсе.

В день обрабатывается 13 млн. событий, которые генерируют 300 000 элементов сети по всей стране. На базе этих событий в день происходит где-то 4 000 инцидентов. 99% из них — это проблемы, которые не влияют на сервис: вышел из строя кондиционер, пропало питание, нарушен кабель и т. д. Плюс, ежедневно где-то 100 запланированных работ по модификации, расширению сетей и пр.

ЕЦУС на сегодня полностью запущен в работу и принял на себя все запланированные функции по управлению и мониторингу сети. Специалисты центра способны из единого места решить любые проблемы, которые решаются дистанционно, а в случаях, когда необходимо физическое присутствие — направить команду рабочей группе на месте на устранение проблемы и отследить ее выполнение.

Таким образом, с введением в строй нового Единого центра управления компания решила следующие задачи:

  1. Введены в работу зонтичные системы мониторинга и управления
  2. Автоматизация системы, повышение качества
  3. Собрали лучших сотрудников отовсюду. Цитата: «Собрали лучшие компетенции и масштабировали их на сеть мегафона»
  4. Повысилась скорость регистрации и решения проблем. Упрощена структура управления, повышена операционная эффективность

Перспективы

Дальнейшее развитие предполагает эволюцию ЕЦУС в SOC (центр работы сервисов). В ближайшее время компания приступит к тестовыми испытаниям нового поколения систем, которые позволяют собирать информацию о любых проблемах в обслуживании каждого конкретного абонента: сбои связи, недоступность мобильного доступа и т. д. Все эти события собираются, аккумулируются и выдаются в операционный зал, причем уровень качества обслуживания выделяется цветом, чтобы оператор мог мгновенно оценить ситуацию. Главное отличие — это не оценка работы оборудования сети, это оценка тех событий, которые происходят у абонента. Сейчас эту схему осваивают европейские, азиатские операторы.

Это принципиально другой подход, и он может привести к существенному росту качества обслуживания. В частности, он позволяет контролировать качество связи в критических местах, таких как вокзалы, стадионы и пр. Новая система позволяет смоделировать оценку восприятия качества обслуживания клиентом.

Сейчас это направление только формируется. Год назад еще вообще были полуфабрикат. Сейчас уже появились первые более-менее готовые к коммерческой эксплуатации решения, и компания готова их оценить.




14 июля 2015 Г.

«»

«»

«» ( ) «» -, , .

, «» , .

«» , , , . , LTE LTE Advanced, 5- . «» 70 . , 103 000 160 000 .

. ( «» — . 1 . OSS (Operation Support System) , .

— , — , , , .

, , . 500 — , , ., . , « », , , .

, , «» -, .

— 52 . , , , .

— ( — 29 ). , . «», , : - , , , . .

. , , «» .

, — . , — .

«-24». , - (, ) . , : , ( ), .

. , . : - -, - — , . — . — , . . . . , — , -. . .

: , . . — , . , , . , . - . , , , .

, — , . , , . , . , , - . - , . .

OSS : IBM, Hewlett-Packard, NEC. «», , , . 70 . — , , , , 2 . . , , . , , . , , , . «» , . , , , .

— , - , (, . .), . ., ( -).

— , , «» «», - . — . ., , . , «», TIER III, , . . . - — , «». , , , .

, , : «», . , .

OSS, :

  • Network resource inventory — . ( — ) , .
  • Fault management — . , , , , .
  • Trouble Ticketing — . : , . . (, ) .
  • Performance management — . , — , . - , , , , .

, : , , , , , . , , , , .

- , 15 . , , . , - , . « », 50% , . , .

, , , , , . , , . , , . , .

- : , . .

. , — «» 160 . , .

( ) , . , NRI (, , .). , , . .

. Performance management, . .

13 . , 300 000 . - 4 000 . 99% — , : , , . . , - 100 , .

. , , , — .

, :

  1. ,
  2. . : « »
  3. . ,

SOC ( ). , : , . . , , , . — , , . , .

, . , , , . .

. . - , .