» » » Мониторинг инженерной инфраструктуры в дата-центре. Часть 4. Сетевая инфраструктура: физическое оборудование

 

Мониторинг инженерной инфраструктуры в дата-центре. Часть 4. Сетевая инфраструктура: физическое оборудование

Автор: admin от 8-12-2017, 11:20, посмотрело: 42

Мониторинг инженерной инфраструктуры в дата-центре. Часть 4. Сетевая инфраструктура: физическое оборудование


Часть 1. Мониторинг инженерной инфраструктуры в дата-центре. Основные моменты.

Часть 2. Как устроен мониторинг энергоснабжения в дата-центре.

Часть 3. Мониторинг холодоснабжения на примере дата-центра NORD-4.



Привет, Хабр! Меня зовут Алексей Багаев, я руководитель сетевого отдела в DataLine.



Сегодня я продолжу серию статей о мониторинге инфраструктуры наших дата-центров и расскажу о том, как у нас организован мониторинг сети. Это достаточно объемная тема, поэтому, чтобы избежать сумбура, я разделил ее на две статьи. В этой речь пойдет о мониторинге на физическом уровне, а в следующий раз рассмотрим логический уровень.



Сначала я опишу наш подход к мониторингу сети, а затем подробно расскажу о всех параметрах сетевого оборудования, которые мы отслеживаем.



ссылке на англоязычную ветку Reddit, в комментариях есть несколько толковых рекомендаций на эту тему.



Разумеется, оборудование периодически меняется и модернизируется, и мы дорабатываем систему мониторинга под новые задачи. Прежде чем вводить новый хост в продуктив, параллельно с тестированием мы добавляем этот хост в систему мониторинга и определяем список объектов, которые будем отслеживать.



Мы собираем основные метрики подключенного оборудования, из самого элементарного – это проверка на UP/DOWN.



В целом нас интересуют:




  • внешние факторы (температура, питание и т.д);

  • состояние портов (текущее состояние, доступность);

  • состояние процессора;

  • память;

  • специфика «железа» в зависимости от типа оборудования.



Нельзя сказать, что какой-то узел важнее остальных. Продуктивная сеть – она и в Африке продуктивная. «Забитая» память или перегруженный процессор могут вызвать деградацию сети в целом и проблемы у клиента – в частности. Макрозадача в мониторинге сетевого железа – своевременная профилактика и устранение неисправностей раньше, чем они дадут о себе знать.



холодоснабжения в машинных залах, где упомянули, что на каждый холодный коридор приходится по три температурных датчика. Эти датчики снимают общие показатели по коридору и позволяют судить о работе самой охлаждающей системы.



Для мониторинга сетевой инфраструктуры нужно знать показания температурных датчиков с  каждой единицы оборудования. Это позволяет выявлять и устранять не только возможные перегревы хостов, но и определять на ранней стадии локальные перегревы стоек.



Для получения статуса устройства мы отправляем запрос вида snmpwalk | grep и получаем список всех OID по заданным фильтрам.



Мониторинг инженерной инфраструктуры в дата-центре. Часть 4. Сетевая инфраструктура: физическое оборудование
Запрос температурных показателей маршрутизатора Cisco ASR9006.



Изучив вывод, делаем более детальный запрос:



Мониторинг инженерной инфраструктуры в дата-центре. Часть 4. Сетевая инфраструктура: физическое оборудование
Делаем запрос параметра Inlet Temperature Sensordie для снятия значения температур.



И еще более детальный:



Мониторинг инженерной инфраструктуры в дата-центре. Часть 4. Сетевая инфраструктура: физическое оборудование
Выбираем параметры NP1 и NP2.



В итоге мы получаем OID 1.3.6.1.4.1.9.9.91.1.1.1.1.4.index и можем отследить показания нужного температурного датчика. На нашем примере – значение 590, т. е. 59 градусов по Цельсию.



В графическом представлении Nagios результаты опроса выглядят так:



Мониторинг инженерной инфраструктуры в дата-центре. Часть 4. Сетевая инфраструктура: физическое оборудование


На скриншоте мы видим следующее:




  • Temperature 0/0, 0/1, 0/2 – датчики линейных карт маршрутизатора ASR9006;

  • RSP – датчик карты Route Switch Processor;

  • RSP/CPU – датчик температуры CPU карты Route Switch Processor.



уязвимость 29 июня 2017 г., а закрыта она была в новых релизах ПО, вышедших после середины июля. Если не получается по каким-либо причинам обновить софт, как временное решение Cisco рекомендует отключить следующие MIB-базы:




  • ADSL-LINE-MIB

  • ALPS-MIB

  • CISCO-ADSL-DMT-LINE-MIB

  • CISCO-BSTUN-MIB

  • CISCO-MAC-AUTH-BYPASS-MIB

  • CISCO-SLB-EXT-MIB

  • CISCO-VOICE-DNIS-MIB

  • CISCO-VOICE-NUMBER-EXPANSION-MIB

  • TN3270E-RT-MIB



На этом мониторинг аппаратной части сетевой инфраструктуры заканчивается. Задавайте вопросы в комментариях, а о мониторинге сетевой инфраструктуры на логическом уровне я расскажу в следующий раз.

Источник: Хабрахабр

Категория: Админитстрирование » Сетевые технологии

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.

Добавление комментария

Имя:*
E-Mail:
Комментарий:
Полужирный Наклонный текст Подчеркнутый текст Зачеркнутый текст | Выравнивание по левому краю По центру Выравнивание по правому краю | Вставка смайликов Выбор цвета | Скрытый текст Вставка цитаты Преобразовать выбранный текст из транслитерации в кириллицу Вставка спойлера
Введите два слова, показанных на изображении: *