Диагностика состояния и восстановление ceph-кластера

Достался мне на поддержку CEPH-кластер, а как готовить его не рассказали и все бы ничего, но он умеет самопроизвольно рассыпаться раз в три дня и требует постоянного контроля. Подключил его к Zabbix и настроил мониторинг состояния Possible data damage и при каждом таком событии иду его выводить его из раскоряченного состояния.

 
 
Логотип GITA-DEV

Автор: Черноусов Антон aka Gita-Dev
Опубликовано: 12 Сен 2018 (последние правки 3 недели, 4 дня)

ceph zabbix администрирование файловая система

Проверяем статус ceph-кластера.

root@pvc-1:~# ceph health detail
HEALTH_ERR 1 scrub errors; Possible data damage: 1 pg inconsistent
OSD_SCRUB_ERRORS 1 scrub errors
PG_DAMAGED Possible data damage: 1 pg inconsistent
   pg 1.8 is active+clean+inconsistent, acting [5,2,8]

Видим, что узел 1.8 в непоследовательном состоянии с возможным повреждением данных и мы отправляем ему команду на восстановление:

root@pvc-1:~# ceph pg repair 1.8
instructing pg 1.8 on osd.5 to repair

Проверяем, что ceph начал процесс восстановления:

root@pvc-1:~# ceph health detail
HEALTH_ERR 1 scrub errors; Possible data damage: 1 pg inconsistent, 1 pg repair; 4 slow requests are blocked > 32 sec
OSD_SCRUB_ERRORS 1 scrub errors
PG_DAMAGED Possible data damage: 1 pg inconsistent, 1 pg repair
   pg 1.8 is active+clean+scrubbing+deep+inconsistent+repair, acting [5,2,8]
REQUEST_SLOW 4 slow requests are blocked > 32 sec
   4 ops are blocked > 32.768 sec
   osd.5 has blocked requests > 32.768 sec

По завершении должна получиться вот такая картина:

# ceph health detail
HEALTH_OK

Похожие статьи

Тестирование гибридного программного массива (HDD+SSD) (оптимизация фермы виртуализации)

Тестирование гибридного программного массива (HDD+SSD) (оптимизация фермы виртуализации)

Сегодня я немного поэкспериментирую с гибридным программным массивом состоящим из обычного жесткого диска и кэширующего твердотельного накопителя. Эксперимент должен оказаться довольно интересным, хотя средства измерения показывают погоду на Марсе и у меня все никак не доходят руки переписать скрипт собирающий сведения по IOPS-ам при дисковой активности.


Уничтожение программного дискового массива в Linux

Уничтожение программного дискового массива в Linux

Я недавно продемонстрировал как создать программный дисковый массив в Linux и теперь пришло время его разрушить.


Создание программного дискового массива (Software Raid) в Ubuntu Linux

Создание программного дискового массива (Software Raid) в Ubuntu Linux

Как говориться, если у вас нет денег на аппаратный RAID-контроллер, а ощущения защищенности и стабильности все же хочется. то вам на помощь придет программный дисковый массив и сегодня я вам расскажу как его создать. Это очень просто и вы легко сможете справиться с этой задачей.


Тестирование производительности программного дискового массива в Linux (Повторный эксперимент с дисковыми очередями)

Тестирование производительности программного дискового массива в Linux (Повторный эксперимент с дисковыми очередями)

Сегодня мы закроем тему с программными дисковыми массивами в Linux и посмотрим на производительность этого решения. Сразу скажу, что чудес не бывает и программный массив будет работать медленнее чем аппаратный, что логично, а использовать md-массивы имеет смысл лишь в качестве зеркала для повышения отказоустойчивости системы. Если вы хотите немного подробностей, то у меня есть много графиков и я вам их покажу.


Отзывы и комментарии