RAID 5 показує degraded, але диски здорові — що робити спершу?

Чому RAID 5 може показувати degraded, навіть якщо диски здорові

Це керівництво стосується одного сценарію: RAID 5 degraded, але диски все ще коректно реагують. Якщо проблема стосується загальної відмови масиву в компанії, перейдіть до керівництва про першу реакцію після відмови RAID.

Такий стан часто виникає через проблему з метаданими, порядком дисків, суперблоком або контролером, а не через повну відмову всіх накопичувачів.

Якщо RAID 5 показує degraded, хоча диски виглядають здоровими, найважливіше — зупинити записи та призупинити оновлення (rebuild), виконувані наосліп.

Найпоширеніші причини стану degraded, незважаючи на здорові диски

RAID 5 — це популярний спосіб зберігання даних, який одночасно забезпечує безпеку та продуктивність. Проте іноді користувачі стикаються з повідомленням degraded, навіть якщо всі індикатори на дисках показують їхнє нормальне функціонування. Приблизно в 80% випадків проблема не полягає у фізичному пошкодженні дисків, а в питаннях, пов'язаних із метаданими. Найпоширенішими причинами є помилки контролера RAID, які можуть виникати через пошкоджене програмне забезпечення або очищений кеш. Такі ситуації призводять до неправильного зчитування стану масиву, що може дезорієнтувати користувача, котрий вірить, що його диски повністю працездатні.

Інші важливі фактори, які можуть призвести до стану degraded, це пошкодження superblock, тобто структури, що описує конфігурацію RAID, а також тихі пошкодження секторів, які можуть викликати невідповідність парності даних. Варто також звернути увагу на відмову батареї BBU, яка призводить до втрати кеша після вимкнення живлення. Помилка живлення, викликана раптовим перезавантаженням сервера під час запису метаданих, також може спричинити виникнення проблеми degraded. У такій ситуації ключовим є розуміння причини, щоб вжити відповідні заходи і уникнути втрати важливих даних.

Ключові кроки дій у надзвичайній ситуації

Коли ви бачите деградований стан у вашій системі RAID 5, перший крок — негайно призупинити будь-які процеси запису. Ця ключова дія допомагає захистити дані від незворотних втрат. Фізичне вимкнення сервера — найкращий спосіб гарантувати, що додаткові операції не вплинуть на вже існуючу проблему. Після зупинки роботи сервера важливо ретельно задокументувати розташування дисків, зробивши фото, що допоможе в майбутньому діагностуванні або ремонті.

Далі, якщо можливо, перевірте статус SMART дисків. Пам'ятайте, що цю діяльність слід розглядати лише як попередню діагностику і не приймати рішення на основі нього. Наступний важливий крок — створювати образи дисків (клони) на іншій системі, що дозволяє безпечно зберігати дані та аналізувати їх. Нарешті, зверніться до експерта за професійною допомогою. Надайте їм точну інформацію про модель контролера, кількість дисків і розмір стрічки, що значно полегшить діагностику та подальше відновлення даних.

Як відрізнити логічну задачу від реальної несправності диска

Саме погіршене повідомлення не означає, що ви можете безпечно провести перебудову. Спочатку потрібно визначити, чи маєте ви справу з реальною несправністю одного носія або з логічною проблемою на боці масиву: метаданих, контролера, порядку диска чи кешу. Якщо диски повідомляють, але конфігурація виглядає інакше, дуже легко сплутати логічний симптом із пошкодженням обладнання.

Ось чому в RAID 5 недостатньо просто перевірити SMART. Хороший SMART не виключає проблеми парності, а неправильний порядок дисків після перезавантаження може зробити масив частково пошкодженим, незважаючи на робочий носій. Див. також посібник чого не робити при RAID degraded/offline, якщо ви хочете уникнути найпоширеніших помилок.

Що підготувати до контакту з лабораторією

фото конфігурації дисків та їх позначень,
модель контролера або NAS,
інформацію, чи був перезапуск, відключення живлення або заміна диска,
логи або скріншоти з повідомленнями, якщо вони доступні,
підтвердження, чи хто-небудь вже намагався rebuild або resync.

Такий набір інформації скорочує діагностику та зменшує ризик неправильних припущень на початку. Якщо проблема стосується корпоративного середовища, буде корисним також ширший матеріал про це, що робити після аварії RAID у компанії а також інструкція на першу добу після аварії сервера або NAS.

Як описати стан масиву, перш ніж почати подальші спроби

На практиці найкраще зібрати знімки стану масиву, порядок дисків, останні повідомлення контролера та список служб, які вже не працюють. Такий комплект дозволяє швидше зіставити випадок з посібником RAID degraded/offline, сценарієм аварії RAID у компанії та планом на перші 24 години після аварії сервера або NAS. Якщо середовище більш складне, варто також порівняти симптоми зі записом про VMware / Hyper-V / SAN і лише тоді надіслати повідомлення.

Коли не варто більше імпровізувати

Якщо після degraded з'являються нові попередження, масив втрачає том або хтось вже пробував зробити rebuild, ситуація дуже швидко перестає бути «тільки попередженням». У такому випадку краще припинити тести і перевірити також записи чого не робити при degraded/offline, що робити при виході з ладу RAID у компанії та що робити після аварії сервера або NAS. Якщо масив містить критичні дані, найнадійніше одразу перейти до повідомлення про випадок.

Що робити, якщо ви хочете безпечно перейти від попередження до реальної діагностики

Коли масив все ще доступний, але стан degraded викликає сумнів, краще підготувати короткий опис симптомів, передати його до лабораторії, перевірити орієнтовну вартість відновлення даних і порівняти свій випадок із сервісом відновлення даних з RAID. Це допомагає легше вирішити, чи можна ще безпечно спостерігати за середовищем, чи потрібно зупинити дії і перейти до діагностики.