RAID 5 pokazuje degraded, ale dyski są zdrowe — co robić najpierw?

Dlaczego RAID 5 może pokazywać degraded mimo zdrowych dysków

Ten poradnik dotyczy jednego scenariusza: RAID 5 jest degraded, ale dyski nadal zgłaszają się poprawnie. Jeżeli problem dotyczy ogólnej awarii macierzy w firmie, przejdź do poradnika o pierwszej reakcji po awarii RAID.

Taki stan często wynika z problemu z metadanymi, kolejnością dysków, superblockiem lub kontrolerem, a nie z pełnej awarii wszystkich nośników.

Jeżeli RAID 5 pokazuje degraded, mimo że dyski wyglądają na zdrowe, najważniejsze jest zatrzymanie zapisów i wstrzymanie odbudów RAID wykonywanych na ślepo.

Najczęstsze przyczyny stanu degraded mimo zdrowych dysków

RAID 5 to popularny sposób przechowywania danych, który zapewnia równocześnie bezpieczeństwo i wydajność. Czasami jednak użytkownicy napotykają na komunikat degraded, pomimo że wszystkie diody na dyskach wskazują na ich zdrowie. W około 80% przypadków problem nie leży w fizycznym uszkodzeniu dysków, lecz w kwestiach związanych z metadanymi. Do najczęstszych przyczyn należą błędy kontrolera RAID, które mogą wyniknąć z uszkodzonego oprogramowanie układowe lub wyzerowanego cache'a. Takie sytuacje prowadzą do błędnego odczytu stanu macierzy, co może być mylące dla użytkownika, który wierzy, że jego dyski są w pełni sprawne.

Inne przyczyny to uszkodzony superblock, niespójność parzystości, błąd zasilania albo problem z cache kontrolera. Zamiast zgadywać, najpierw trzeba ustalić, co zmieniło stan macierzy i czy kolejne zapisy nie pogorszą spójności danych.

Kluczowe kroki postępowania w sytuacji awaryjnej

Gdy RAID 5 pokazuje degraded, najpierw wstrzymaj procesy zapisujące dane i udokumentuj układ dysków: zdjęcie zatok, numery seryjne oraz komunikaty kontrolera. Jeśli serwer musi zostać wyłączony, zrób to w kontrolowany sposób i nie rozpoczynaj odbudowy bez ustalenia przyczyny alertu.

Następnie, jeśli to możliwe, sprawdź stan SMART dysków. Pamiętaj, aby traktować tę czynność jedynie jako diagnostykę, a nie podejmować decyzji na jej podstawie. Kolejnym ważnym krokiem jest wykonanie obrazów (klonów) dysków na innym systemie, co pozwala na bezpieczne przechowywanie danych i dokonanie ich analizy. Wreszcie, skontaktuj się z ekspertem, aby uzyskać profesjonalną pomoc. Przekaż mu dokładne informacje o modelu kontrolera, liczbie dysków oraz rozmiarze stripu, co znacznie ułatwi diagnozę i dalsze działania w procesie odzyskiwania danych.

Jak odróżnić problem logiczny od realnej awarii dysku

Sam komunikat degraded nie oznacza jeszcze, że możesz bezpiecznie uruchomić odbudowę RAID. Najpierw trzeba ustalić, czy masz do czynienia z rzeczywistą awarią jednego nośnika, czy z problemem logicznym po stronie macierzy: metadanych, kontrolera, kolejności dysków albo cache. Jeżeli dyski zgłaszają się, ale konfiguracja wygląda inaczej niż wcześniej, bardzo łatwo pomylić objaw logiczny z uszkodzeniem sprzętowym.

Właśnie dlatego przy RAID 5 nie wystarczy sprawdzić tylko SMART. Dobry SMART nie wyklucza problemu z parzystością, a błędna kolejność dysków po restarcie może sprawić, że macierz będzie wyglądała na częściowo uszkodzoną mimo sprawnych nośników. Zobacz też poradnik czego nie robić przy RAID degraded/offline, jeśli chcesz uniknąć najczęstszych błędów.

Co przygotować przed kontaktem z laboratorium

zdjęcie układu dysków i ich oznaczeń,
model kontrolera lub NAS-a,
informację, czy doszło do restartu, zaniku zasilania lub wymiany dysku,
logi lub screeny z komunikatami, jeśli są dostępne,
potwierdzenie, czy ktoś próbował już odbudowy RAID albo resyncu.

Taki zestaw informacji skraca diagnozę i zmniejsza ryzyko błędnych założeń na starcie. Jeżeli problem dotyczy środowiska firmowego, pomocny będzie też szerszy materiał o tym, co robić po awarii RAID w firmie oraz instrukcja pierwszej doby po awarii serwera lub NAS-a.

Jak opisać stan macierzy, zanim zaczniesz dalsze próby

W praktyce najlepiej zebrać zrzuty ze stanu macierzy, kolejność dysków, ostatnie komunikaty kontrolera i listę usług, które już nie działają. Taki komplet pozwala szybciej odróżnić ostrzeżenie degraded od szerszej awarii kontrolera, serwera, NAS-a albo środowiska wirtualizacji. Jeżeli środowisko jest bardziej złożone, opisz je przed kolejnymi próbami, zamiast uruchamiać odbudowę RAID na niepewnych założeniach.

Kiedy nie warto już improwizować

Jeżeli po degraded pojawiają się kolejne alerty, macierz gubi wolumen albo ktoś już próbował odbudowy RAID, sytuacja bardzo szybko przestaje być "tylko ostrzeżeniem". W takim momencie lepiej przerwać testy, zebrać kontekst i dopiero wtedy zdecydować, czy środowisko można jeszcze bezpiecznie obserwować, czy trzeba przejść do diagnostyki.

Co zrobić, jeśli chcesz bezpiecznie przejść od alertu do realnej diagnozy

Gdy macierz nadal jest dostępna, ale stan degraded budzi niepewność, przygotuj opis objawów, kolejność dysków, listę krytycznych usług i informację o działaniach wykonanych po alertach. Taki handoff daje laboratorium więcej niż kolejny eksperyment na oryginałach.