RAID degraded/offline – czego nie robić zanim oddasz do laboratorium
RAID "Degraded"/offline – dlaczego to stan podwyższonego ryzyka
Komunikat "Degraded" oznacza, że macierz działa w trybie awaryjnym (brakuje redundancji lub jedna z kopii jest niespójna). W tym stanie jeden nieprzemyślany krok potrafi nadpisać metadane i utrudnić rekonstrukcję. Jeśli zależy Ci na danych, priorytetem jest zatrzymanie zapisów i zabezpieczenie odczytu. W przypadku macierzy, serwerów i NAS Synology/QNAP najbezpieczniej jest przejść do diagnozy RAID/NAS w laboratorium (bez odbudów RAID na ślepo).
Czego absolutnie NIE robić przed oddaniem do laboratorium
- Nie uruchamiaj odbudowa RAID/re-synchronizacja "na próbę", zwłaszcza jeśli RAID degraded przechodzi w offline albo wcześniej była wymiana dysku.
- Nie inicjuj ponownie macierzy i nie twórz nowych wolumenów.
- Nie aktualizuj oprogramowania układowego kontrolera/NAS w trakcie incydentu.
- Nie mieszaj kolejności dysków i nie podmieniaj ich "w ciemno".
- Nie uruchamiaj narzędzi naprawczych systemu plików na wolumenie (mogą trwale zmienić strukturę danych).
Co zrobić zamiast tego (bezpieczna lista kontrolna)
- Najpierw zatrzymaj usługi zapisujące dane (VM, bazy, udziały), zanotuj komunikaty błędów i wykonaj kontrolowane wyłączenie.
- Zrób zdjęcia/printscreeny: stan macierzy, komunikaty, kolejność zatok, modele i numery seryjne.
- Oznacz dyski (slot 1/2/3/…) i nie uruchamiaj ich osobno w systemie operacyjnym.
- Jeśli to możliwe, przygotuj informacje o konfiguracji (RAID level, rozmiar stripe, kontroler).
Kiedy zgłosić przypadek
Jeśli macierz jest w stanie "Degraded", pojawiają się błędy odczytu albo wolumen znika, najbezpieczniej przejść na procedurę diagnozy RAID/NAS na kopii roboczej. W laboratorium zaczynamy od obrazowania wszystkich członków macierzy, a dopiero potem odtwarzamy układ RAID i wolumen na kopii.
Zgłoszenie: opisz komunikaty i model NAS/kontrolera — dostaniesz bezpieczny plan działania. Opisz awarię.
Najczęstsze błędy, które później komplikują rekonstrukcję RAID
W praktyce najwięcej szkód robi nie sama awaria, ale seria szybkich decyzji podejmowanych pod presją. Administrator lub użytkownik widzi brak dostępu do danych i chce "jak najszybciej przywrócić działanie". Wtedy łatwo uruchomić odbudowę RAID, testować inny kontroler, mieszać kolejność dysków albo utworzyć nowy wolumen tylko po to, żeby sprawdzić, czy macierz "wstanie". Z punktu widzenia odzyskiwania takie kroki mogą nadpisać metadane i utrudnić ustalenie właściwej konfiguracji.
Problem dotyczy nie tylko dużych serwerów. Bardzo podobne błędy zdarzają się w małych NAS-ach Synology i QNAP, gdzie jeden dysk zaczyna zgłaszać błędy, a urządzenie wciąż pozwala klikać kolejne opcje naprawcze. Jeśli dane są ważne, bezpieczniej potraktować stan degraded/offline jako incydent wymagający zabezpieczenia, a nie pole do eksperymentów.
Co przygotować przed przekazaniem RAID do diagnozy
- model urządzenia lub kontrolera oraz typ macierzy,
- kolejność dysków w zatokach i zdjęcia oznaczeń,
- komunikaty błędów z panelu NAS/RAID lub z konsoli,
- informację, czy wcześniej była wymiana dysku, odbudowa RAID, aktualizacja oprogramowanie układowe lub zanik zasilania,
- listę najważniejszych zasobów na macierzy: maszyny wirtualne, bazy danych, monitoring, dokumenty firmowe.
Taki zestaw informacji skraca diagnostykę i pozwala szybciej ustalić, czy problem dotyczy jednego dysku, spójności metadanych, kontrolera czy systemu plików. Jeżeli chcesz zawęzić scenariusz, zobacz też poradniki:
Jak przygotować macierz do bezpiecznej diagnozy
Najlepsze, co możesz zrobić przed przekazaniem macierzy do laboratorium, to zachować porządek i nie zmieniać stanu wyjściowego. Oznacz fizycznie każdy dysk, zapisz kolejność zatok, wykonaj zdjęcia panelu administratora i przygotuj dane o kontrolerze, modelu NAS oraz poziomie RAID. Dzięki temu da się szybciej odtworzyć konfigurację na kopii, bez niepotrzebnego zgadywania.
Jeżeli w środowisku działają maszyny wirtualne, bazy lub monitoring, dobrze jest też ustalić, które dane są priorytetowe. To pozwala zaplanować odzysk nie tylko technicznie, ale i biznesowo. W razie potrzeby przejdź od razu do opisz objawy i dołącz najważniejsze informacje o incydencie.
Kiedy nie warto czekać z eskalacją
Jeżeli macierz przechodzi z trybu degraded do offline, zaczyna zgłaszać kolejne błędy lub wolumen raz jest widoczny, a raz znika, zwlekanie zwykle działa na niekorzyść. Szczególnie ryzykowne są przypadki, w których ktoś już rozpoczął odbudowa RAID, wymieniał dyski lub przenosił je między urządzeniami. W takich sytuacjach każdy następny eksperyment zwiększa ryzyko nadpisania metadanych.
Jak bezpiecznie przejść od diagnozy do działania
Jeżeli macierz przeszła w degraded lub offline, a dane są biznesowo ważne, nie odkładaj decyzji na później. Najlepiej zebrać podstawowe informacje i wybrać bezpieczną procedurę diagnostyki:
Dzięki temu łatwiej zaplanować diagnostykę bez dokładania kolejnych zmian do stanu macierzy.