Awaria serwera w firmie — pierwsze 24 godziny
Materiał o bezpiecznym zatrzymaniu chaosu po awarii środowiska serwerowego i decyzjach przed diagnozą.
Czytaj poradnikNie chcesz pogorszyć sytuacji?
Najważniejsze na start
Datastore zniknął, LUN nie montuje się po restarcie albo maszyny wirtualne nie uruchamiają się po awarii macierzy? W środowiskach VMware, Hyper-V i SAN największe szkody robią szybkie naprawy na produkcji: rescan, import, naprawa datastore albo ponowne mapowanie LUN-ów bez kopii metadanych.
Awaria w środowisku VMware, Hyper-V albo SAN prawie nigdy nie dotyczy jednej warstwy. Z pozoru problem wygląda jak "brak datastore", "niewidoczny LUN" albo niedostępna maszyna wirtualna. W rzeczywistości przyczyna może siedzieć niżej: w macierzy, cache kontrolera, metadanych wolumenu, VMFS/CSV albo w skutkach wcześniejszego restartu czy migracji.
Dlatego odzyskiwanie danych z wirtualizacji wymaga innego podejścia niż zwykły incydent dyskowy. W takim przypadku trzeba rozumieć zależności między hostem, macierzą, datastore, systemem plików i samą maszyną wirtualną. Błąd na jednej warstwie łatwo przenosi się wyżej.
Pierwszy krok
Zabezpiecz środowisko przed dalszym zapisem i zbierz dane techniczne zanim ktoś uruchomi kolejne zmiany na produkcji.
Najpierw trzeba ustabilizować środowisko i ograniczyć zapisy. Potem zebrać wszystkie informacje: modele serwerów i macierzy, układ LUN-ów, mapowanie hostów, snapshoty, komunikaty, datę ostatnich zmian i objawy po restarcie. Dopiero wtedy można zdecydować, czy bezpieczniej pracować na poziomie macierzy, na kopii LUN-u, na obrazie datastore czy już na plikach maszyn wirtualnych.
W praktyce kluczowe są kopie i rekonstrukcja poza produkcją. To minimalizuje ryzyko, że odzysk jednej warstwy nadpisze inną. W bardziej złożonych przypadkach dopiero analiza na kopii pokazuje, czy problem dotyczy samej wirtualizacji, czy jest skutkiem wcześniejszej awarii RAID lub NAS.
Masz awarię VMware, Hyper-V albo SAN i nie chcesz ryzykować na produkcji?
Przekaż model serwera, macierzy, komunikaty błędów i opis objawów. Na tej podstawie dobierzemy bezpieczny pierwszy krok.
W środowiskach wirtualnych największym problemem rzadko jest sama awaria. Dużo częściej szkody rosną przez presję czasu i równoczesne działania kilku osób: administrator uruchamia rescan, integrator próbuje remapowania LUN-u, ktoś inny włącza maszynę z kopii, a użytkownicy naciskają na szybki powrót usług. Dlatego już na początku warto wyznaczyć jedną osobę odpowiedzialną za decyzje, zatrzymać niekontrolowane zmiany i spisać sekwencję zdarzeń.
Dobrą praktyką jest też rozdzielenie priorytetów: które maszyny są krytyczne, które dane muszą wrócić najpierw, a które działania mogą poczekać do czasu wykonania bezpiecznej diagnozy. Taki porządek pozwala uniknąć sytuacji, w której pogoń za "szybkim wstaniem" środowiska pogarsza szanse na pełne Dyski SAS i nośniki serwerowe odzyskiwanie danych z RAID albo odtworzenie maszyn z najbardziej wartościowymi danymi.
Jeżeli macierz po restarcie wróciła tylko częściowo, datastore jest widoczny, ale niespójny, a kolejne próby importu lub napraw nie dają stabilnego efektu, to zwykle znak, że problem nie kończy się na poziomie hosta. Wtedy potrzebna jest analiza metadanych, kolejności LUN-ów, stanu cache kontrolera i zależności między warstwą macierzy a systemem plików VMFS lub CSV. To nie jest już dobry moment na eksperymenty wykonywane na produkcji.
Jeżeli temat dotyczy także awarii NAS lub macierzy w firmie, zobacz również instrukcję pierwszych 24 godzin po awarii serwera/NAS oraz wpis awaria RAID w firmie – co robić. Te materiały pomagają uporządkować działania zanim ruszy właściwa diagnoza techniczna.
Jeżeli awaria dotyczy datastore, LUN-ów albo hosta, wybierz tę ścieżkę. Dla samych macierzy i urządzeń NAS masz osobne strony.
Najważniejsze strony w tym klastrze:
Zanim zgłosisz środowisko VMware, Hyper-V lub SAN, sprawdź materiały o kolejności działań i bezpiecznym zatrzymaniu pochopnych napraw.
Materiał o bezpiecznym zatrzymaniu chaosu po awarii środowiska serwerowego i decyzjach przed diagnozą.
Czytaj poradnikKrótki materiał o tym, dlaczego sama redundancja nie zabezpiecza środowiska przed utratą danych.
Czytaj poradnikTo zależy od źródła awarii. Czasem wystarczą wybrane pliki i logi, ale przy uszkodzeniu datastore albo warstwy macierzowej potrzebny bywa szerszy materiał do analizy.
W wielu przypadkach tak, ale kluczowe jest, aby nie wykonywać pochopnych operacji odbudowy, inicjalizacji czy migracji bez kopii.
Tak, analiza takich przypadków zwykle obejmuje nie tylko same pliki maszyn, ale też zależności między snapshotami, konfiguracją hosta i stanem warstwy dyskowej.
Najlepiej zatrzymać improwizowane naprawy, zabezpieczyć logi i opisać kolejność zdarzeń. W środowiskach VM błędna sekwencja działań potrafi powiększyć zakres uszkodzeń logicznych.