Przejdź do głównej treści

Odzyskiwanie danych z VMware, Hyper-V i SAN — tryb B2B

Najważniejsze na start

Datastore zniknął, LUN nie montuje się po restarcie albo maszyny wirtualne nie uruchamiają się po awarii macierzy? W środowiskach VMware, Hyper-V i SAN największe szkody robią szybkie naprawy na produkcji: rescan, import, naprawa datastore albo ponowne mapowanie LUN-ów bez kopii metadanych.

Awaria w środowisku VMware, Hyper-V albo SAN prawie nigdy nie dotyczy jednej warstwy. Z pozoru problem wygląda jak "brak datastore", "niewidoczny LUN" albo niedostępna maszyna wirtualna. W rzeczywistości przyczyna może siedzieć niżej: w macierzy, cache kontrolera, metadanych wolumenu, VMFS/CSV albo w skutkach wcześniejszego restartu czy migracji.

Dlatego odzyskiwanie danych z wirtualizacji wymaga innego podejścia niż zwykły incydent dyskowy. W takim przypadku trzeba rozumieć zależności między hostem, macierzą, datastore, systemem plików i samą maszyną wirtualną. Błąd na jednej warstwie łatwo przenosi się wyżej.

Pierwszy krok

Zabezpiecz środowisko przed dalszym zapisem i zbierz dane techniczne zanim ktoś uruchomi kolejne zmiany na produkcji.

  • zapisz modele hostów, macierzy i układ LUN-ów,
  • zachowaj komunikaty błędów, logi i czas wystąpienia awarii,
  • Nie uruchamiaj kolejnych rescanów, importów ani napraw VMFS/CSV bez wykonania kopii metadanych.

Najczęstsze scenariusze awarii

  • ESXi lub Hyper-V przestaje widzieć datastore / CSV po restarcie.
  • LUN jest widoczny, ale ma niespójne metadane lub nie daje się poprawnie zamontować.
  • Macierz wróciła po awarii, ale maszyny wirtualne nie startują lub mają uszkodzone pliki.
  • Rescan, resync lub migracja zostały uruchomione na niewłaściwym etapie incydentu.
  • Awaria sprzętowa połączyła się z problemem logicznym — np. błędem RAID i uszkodzeniem struktury datastore.

Czego nie robić w środowisku produkcyjnym

  1. Nie wykonuj napraw VMFS, CSV ani datastore bez pełnej kopii metadanych.
  2. Nie mapuj ponownie LUN-ów tylko po to, żeby "sprawdzić", czy wrócą.
  3. Nie uruchamiaj wielu zmian naraz: restartów hostów, rescanów, importów, aktualizacji kontrolera.
  4. Nie zapisuj nowych danych na zasobie, który może być logicznie niespójny.
  5. Nie zakładaj, że problem jest wyłącznie po stronie hypervisora, jeśli wcześniej były błędy macierzy lub zasilania.

Jak wygląda bezpieczna ścieżka odzysku

Najpierw trzeba ustabilizować środowisko i ograniczyć zapisy. Potem zebrać wszystkie informacje: modele serwerów i macierzy, układ LUN-ów, mapowanie hostów, snapshoty, komunikaty, datę ostatnich zmian i objawy po restarcie. Dopiero wtedy można zdecydować, czy bezpieczniej pracować na poziomie macierzy, na kopii LUN-u, na obrazie datastore czy już na plikach maszyn wirtualnych.

W praktyce kluczowe są kopie i rekonstrukcja poza produkcją. To minimalizuje ryzyko, że odzysk jednej warstwy nadpisze inną. W bardziej złożonych przypadkach dopiero analiza na kopii pokazuje, czy problem dotyczy samej wirtualizacji, czy jest skutkiem wcześniejszej awarii RAID lub NAS.

Kiedy zgłosić sprawę od razu

  • na datastore stoją krytyczne VM-y, bazy danych lub systemy firmowe,
  • problem pojawił się po zaniku zasilania, restarcie macierzy lub migracji,
  • widzisz błędy I/O, znikające LUN-y albo niestabilność odczytu,
  • ktoś już próbował naprawy na produkcji i objawy się zmieniają,
  • przestój rośnie, a środowisko nie ma aktualnej, niezależnej kopii.

Masz awarię VMware, Hyper-V albo SAN i nie chcesz ryzykować na produkcji?
Wyślij model serwera, macierzy, komunikaty błędów i opis objawów przez formularz albo zadzwoń: 573 532 490.

Jak uporządkować incydent zanim zacznie się chaos na produkcji

W środowiskach wirtualnych największym problemem rzadko jest sama awaria. Dużo częściej szkody rosną przez presję czasu i równoczesne działania kilku osób: administrator uruchamia rescan, integrator próbuje remapowania LUN-u, ktoś inny włącza maszynę z kopii, a użytkownicy naciskają na szybki powrót usług. Dlatego już na początku warto wyznaczyć jedną osobę odpowiedzialną za decyzje, zatrzymać niekontrolowane zmiany i spisać sekwencję zdarzeń.

Dobrą praktyką jest też rozdzielenie priorytetów: które maszyny są krytyczne, które dane muszą wrócić najpierw, a które działania mogą poczekać do czasu wykonania bezpiecznej diagnozy. Taki porządek pozwala uniknąć sytuacji, w której pogoń za "szybkim wstaniem" środowiska pogarsza szanse na pełne odzyskiwanie danych z RAID albo odtworzenie maszyn z najbardziej wartościowymi danymi.

Kiedy szukać pomocy zewnętrznej

Jeżeli macierz po restarcie wróciła tylko częściowo, datastore jest widoczny, ale niespójny, a kolejne próby importu lub napraw nie dają stabilnego efektu, to zwykle znak, że problem nie kończy się na poziomie hosta. Wtedy potrzebna jest analiza metadanych, kolejności LUN-ów, stanu cache kontrolera i zależności między warstwą macierzy a systemem plików VMFS lub CSV. To nie jest już dobry moment na eksperymenty wykonywane na produkcji.

Jeżeli temat dotyczy także awarii NAS lub macierzy w firmie, zobacz również instrukcję pierwszych 24 godzin po awarii serwera/NAS oraz wpis awaria RAID w firmie – co robić. Te materiały pomagają uporządkować działania zanim ruszy właściwa diagnoza techniczna.

Jeżeli oprócz warstwy wirtualnej problem dotyczy też samej macierzy albo udziałów firmowych, porównaj objawy z materiałem odzyskiwanie danych z RAID, zobacz korporacyjny case VMware ESXi nie widzi datastore po restarcie i sprawdź, co zrobić w pierwszej dobie po awarii na stronie awaria serwera/NAS – pierwsze 24 godziny.

Masz problem z danymi? Porozmawiajmy.

Napisz, co się stało z Twoim dyskiem lub macierzą – wrócimy do Ciebie z bezpłatną wstępną diagnozą i propozycją odzyskiwania danych.