SQL Server po awarii dysku — jak zabezpieczyć bazę i środowisko firmy

Awaria SQL Servera po problemie z dyskiem rzadko kończy się na jednym komunikacie błędu. Często najpierw pojawiają się spowolnienia, niedostępność udziałów, niestabilna maszyna wirtualna albo błędy kontrolera, a dopiero potem firma traci dostęp do baz i przestaje działać obieg dokumentów, ERP albo moduły księgowe.

Najważniejsza zasada

Nie zaczynaj od wielokrotnych attach/repair na tej samej bazie, jeśli nie masz pewności co do stanu nośnika. Najpierw ustal, czy źródłem incydentu jest SQL, system plików, VM, RAID/NAS czy sam dysk.

Jak odróżnić problem logiczny od fizycznej awarii nośnika

Jeżeli SQL Server przestaje startować po zaniku zasilania, restarcie hosta albo błędach macierzy, nie można zakładać, że wystarczy zwykła naprawa bazy. Gdy w tle są błędy I/O, RAW, problemy z datastore, niestabilna macierz albo uszkodzony SSD, baza jest tylko ofiarą większego problemu infrastrukturalnego.

To właśnie dlatego w środowiskach B2B tak ważne jest równoległe myślenie o warstwie danych i o warstwie nośnika. W części spraw właściwą ścieżką będzie naprawa bazy, a w innych wcześniej trzeba wykonać diagnostykę dysku, RAID-u, NAS-a albo maszyny wirtualnej.

Czego nie robić, gdy SQL nie wstaje po awarii dysku

Nie uruchamiaj kolejnych prób naprawy na tym samym uszkodzonym wolumenie.
Nie wykonuj migracji "na szybko" z uszkodzonych plików MDF/LDF bez ich zabezpieczenia.
Nie odbudowuj VM lub macierzy, jeżeli nie wiesz, czy to nie właśnie one są źródłem błędów.
Nie aktualizuj hosta, kontrolera ani systemu tylko po to, żeby "sprawdzić czy wstanie".
Nie przywracaj kopii zapasowej na produkcję bez testu spójności i planu rollbacku.

Jak zabezpieczyć środowisko przed dalszą utratą danych

Najpierw zatrzymaj działania generujące zapis na uszkodzonym środowisku. Potem ustal, czy masz aktualne kopie zapasowe, jak wyglądają logi błędów, gdzie dokładnie znajdują się pliki bazy i czy problem dotyczy pojedynczej instancji czy całego stosu: hosta, VM, warstwy pamięci masowej i SQL.

W praktyce warto przygotować prosty pakiet informacji: nazwa systemu, wersja SQL, lokalizacja baz, objawy użytkowników, stan kopii zapasowych, ostatni znany moment poprawnej pracy i zakres wpływu na biznes. To skraca diagnozę i ogranicza chaos w zespole.

Gdzie najczęściej pojawia się niepotrzebne ryzyko

Najczęściej szkody rosną wtedy, gdy różne osoby równolegle "ratują system": administrator odbudowuje hosta, księgowość uruchamia stare kopie, a ktoś inny eksportuje katalogi z uszkodzonego wolumenu. Bez jednego ownera incydentu łatwo o nadpisanie danych, rozjazd wersji i utratę materiału potrzebnego do prawidłowej diagnozy.

Kopia zapasowa, logi i środowisko testowe — co przygotować przed kontaktem

Jeżeli firma ma kopie, trzeba sprawdzić nie tylko ich istnienie, ale też użyteczność: z którego momentu pochodzą, czy zawierają wszystkie potrzebne komponenty i czy da się je odtworzyć poza produkcją. Dobrą praktyką jest też zabezpieczenie logów SQL, systemowych i warstwy pamięci masowej, bo często pokazują, czy awaria zaczęła się od warstwy bazy czy od infrastruktury.

W środowiskach opartych o NAS, RAID albo wirtualizację równie ważne są informacje o zmianach wykonanych tuż przed incydentem: wymianie dysku, przebudowie macierzy, migracji VM, aktualizacji hosta czy restarcie po zaniku zasilania. Tu pomocny bywa też materiał o awarii RAID w firmie i o planie pierwszych 24 godzin po awarii serwera lub NAS.

Jak wygląda dobra ścieżka B2B w takim incydencie

Najpierw ograniczasz szkody, potem porządkujesz dowody i dopiero wtedy decydujesz, czy priorytetem jest odzysk środowiska, naprawa bazy czy przejście na kopię zapasową. Jeżeli w bazach znajdują się dane klientów, dokumenty finansowe albo dane pracowników, już na starcie trzeba też uporządkować kwestie dostępu, poufności i NDA.

Dla działów księgowości oraz biur rachunkowych ważna jest również decyzja, czy chodzi o pełny powrót do produkcji, odzyskanie konkretnego zakresu danych czy bezpieczne przygotowanie środowiska do odtworzenia na nowym serwerze. To różne scenariusze i nie powinny być realizowane jednym "szybkim fixem".

FAQ przed eskalacją

Czy można robić DBCC CHECKDB lub repair od razu po awarii dysku?

Tylko jeśli masz pewność, że nośnik i system plików są stabilne. Przy fizycznej lub logicznej awarii warstwy pamięci masowej taki ruch może pogorszyć sytuację.

Czy kopia zapasowa rozwiązuje sprawę automatycznie?

Nie zawsze. Kopia zapasowa może być stara, niepełna albo niespójna, dlatego najpierw trzeba ocenić jej realną użyteczność.

Kiedy zgłaszać sprawę jako incydent B2B, a nie "problem jednej bazy"?

Gdy awaria wpływa na pracę kilku osób, środowisk albo procesów biznesowych, a źródło może leżeć poza samym SQL-em — np. w warstwie pamięci masowej, RAID, NAS-ie lub VM.

Kiedy przejść do usługi zamiast dalej diagnozować samemu

Jeżeli środowisko produkcyjne jest niestabilne, a zespół nie ma pewności co do spójności baz i kopii zapasowych, dalsze próby w działającym środowisku produkcyjnym podnoszą ryzyko. W takiej sytuacji najlepiej przejść do kontaktu z laboratorium, wskazać priorytet biznesowy i podać, czy problem dotyczy głównie bazy, warstwy pamięci masowej czy całego środowiska. Dla stricte bazodanowych spraw właściwą stroną jest naprawa baz danych, a dla szerszego incydentu firmowego — ścieżka B2B dla firm.

Tryb suspect, MDF/LDF i bezpieczny następny krok

Jeżeli po awarii dysku, RAID-u, NAS-a albo maszyny wirtualnej widzisz bazę w trybie suspect, status oczekiwania na odzyskanie spójności, błędy MDF/LDF albo brak dostępu do bazy, nie traktuj tego jak zwykłego restartu usługi. Najpierw zabezpiecz kopię plików bazy, logi SQL i stan nośników. Dopiero potem wybierz diagnostykę bazy, analizę nośnika albo procedurę B2B.

Nie uruchamiaj DBCC CHECKDB z opcją REPAIR_ALLOW_DATA_LOSS na jedynym egzemplarzu bazy bez kopii MDF/LDF, logów i oceny stanu nośnika.
Nie nadpisuj środowiska produkcyjnego szybkim attach/repair, jeśli nie wiadomo, czy problem zaczął się w SQL, systemie plików, VM, RAID czy samym dysku.