Awaria dysku twardego nie jest niczym niezwykłym, niezależnie od technologii, producenta, pojemności, szybkości czy interfejsu. Badania w tym kierunku prowadzono dość dawno, jedna z prób objęła sto tysięcy napędów (Wykład: Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?, autorzy: Bianca Schroeder i Garth A. Gibson z wydziału informatyki na uniwersytecie Carnegie Mellon), podobne badania regularnie prowadzą firmy NetApp oraz Google. Wnioski nie są zachęcające – we wszystkich badaniach współczynnik AFR (Annualized Failure Rate) znacząco przekracza deklarowany przez producenta. Nie ma istotnej korelacji między dyskami różnych producentów, ale jest istotna zależność między wiekiem dysku, a jego obciążeniem.
badania_google1
Moje doświadczenia z dyskami potwierdzają zarówno częste awarie nowych dysków, jak i silną korelację awarii między dyskami z tej samej serii produkcyjnej. Prawdopodobną przyczyną może być nie tyle jakiś błąd producenta, ile traktowanie tych dysków podczas transportu. Zrozumie to każdy, kto miał okazję płynąć statkiem podczas nieco cięższych warunków pogodowych.

Awaria dysku objawia się lawiną błędów, sygnalizacją uszkodzeń via SMART, a także bardzo powolną pracą przy wielokrotnie odczytywanych porcjach danych. Przy dyskach hybrydowych z uszkodzonym modułem Flash, duże i rzadko odczytywane zasoby (które prawdopodobnie nie wpadły do cache SSD) są odczytywane z normalną prędkością, a te najczęściej odczytywane – powoli.
uszkodzony_dysk_seagate_momentus_XT.
Prawdopodobnie właśnie taka awaria dotknęła dwa dyski, które posiadam. Oba uległy awarii tuż po okresie gwarancji. Oba uległy awarii w podobnym czasie, jeden z nich działał w moim laptopie, drugi na komputerze stacjonarnym. Na tym dysku był zainstalowany system operacyjny i przechowywano tam część danych z katalogu domowego użytkownika. Najbardziej obciążony zasób (scratch i katalogi tymczasowe) znajdował się na innym zasobie.
dwa_uszkodzone_seagate_momentus_XT
W obu przypadkach model pracy obu dysków był zupełnie inny, jeden był wystawiony na wstrząsy, zmianę temperatury, wielokrotne uruchamianie i bywał naprawdę mocno obciążony. Drugi z nich był włączany dwa lub trzy razy dziennie, za każdym włączeniem działał kilka godzin, był wolny od silnych wstrząsów, pracował w stałej temperaturze i był dobrze chłodzony.
Niestety producenci systemów operacyjnych rzadko włączają narzędzia diagnostyczne, które sygnalizowałyby użytkownikowi zbliżające się problemy z napędem za pomocą czegoś w rodzaju czerwonej lampki w samochodzie, w USA nazywanej idiot light.
Dane te są dostępne za pomocą SMART. Można je sprawdzić samemu, oto przykład diagnostyki jednego z dysków przeprowadzonej za pomocą prostego w użyciu narzędzia:
zrzut_ekranu-palimpsest

Prawdopodobną przyczyną było zużycie modułu SSD albo celowo zaplanowane ograniczenie żywotności – planned obsolescence. To ostatnie zjawisko obserwowaliśmy od połowy lat dwudziestych, między innymi w wyniku działania kartelu Phoebus utworzonego w 1924r. przez firmy Osram, Philips i General Electric, ale podobne działania można zaobserwować do dziś, robią to producenci drukarek laserowych, komputerów i smartfonów (liderem jest firma Apple, wyniki badań ifixit nie pozostawiają tu żadnych wątpliwości).