Container und Systemzustand

Aktualisiert am Mai 2026

Disk Health Überwachung

Überwachen Sie die SMART-Attribute, die Temperatur, neu zugewiesene Sektoren und Indikatoren für drohende Ausfälle von SSDs und HDDs in Echtzeit.

Kostenlose Testversion starten Dokumente anzeigen

Warum überwachen Sie Disk Health?

Festplattenausfälle gehören zu den Hauptursachen für Datenverluste und ungeplante Ausfallzeiten. Die Festplattenüberwachung von Xitoring nutzt die SMART-Technologie (Self-Monitoring, Analysis, and Reporting Technology), um Sie frühzeitig zu warnen, bevor Festplatten ausfallen. Die Überwachung umfasst SSDs, HDDs und RAID-Konfigurationen sowohl unter Linux als auch unter Windows.

Überwachung von SMART-Attributen

Unterstützung für SSDs und HDDs

Kompatibilität mit RAID-Konfigurationen

Temperaturüberwachung

Anzahl der neu zugewiesenen Sektoren

Erfassung der Betriebsstunden

Vorausschauende Ausfallwarnungen

Unterstützung für Linux und Windows

Native Agent-Unterstützung für Linux und Windows

Standardmäßig 1-Minuten-Intervalle für die Metrik-Erfassung

Was ist Disk-Health-Monitoring?

Disk-Health-Monitoring, erklärt

Disk-Health-Monitoring erkennt das Wachstum reallokierter Sektoren, NVMe-Abnutzung, Temperaturspitzen und bevorstehende Ausfallanzeichen Tage oder Wochen, bevor Laufwerke sterben — lang genug, um Daten zu migrieren und das Laufwerk ohne Ausfallzeit zu tauschen. Für Datenbankserver, Backup-Hosts und jeden Workload, bei dem ein Laufwerksausfall Datenverlust bedeutet, ist S.M.A.R.T.-Monitoring der Alert mit dem höchsten ROI, den Sie einrichten können. Xitoring führt smartctl + nvme-cli lokal aus und leitet Alerts an Slack, PagerDuty, Telegram oder Ihre bestehende Rufbereitschaft weiter.

Kennzahlen

Was wir überwachen

SMART-Gesundheitsstatus

Anzeige für den Gesamtzustand der Festplatte (bestanden/nicht bestanden).

Temperatur

Aktuelle Festplattentemperatur in Grad Celsius.

Neu zugewiesene Sektoren

Anzahl der neu zugewiesenen fehlerhaften Sektoren.

Betriebsstunden

Gesamtbetriebsstunden der Festplatte.

Lesefehlerrate

Anteil der aufgetretenen Lesefehler.

Branchen mit ausstehenden Ergebnissen

Sektoren, die neu zugeordnet werden müssen.

Temperature_Celsius (SMART 194)

Aktuelle Laufwerkstemperatur. HDDs degradieren über 50°C; Consumer-SSDs drosseln über 70°C. Alarmieren Sie beim vom Hersteller angegebenen Maximum minus 10°C als Frühwarnung.

UDMA_CRC_Error_Count (SMART 199)

Kabelbedingte CRC-Fehler auf der SATA-/SAS-Schnittstelle. Steigende Werte deuten auf ein defektes Kabel oder eine lose Verbindung hin — eine einfache Behebung, die oft fälschlich als Laufwerksausfall diagnostiziert wird.

SSD-Verschleiß (Wear_Leveling_Count + Total_LBAs_Written)

SSD-Endurance-Tracking. `Wear_Leveling_Count` normalisiert die verbleibende Lebensdauer; `Total_LBAs_Written` zusammen mit dem TBW-Rating des Laufwerks ergibt den aktuellen Verschleißanteil. Alarmieren Sie bei 80% Nutzung.

NVMe percentage_used

Aus `nvme smart-log` — Herstellerschätzung der verbrauchten Lebensdauer (0–100%, kann bei abgenutzten Laufwerken 100% übersteigen). Warnung über 80%; kritisch über 95%.

NVMe available_spare

Prozent der verbleibenden Reservekapazität für das Ersetzen defekter Blöcke. Warnung unter 10%; kritisch unter 5% (`available_spare_threshold` ist typischerweise dort gesetzt).

NVMe critical_warning

Bitfeld aus `nvme smart-log`, das markiert: Spare unter Schwellenwert, Temperatur über Schwellenwert, Zuverlässigkeit des Geräts degradiert, Read-only-Modus, Backup des flüchtigen Speichers fehlgeschlagen. Jeder Wert ungleich null = sofortiger Alert.

Auslöser & Benachrichtigungen

Konfigurierbare Alarmauslöser

Richten Sie benutzerdefinierte Trigger in Ihrem Dashboard ein, um benachrichtigt zu werden, sobald die Kennzahlen von „Disk Health“ Ihre festgelegten Schwellenwerte überschreiten.

Disk Health Dashboard zur Konfiguration von Überwachungsauslösern

SMART-Gesundheitsstatus

entscheidend

Wird ausgelöst, wenn SMART einen fehlerhaften Status meldet.

Neu zugewiesene Sektoren

entscheidend

Warnung, wenn die Anzahl der neu zugewiesenen Sektoren den Schwellenwert überschreitet.

Festplattentemperatur

Warnung

Wird ausgelöst, wenn die Festplattentemperatur den sicheren Betriebsbereich überschreitet.

Branchen mit ungewissem Ausgang

Warnung

Löst einen Alarm aus, wenn die Anzahl der ausstehenden Sektoren auf einen möglichen Ausfall hindeutet.

Bedeutung von Überwachung des Festplattenzustands

Festplattenausfälle können zu Datenverlusten und kostspieligen Ausfallzeiten führen. Die SMART-Überwachung liefert Frühwarnzeichen – von steigenden Temperaturen über eine zunehmende Anzahl neu zugewiesener Sektoren bis hin zu Spitzenwerten bei Lesefehlern –, sodass Sie Maßnahmen ergreifen können, bevor eine Festplatte ausfällt.

Verhindern Sie Datenverluste durch frühzeitige Fehlererkennung
Optimieren Sie die Leistung, indem Sie Engpässe identifizieren
Kapazitätsplanung mit historischer Trendanalyse
Sicherstellung der Einhaltung der Vorschriften zur Überwachung der Datenintegrität

SMART-Überwachung des Festplattenzustands

Vorausschauende Analyse von Festplattenausfällen

Warum sich für uns entscheiden? Xitoring

Xitoring bietet eine konfigurationsfreie Überwachung des Festplattenzustands mit SMART-Integration für alle Festplattentypen. Erhalten Sie Echtzeit-Benachrichtigungen, historische Trends und vorausschauende Ausfallindikatoren in einem einheitlichen Dashboard.

Unterstützt SSDs, HDDs und RAID-Arrays
Einrichtung mit einem einzigen Befehl unter Linux und Windows
Anpassbare Schwellenwerte für SMART-Attribute
Mehrkanal-Benachrichtigung bei kritischen Festplattenereignissen

Xitoring-Dashboard zum Festplattenzustand

Anwendungsfälle

Häufige Disk-Health-Monitoring- Szenarien

Wo die Festplattenüberwachung Laufwerksausfälle am häufigsten erkennt, bevor sie echten Schaden anrichten.

Datenbankserver

Ein ausgefallenes Laufwerk in einer Datenbank kann Ausfallzeiten, verlorene Bestellungen oder im schlimmsten Fall beschädigte Daten bedeuten. Wir überwachen jedes Laufwerk auf frühe Anzeichen eines Ausfalls, damit das Team eine problematische Festplatte nach eigenem Zeitplan austauschen kann – und nicht mitten in einem Ausfall um 3 Uhr morgens.

Backup- und Archivserver

Das einzigartige Problem bei Backup-Laufwerken ist, dass ein Ausfall unsichtbar bleibt, bis zu dem Tag, an dem Sie das Backup tatsächlich benötigen – dann ist es zu spät. Wir testen jedes Laufwerk nach einem Zeitplan und decken Verschleiß frühzeitig auf, damit Sie niemals nach einem Backup greifen, das nicht vorhanden ist.

Server, die viele Daten schreiben (SSDs)

SSDs haben eine begrenzte Anzahl von Schreibvorgängen, bevor sie verschleißen, und stark frequentierte Datenbanken und datenintensive Anwendungen verbrauchen sie schneller, als die meisten Teams erkennen. Wir verfolgen den Verschleiß in einfachen Prozentangaben, damit Laufwerke rechtzeitig ausgetauscht werden – nicht erst nach einem plötzlichen, nicht wiederherstellbaren Ausfall.

Bevor Sie beginnen

Voraussetzungen für Disk Health

Stellen Sie sicher, dass diese Punkte erfüllt sind — danach ist die Installation eine Sache von 60 Sekunden.

Linux-Server (Debian/Ubuntu, RHEL/CentOS oder kompatible Distribution)
Paket smartmontools installiert (smartctl) und lsblk verfügbar
sudo-/root-Zugriff — SMART-Daten erfordern erhöhte Berechtigungen

Einrichtungsanleitung

Erste Schritte in Minuten

Voraussetzungen installieren (Linux)

Installieren Sie smartmontools, um die SMART-Datenerfassung zu ermöglichen. Stellen Sie sicher, dass lsblk auf Ihrem System verfügbar ist.

# Ubuntu/Debian
sudo apt-get install smartmontools

# CentOS/RHEL
sudo yum install smartmontools

Disk-Health-Integration aktivieren

Führen Sie den integrate-Befehl aus und wählen Sie Disk Health. Xitogent erkennt Ihre Festplatten automatisch und beginnt mit der SMART-Datenerfassung. Unter Windows sind keine Voraussetzungen erforderlich.

xitogent integrate

Funktion überprüfen

Führen Sie diesen Befehl auf dem Server aus, um zu bestätigen, dass Xitogent die Integration erkannt hat. Innerhalb von etwa 30 Sekunden werden frische Metriken in Ihr Dashboard gestreamt.

sudo xitogent status

Vergleichen

Erwägen Sie Alternativen?

Sehen Sie, wie sich Xitoring gegen die Alternativen für Disk Health-Monitoring schlägt — Pauschalpreise, tiefere Integrationen und ein Agent, der Ihren gesamten Stack abdeckt.

Xitoring vs.

Datadog

Pay-per-Host-Preise werden bei großem Umfang schnell teuer. Sehen Sie, wo Xitoring die gleiche Abdeckung mit einem Pauschaltarif liefert.

Xitoring vs.

New Relic

Full-Stack-Observability ohne Enterprise-Stufen, Ingestion-Gebühren oder Lizenzen pro Nutzer.

Xitoring vs.

Grafana Cloud

Ein Tool zu einem Preis, statt Prometheus, Loki und Grafana zu einem Stack zusammenzuflicken, den Sie selbst überwachen müssen.

Alle Vergleiche ansehen

Häufig gestellte Fragen

Welche Festplattentypen werden unterstützt?

Xitoring unterstützt SSDs, HDDs und RAID-Konfigurationen sowohl auf Linux- als auch auf Windows-Servern. Jede Festplatte, die SMART-Daten bereitstellt, ist kompatibel.

Muss ich zusätzliche Software installieren?

Unter Linux muss „smartmontools“ installiert sein (apt-get install smartmontools oder yum install smartmontools). Unter Windows ist keine zusätzliche Software erforderlich.

Kann ich NVMe-Laufwerke überwachen?

Ja, NVMe-Laufwerke, die SMART- und Zustandsdaten über Standardschnittstellen bereitstellen, werden von der Integration unterstützt.

Wie oft werden Kennzahlen erfasst?

Standardmäßig werden Kennzahlen zum Festplattenzustand im 1-Minuten-Takt erfasst, wodurch eine rechtzeitige Erkennung von Anomalien gewährleistet ist.

Welche SMART-Attribute sagen Laufwerksausfälle voraus?

Die quartalsweisen Backblaze-Drive-Stats-Berichte (der Goldstandard, basierend auf Millionen Laufwerksjahren an Daten) identifizieren fünf Attribute als stärkste Ausfallvorhersager: SMART 5 (Reallocated_Sector_Ct), SMART 187 (Reported_Uncorrectable_Errors), SMART 188 (Command_Timeout), SMART 197 (Current_Pending_Sector_Ct) und SMART 198 (Offline_Uncorrectable). Jeder Rohwert ungleich null bei 187/197/198 verdient Aufmerksamkeit; schnelles Wachstum bei einem der fünf = unmittelbar bevorstehender Ausfall.

Wie überwache ich die Gesundheit von NVMe-Laufwerken?

Nutzen Sie `nvme-cli`: `sudo nvme smart-log /dev/nvme0n1` liefert `critical_warning` (Bitfeld — jeder Wert ungleich null ist sofortiger Alert), `temperature`, `available_spare` (Warnung < 10%, kritisch < 5%), `percentage_used` (Warnung > 80%), `data_units_written` (× 512KB-Blöcke für insgesamt geschrieben), `media_errors`, `num_err_log_entries`, `unsafe_shutdowns`. Xitogent liest all diese und erstellt Trends im Zeitverlauf.

Wie überwache ich die Disk-Health unter Windows?

Windows stellt SMART über WMI bereit (`Win32_DiskDrive`, `MSStorageDriver_FailurePredictStatus`) und über das Storage-Spaces-PowerShell-Modul (`Get-PhysicalDisk`, `Get-StorageReliabilityCounter`). Der Xitogent-Windows-Agent liest beide und übersetzt sie in dasselbe Metrik-Set wie unter Linux. ist eine beliebte GUI für Ad-hoc-Inspektion.

Wie oft sollte ich smartctl-Self-Tests ausführen?

Moderne Kadenz: wöchentliche Short-Tests (~2 Minuten, nicht störend) + monatliche Long-Tests (~Stunden, leichte Performance-Auswirkung, in IO-armen Zeiten ausführen). Konfigurieren Sie dies über `smartd.conf` für die automatische Planung. Xitogent erfasst Self-Test-Ergebnisse aus `smartctl -l selftest` und macht Fehlschläge sichtbar, selbst wenn die SMART-Gesamtgesundheit des Laufwerks weiterhin PASS meldet.

Funktioniert dies mit RAID-Arrays?

Ja, bei den meisten modernen RAID-Controllern (LSI/Broadcom megaraid, HP Smart Array, Adaptec) — sie geben SMART-Daten pro Laufwerk durch. Verwenden Sie die Syntax `smartctl -d megaraid,N /dev/sda` (Xitogent erkennt dies automatisch). Bei Software-RAID (Linux mdraid, ZFS) ist jedes zugrunde liegende Laufwerk unabhängig überwachbar. Bei RAID-on-Chip-Gehäusen, die SMART verbergen, bleibt nur die Controller-Ebene zur Gesundheitsüberwachung.

Disk Health überwachen heute

In weniger als 60 Sekunden eingerichtet. Keine Kreditkarte erforderlich. Umfassende Kennzahlen vom ersten Tag an.

Kostenlose Testversion starten

Entdecke weiter

Disk Health Überwachung

Warum überwachen Sie Disk Health?

Disk-Health-Monitoring, erklärt

Was wir überwachen

SMART-Gesundheitsstatus

Temperatur

Neu zugewiesene Sektoren

Betriebsstunden

Lesefehlerrate

Branchen mit ausstehenden Ergebnissen

Temperature_Celsius (SMART 194)

UDMA_CRC_Error_Count (SMART 199)

SSD-Verschleiß (Wear_Leveling_Count + Total_LBAs_Written)

NVMe percentage_used

NVMe available_spare

NVMe critical_warning

Konfigurierbare Alarmauslöser

SMART-Gesundheitsstatus

Neu zugewiesene Sektoren

Festplattentemperatur

Branchen mit ungewissem Ausgang

Bedeutung von Überwachung des Festplattenzustands

Warum sich für uns entscheiden? Xitoring

Häufige Disk-Health-Monitoring- Szenarien

Datenbankserver

Backup- und Archivserver

Server, die viele Daten schreiben (SSDs)

Voraussetzungen für Disk Health

Erste Schritte in Minuten

Voraussetzungen installieren (Linux)

Disk-Health-Integration aktivieren

Funktion überprüfen

Erwägen Sie Alternativen?

Datadog

New Relic

Grafana Cloud

Häufig gestellte Fragen

Disk Health überwachen heute

Verwandte Themen Integrationen