Contenitori e integrità del sistema
    Aggiornato il maggio 2026
    Disk Health logo

    Disk Health Monitoraggio

    Monitora in tempo reale gli attributi SMART dei dischi, la temperatura, i settori riallocati e gli indicatori predittivi di guasto su SSD e HDD.

    Perché monitorare Disk Health?

    I guasti ai dischi rappresentano una delle principali cause di perdita di dati e di tempi di inattività imprevisti. Il monitoraggio dello stato dei dischi di Xitoring sfrutta la tecnologia SMART (Self-Monitoring, Analysis, and Reporting Technology) per fornire avvisi tempestivi prima che le unità si guastino, coprendo SSD, HDD e configurazioni RAID sia su Linux che su Windows.

    Monitoraggio degli attributi SMART
    Supporto SSD e HDD
    Compatibilità con configurazioni RAID
    Monitoraggio della temperatura
    Conteggio dei settori riallocati
    Monitoraggio delle ore di accensione
    Avvisi predittivi di guasto
    Supporto per Linux e Windows
    Supporto nativo dell’agent per Linux e Windows
    Intervalli di raccolta metriche a 1 minuto out of the box
    Cos’è il disk health monitoring?

    Disk health monitoring, spiegato

    Il disk health monitoring intercetta la crescita dei settori riallocati, l’usura degli NVMe, i picchi di temperatura e gli indicatori di guasto imminente giorni o settimane prima che il disco muoia — abbastanza tempo per migrare i dati e sostituirlo senza downtime. Per database server, host di backup e qualsiasi workload in cui un guasto disco significa perdita di dati, il monitoring SMART è l’alert con il ROI più alto che si possa impostare. Xitoring esegue smartctl + nvme-cli localmente e instrada gli alert verso Slack, PagerDuty, Telegram o il suo on-call esistente.

    Indicatori

    Ciò che monitoriamo

    Stato di salute SMART

    Indicatore complessivo di salute del disco (pass/fail).

    Temperatura

    Temperatura attuale del disco in gradi Celsius.

    Settori riallocati

    Conteggio dei settori danneggiati rimappati.

    Ore di accensione

    Ore operative totali del disco.

    Tasso di errori di lettura

    Tasso di errori di lettura riscontrati.

    Settori in attesa

    Settori in attesa di rimappatura.

    Temperature_Celsius (SMART 194)

    Temperatura attuale del disco. Gli HDD si degradano sopra i 50°C; gli SSD consumer fanno throttling sopra i 70°C. Imposti l’alert al massimo dichiarato dal vendor meno 10°C come early warning.

    UDMA_CRC_Error_Count (SMART 199)

    Errori CRC sull’interfaccia SATA/SAS legati al cavo. Valori in crescita segnalano un cavo difettoso o una connessione lasca — un fix semplice, spesso scambiato per un guasto del disco.

    Usura SSD (Wear_Leveling_Count + Total_LBAs_Written)

    Tracciamento dell’endurance SSD. `Wear_Leveling_Count` esprime la vita residua normalizzata; `Total_LBAs_Written` confrontato con il TBW dichiarato del disco dà la percentuale di usura attuale. Alert all’80% utilizzato.

    NVMe percentage_used

    Da `nvme smart-log` — stima del vendor della vita consumata (0–100%, può superare 100% su dischi usurati). Warning sopra l’80%; critico sopra il 95%.

    NVMe available_spare

    Percentuale di capacità di riserva residua per la sostituzione dei bad block. Warning sotto il 10%; critico sotto il 5% (`available_spare_threshold` è di solito impostato lì).

    NVMe critical_warning

    Bitfield da `nvme smart-log` che segnala: spare sotto soglia, temperatura sopra soglia, affidabilità del device degradata, modalità read-only, backup della volatile memory fallito. Qualsiasi valore diverso da zero = alert immediato.

    Notifiche e avvisi

    Configurabile condizioni di attivazione

    Imposta dei trigger personalizzati nella tua dashboard per ricevere una notifica non appena le metriche dell{name}e superano le soglie da te definite.

    Disk Health pannello di controllo per la configurazione dei trigger di monitoraggio

    Stato di salute SMART

    critico

    Si attiva quando SMART segnala uno stato di salute fallito.

    Settori riallocati

    critico

    Avvisa quando il numero di settori riallocati supera la soglia.

    Temperatura del disco

    avviso

    Si attiva quando la temperatura del disco supera l'intervallo operativo sicuro.

    Settori in attesa

    avviso

    Si attiva quando il numero di settori in attesa indica un possibile guasto.

    01

    Importanza del monitoraggio della salute del disco

    I guasti dei dischi possono causare perdita di dati e downtime costosi. Il monitoraggio SMART fornisce segnali di allarme precoci — dall'aumento delle temperature all'incremento dei settori riallocati fino ai picchi di errori di lettura — così puoi intervenire prima che un disco si rompa.

    • Previeni la perdita di dati con il rilevamento precoce dei guasti
    • Ottimizza le prestazioni identificando i colli di bottiglia
    • Pianifica la capacità con l'analisi storica dei trend
    • Mantieni la conformità con il monitoraggio dell'integrità dei dati
    Monitoraggio SMART della salute del disco
    Analisi predittiva dei guasti del disco
    02

    Perché scegliere Xitoring

    Xitoring fornisce monitoraggio della salute del disco zero-config con integrazione SMART per tutti i tipi di disco. Ottieni avvisi in tempo reale, trend storici e indicatori predittivi di guasto in una dashboard unificata.

    • Compatibile con SSD, HDD e array RAID
    • Configurazione con un solo comando su Linux e Windows
    • Soglie personalizzabili sugli attributi SMART
    • Alerting multicanale per eventi critici del disco
    Dashboard Xitoring per la salute dei dischi
    Avvisi di salute del disco
    Casi d’uso

    Scenari comuni di disk health monitoring

    Dove il monitoring SMART intercetta più spesso i guasti prima che causino perdita di dati.

    Database server (guasto disco = downtime)

    PostgreSQL, MySQL, MongoDB e qualsiasi DB OLTP necessitano di un monitoring disco a tolleranza zero — un disco guasto su un primary significa, nel migliore dei casi, un failover; nel peggiore, corruzione dei dati. Tracci gli attributi Backblaze 5, esegua self-test short settimanali e long mensili e imposti un alert al primo segno di Current_Pending_Sector_Ct > 0. Abbini lo scrub ZFS/Btrfs per la validazione checksum a livello di filesystem.

    Server di backup / archivio (guasto disco = perdita irrecuperabile)

    Gli host di backup hanno la peculiarità che un guasto disco è invisibile finché non serve il backup. Self-test long mensili più un trending SMART per disco sono obbligatori — intercetti l’usura prima che il disco che custodisce l’unica copia dei dati dello scorso trimestre si guasti. Pianifichi i self-test in finestre a basso I/O; alert su qualsiasi settore pending o uncorrectable.

    Tracciamento usura SSD (Kafka / Elasticsearch / DB hot)

    Carichi di lavoro write-heavy — broker Kafka, tier hot di Elasticsearch, OLTP intensi — bruciano l’endurance SSD in fretta. Tracci Total_LBAs_Written rispetto al TBW (Total Bytes Written) dichiarato dal disco e Wear_Leveling_Count. Su NVMe sorvegli percentage_used (stima del vendor sulla vita) e available_spare. Sostituisca i dischi prima che raggiungano l’80% utilizzato per evitare il passaggio improvviso in modalità read-only.

    Prima di iniziare

    Prerequisiti per Disk Health

    Assicurati di avere tutto questo in posizione — la maggior parte delle installazioni dura 60 secondi una volta soddisfatte le condizioni.

    • Server Linux (Debian/Ubuntu, RHEL/CentOS, o distribuzione compatibile)
    • Pacchetto smartmontools installato (smartctl) e lsblk disponibile
    • Accesso sudo / root — i dati SMART richiedono permessi elevati
    Guida all'installazione

    Inizia con verbali

    1

    Installa i prerequisiti (Linux)

    Installa smartmontools per abilitare la raccolta dei dati SMART. Assicurati che lsblk sia disponibile sul sistema.

    # Ubuntu/Debian sudo apt-get install smartmontools # CentOS/RHEL sudo yum install smartmontools
    2

    Abilita l'integrazione Disk Health

    Esegui il comando integrate e seleziona Disk Health. Xitogent rileva automaticamente i tuoi dischi e inizia a raccogliere dati SMART. Nessun prerequisito richiesto su Windows.

    xitogent integrate
    3

    Verifica che funzioni

    Esegui questo comando sul server per confermare che Xitogent ha rilevato l'integrazione. In circa 30 secondi nuove metriche cominceranno a comparire sulla tua dashboard.

    sudo xitogent status

    Spesso domande poste

    Quali tipi di disco sono supportati?
    Xitoring supporta SSD, HDD e configurazioni RAID sia su server Linux che Windows. È compatibile qualsiasi disco che fornisca dati SMART.
    Devo installare qualche programma in più?
    Su Linux è necessario installare smartmontools (apt-get install smartmontools o yum install smartmontools). Su Windows non è richiesto alcun software aggiuntivo.
    Posso monitorare le unità NVMe?
    Sì, l'integrazione supporta le unità NVMe che rendono disponibili i dati SMART/di integrità tramite interfacce standard.
    Con quale frequenza vengono raccolti i dati?
    Per impostazione predefinita, i dati relativi allo stato di salute dei dischi vengono raccolti a intervalli di un minuto, garantendo il rilevamento tempestivo di eventuali anomalie.
    Quali attributi SMART predicono il guasto del disco?
    I report trimestrali Backblaze Drive Stats (lo standard di riferimento, basati su milioni di anni-disco di dati) identificano cinque attributi come i predittori più forti: SMART 5 (Reallocated_Sector_Ct), SMART 187 (Reported_Uncorrectable_Errors), SMART 188 (Command_Timeout), SMART 197 (Current_Pending_Sector_Ct) e SMART 198 (Offline_Uncorrectable). Qualsiasi valore raw diverso da zero su 187/197/198 richiede attenzione; una crescita rapida su uno qualsiasi dei cinque = guasto imminente.
    Come monitoro la salute dei dischi NVMe?
    Usi `nvme-cli`: `sudo nvme smart-log /dev/nvme0n1` restituisce `critical_warning` (bitfield — qualsiasi non-zero è alert immediato), `temperature`, `available_spare` (warning < 10%, critico < 5%), `percentage_used` (warning > 80%), `data_units_written` (× blocchi da 512KB per il totale scritto), `media_errors`, `num_err_log_entries`, `unsafe_shutdowns`. Xitogent li legge tutti e ne fa il trending nel tempo.
    Come monitoro la salute del disco su Windows?
    Windows espone SMART tramite WMI (`Win32_DiskDrive`, `MSStorageDriver_FailurePredictStatus`) e tramite il modulo PowerShell di Storage Spaces (`Get-PhysicalDisk`, `Get-StorageReliabilityCounter`). L’agent Windows di Xitogent legge entrambi e li traduce nello stesso set di metriche di Linux. è una GUI molto usata per l’ispezione ad-hoc.
    Con che frequenza dovrei eseguire i self-test smartctl?
    Cadenza moderna: test short settimanali (~2 minuti, non disruptive) + test long mensili (~ore, lieve impatto sulle performance, da eseguire in finestre a basso I/O). Li configuri tramite `smartd.conf` per lo scheduling automatico. Xitogent recupera i risultati dei self-test da `smartctl -l selftest` ed evidenzia i fallimenti anche quando lo stato SMART complessivo del disco riporta ancora PASS.
    Funziona con array RAID?
    Sì, con la maggior parte dei controller RAID moderni (LSI/Broadcom megaraid, HP Smart Array, Adaptec) — fanno passthrough dei dati SMART per ciascun disco. Usi la sintassi tipo `smartctl -d megaraid,N /dev/sda` (Xitogent la rileva automaticamente). Per il RAID software (Linux mdraid, ZFS), ogni disco sottostante è monitorabile in modo indipendente. Per enclosure RAID-on-chip che nascondono SMART, si è limitati alla sola salute a livello di controller.

    Inizia a monitorare Disk Health oggi

    Configurazione in meno di 60 secondi. Non è richiesta alcuna carta di credito. Statistiche complete fin dal primo giorno.

    Inizia la prova gratuita

    Continua a esplorare

    Correlati Integrazioni