Contentores e integridade do sistema
    Atualizado maio de 2026
    Disk Health logo

    Disk Health Monitorização

    Monitorize os atributos SMART dos discos, a temperatura, os setores reatribuídos e os indicadores de falha preditiva em SSDs e HDDs em tempo real.

    Por que monitorizar Disk Health?

    As falhas de disco são uma das principais causas de perda de dados e de paragens não planeadas. A monitorização do estado dos discos da Xitoring utiliza a tecnologia SMART (Self-Monitoring, Analysis, and Reporting Technology) para emitir alertas antecipados antes que as unidades falhem, abrangendo SSDs, HDDs e configurações RAID, tanto em Linux como em Windows.

    Monitorização de atributos SMART
    Suporte para SSDs e HDDs
    Compatibilidade com configurações RAID
    Acompanhamento da temperatura
    Contagem de setores realocados
    Acompanhamento de horas de funcionamento
    Alertas preditivos de falha
    Suporte para Linux e Windows
    Suporte nativo dos agentes Linux e Windows
    Intervalos de recolha de métricas de 1 minuto de raiz
    O que é a monitorização da saúde do disco?

    Monitorização da saúde do disco, explicada

    A monitorização da saúde do disco deteta o crescimento de setores realocados, o desgaste de NVMe, picos de temperatura e indicadores iminentes de falha dias ou semanas antes de as drives morrerem — tempo suficiente para migrar dados e trocar a drive sem downtime. Para servidores de bases de dados, hosts de backup e qualquer workload onde a falha de uma drive significa perda de dados, a monitorização SMART é o alerta com maior ROI que pode configurar. O Xitoring corre smartctl + nvme-cli localmente e encaminha alertas para Slack, PagerDuty, Telegram ou o seu on-call existente.

    Métricas

    O que monitorizamos

    Estado de saúde SMART

    Indicador global de saúde do disco (passa/falha).

    Temperatura

    Temperatura atual do disco em graus Celsius.

    Setores realocados

    Contagem de setores defeituosos remapeados.

    Horas de funcionamento

    Horas operacionais totais do disco.

    Taxa de erros de leitura

    Taxa de erros de leitura encontrados.

    Setores pendentes

    Setores à espera de serem remapeados.

    Temperature_Celsius (SMART 194)

    Temperatura atual da drive. Os HDDs degradam-se acima dos 50 °C; SSDs de consumidor fazem throttling acima dos 70 °C. Alerte ao valor máximo definido pelo fabricante menos 10 °C, para aviso antecipado.

    UDMA_CRC_Error_Count (SMART 199)

    Erros CRC relacionados com o cabo na interface SATA/SAS. Valores em aumento sinalizam um cabo defeituoso ou uma ligação solta — uma correção fácil que é frequentemente confundida com falha de drive.

    Desgaste de SSD (Wear_Leveling_Count + Total_LBAs_Written)

    Monitorização do endurance do SSD. `Wear_Leveling_Count` normalizado para vida útil restante; `Total_LBAs_Written` mais o TBW nominal da drive dão a percentagem atual de desgaste. Alerte aos 80% usados.

    NVMe percentage_used

    Do `nvme smart-log` — estimativa do fabricante para a vida consumida (0-100%, pode exceder 100% em drives desgastadas). Aviso acima de 80%; crítico acima de 95%.

    NVMe available_spare

    Percentagem de capacidade de reserva restante para substituição de bad blocks. Aviso abaixo de 10%; crítico abaixo de 5% (o `available_spare_threshold` é tipicamente definido a esse valor).

    NVMe critical_warning

    Bitfield do `nvme smart-log` que sinaliza: reserva abaixo do limiar, temperatura acima do limiar, fiabilidade do dispositivo degradada, modo apenas de leitura, falha do backup de memória volátil. Qualquer valor diferente de zero = alerta imediato.

    Alerta e notificação

    Configurável condições de alerta

    Configure alertas personalizados no seu painel para ser notificado assim que as métricas dDisk Health ultrapassarem os limites que definiu.

    Disk Health painel de controlo da configuração dos gatilhos de monitorização

    Estado de saúde SMART

    crítico

    Dispara quando o SMART reporta um estado de saúde de falha.

    Setores realocados

    crítico

    Alerta quando a contagem de setores realocados excede o limite.

    Temperatura do disco

    aviso

    Dispara quando a temperatura do disco excede o intervalo operacional seguro.

    Setores pendentes

    aviso

    Dispara quando a contagem de setores pendentes indica falha potencial.

    01

    Importância da monitorização da saúde dos discos

    As falhas de disco podem resultar em perda de dados e indisponibilidade dispendiosa. A monitorização SMART fornece sinais de aviso precoces — desde temperaturas em subida e setores realocados a aumentar até picos de erros de leitura — para que possa atuar antes de uma drive falhar.

    • Evite a perda de dados com deteção precoce de falhas
    • Otimize o desempenho identificando estrangulamentos
    • Planeie capacidade com análise histórica de tendências
    • Mantenha a conformidade com monitorização de integridade de dados
    Monitorização SMART da saúde do disco
    Análise preditiva de falhas de disco
    02

    Porquê escolher Xitoring

    O Xitoring fornece monitorização de saúde de disco zero-config com integração SMART para todos os tipos de disco. Obtenha alertas em tempo real, tendências históricas e indicadores preditivos de falha num dashboard unificado.

    • Compatível com SSDs, HDDs e arrays RAID
    • Configuração num único comando em Linux e Windows
    • Limiares personalizáveis para atributos SMART
    • Alertas multicanal para eventos críticos de disco
    Dashboard Xitoring de saúde dos discos
    Alertas de saúde do disco
    Casos de uso

    Cenários comuns de monitorização da saúde do disco

    Onde a monitorização de disco mais frequentemente deteta falhas de unidade antes que causem danos reais.

    Servidores de base de dados

    Uma unidade avariada numa base de dados pode significar tempo de inatividade, encomendas perdidas ou, no pior dos casos, dados corrompidos. Monitorizamos cada unidade para detetar os primeiros sinais de falha para que a equipa possa substituir um disco com problemas no seu próprio horário — e não no meio de uma interrupção às 3 da manhã.

    Servidores de backup e arquivo

    O problema único com as unidades de backup é que uma falha permanece invisível até ao dia em que realmente precisa do backup — altura em que já é tarde demais. Testamos cada unidade numa base regular e detetamos o desgaste precocemente para que nunca procure um backup que não existe.

    Servidores que escrevem muitos dados (SSDs)

    Os SSDs têm um número limitado de escritas antes de se desgastarem, e bases de dados movimentadas e aplicações com muitos dados esgotam-nos mais rapidamente do que a maioria das equipas percebe. Monitorizamos o desgaste em percentagens claras para que as unidades sejam substituídas a tempo — e não após uma falha súbita e irrecuperável.

    Antes de começar

    Pré-requisitos para Disk Health

    Certifique-se de que tem tudo isto pronto — depois disso, a maioria das instalações leva 60 segundos.

    • Servidor Linux (Debian/Ubuntu, RHEL/CentOS ou distribuição compatível)
    • Pacote smartmontools instalado (smartctl) e lsblk disponível
    • Acesso sudo / root — os dados SMART exigem permissões elevadas
    Guia de configuração

    Comece a minutos

    1

    Instalar pré-requisitos (Linux)

    Instale o smartmontools para ativar a recolha de dados SMART. Garanta que o lsblk está disponível no seu sistema.

    # Ubuntu/Debian sudo apt-get install smartmontools # CentOS/RHEL sudo yum install smartmontools
    2

    Ativar a integração Disk Health

    Execute o comando integrate e selecione Disk Health. O Xitogent deteta automaticamente os seus discos e começa a recolher dados SMART. Não são necessários pré-requisitos no Windows.

    xitogent integrate
    3

    Confirme que está a funcionar

    Execute este comando no servidor para confirmar que o Xitogent detetou a integração. Em cerca de 30 segundos começam a chegar novas métricas ao seu painel.

    sudo xitogent status

    Frequentemente perguntas feitas

    Que tipos de discos são suportados?
    Xitoring suporta SSDs, HDDs e configurações RAID em servidores Linux e Windows. Qualquer disco que forneça dados SMART é compatível.
    Preciso de instalar software adicional?
    No Linux, é necessário ter o smartmontools instalado (apt-get install smartmontools ou yum install smartmontools). No Windows, não é necessário qualquer software adicional.
    Posso monitorizar unidades NVMe?
    Sim, as unidades NVMe que disponibilizam dados SMART/de integridade através de interfaces padrão são suportadas pela integração.
    Com que frequência são recolhidos os indicadores?
    Por predefinição, os indicadores de integridade do disco são recolhidos a intervalos de 1 minuto, garantindo a deteção atempada de quaisquer anomalias.
    Que atributos SMART preveem falha de drive?
    Os relatórios trimestrais Drive Stats do Backblaze (o padrão de ouro, baseado em milhões de drive-years de dados) identificam cinco atributos como os preditores de falha mais fortes: SMART 5 (Reallocated_Sector_Ct), SMART 187 (Reported_Uncorrectable_Errors), SMART 188 (Command_Timeout), SMART 197 (Current_Pending_Sector_Ct) e SMART 198 (Offline_Uncorrectable). Qualquer valor raw diferente de zero em 187/197/198 merece atenção; um crescimento rápido em qualquer um dos cinco = falha iminente.
    Como monitorizo a saúde de uma drive NVMe?
    Use o `nvme-cli`: `sudo nvme smart-log /dev/nvme0n1` devolve `critical_warning` (bitfield — qualquer valor diferente de zero é alerta imediato), `temperature`, `available_spare` (aviso < 10%, crítico < 5%), `percentage_used` (aviso > 80%), `data_units_written` (× blocos de 512KB para total escrito), `media_errors`, `num_err_log_entries`, `unsafe_shutdowns`. O Xitogent lê todos eles e faz trending ao longo do tempo.
    Como monitorizo a saúde do disco em Windows?
    O Windows expõe o SMART via WMI (`Win32_DiskDrive`, `MSStorageDriver_FailurePredictStatus`) e via o módulo PowerShell Storage Spaces (`Get-PhysicalDisk`, `Get-StorageReliabilityCounter`). O agente Windows do Xitogent lê ambos e traduz para o mesmo conjunto de métricas que em Linux. É uma GUI popular para inspeção ad-hoc.
    Com que frequência devo correr self-tests do smartctl?
    Cadência moderna: testes short semanais (~2 minutos, não disruptivos) + testes long mensais (~horas, ligeiro impacto no desempenho, correr durante janelas de IO baixo). Configure via `smartd.conf` para agendamento automático. O Xitogent recolhe os resultados de self-test a partir de `smartctl -l selftest` e expõe falhas mesmo quando a saúde SMART global da drive continua a reportar PASS.
    Funciona com arrays RAID?
    Sim, para a maioria das controladoras RAID modernas (LSI/Broadcom megaraid, HP Smart Array, Adaptec) — fazem passthrough dos dados SMART por drive. Use a sintaxe `smartctl -d megaraid,N /dev/sda` (o Xitogent deteta automaticamente). Para RAID por software (mdraid do Linux, ZFS), cada drive subjacente é independentemente monitorizável. Para enclosures RAID-on-chip que escondem o SMART, fica limitado à saúde ao nível da controladora.

    Comece a monitorizar Disk Health hoje

    Configure em menos de 60 segundos. Não é necessário cartão de crédito. Estatísticas completas desde o primeiro dia.

    Iniciar período de avaliação gratuita

    Continue a explorar

    Relacionado Integrações