Contentores e integridade do sistema

Atualizado maio de 2026

Disk Health Monitorização

Monitorize os atributos SMART dos discos, a temperatura, os setores reatribuídos e os indicadores de falha preditiva em SSDs e HDDs em tempo real.

Iniciar período de avaliação gratuita Ver documentos

Por que monitorizar Disk Health?

As falhas de disco são uma das principais causas de perda de dados e de paragens não planeadas. A monitorização do estado dos discos da Xitoring utiliza a tecnologia SMART (Self-Monitoring, Analysis, and Reporting Technology) para emitir alertas antecipados antes que as unidades falhem, abrangendo SSDs, HDDs e configurações RAID, tanto em Linux como em Windows.

Monitorização de atributos SMART

Suporte para SSDs e HDDs

Compatibilidade com configurações RAID

Acompanhamento da temperatura

Contagem de setores realocados

Acompanhamento de horas de funcionamento

Alertas preditivos de falha

Suporte para Linux e Windows

Suporte nativo dos agentes Linux e Windows

Intervalos de recolha de métricas de 1 minuto de raiz

O que é a monitorização da saúde do disco?

Monitorização da saúde do disco, explicada

A monitorização da saúde do disco deteta o crescimento de setores realocados, o desgaste de NVMe, picos de temperatura e indicadores iminentes de falha dias ou semanas antes de as drives morrerem — tempo suficiente para migrar dados e trocar a drive sem downtime. Para servidores de bases de dados, hosts de backup e qualquer workload onde a falha de uma drive significa perda de dados, a monitorização SMART é o alerta com maior ROI que pode configurar. O Xitoring corre smartctl + nvme-cli localmente e encaminha alertas para Slack, PagerDuty, Telegram ou o seu on-call existente.

Métricas

O que monitorizamos

Estado de saúde SMART

Indicador global de saúde do disco (passa/falha).

Temperatura

Temperatura atual do disco em graus Celsius.

Setores realocados

Contagem de setores defeituosos remapeados.

Horas de funcionamento

Horas operacionais totais do disco.

Taxa de erros de leitura

Taxa de erros de leitura encontrados.

Setores pendentes

Setores à espera de serem remapeados.

Temperature_Celsius (SMART 194)

Temperatura atual da drive. Os HDDs degradam-se acima dos 50 °C; SSDs de consumidor fazem throttling acima dos 70 °C. Alerte ao valor máximo definido pelo fabricante menos 10 °C, para aviso antecipado.

UDMA_CRC_Error_Count (SMART 199)

Erros CRC relacionados com o cabo na interface SATA/SAS. Valores em aumento sinalizam um cabo defeituoso ou uma ligação solta — uma correção fácil que é frequentemente confundida com falha de drive.

Desgaste de SSD (Wear_Leveling_Count + Total_LBAs_Written)

Monitorização do endurance do SSD. `Wear_Leveling_Count` normalizado para vida útil restante; `Total_LBAs_Written` mais o TBW nominal da drive dão a percentagem atual de desgaste. Alerte aos 80% usados.

NVMe percentage_used

Do `nvme smart-log` — estimativa do fabricante para a vida consumida (0-100%, pode exceder 100% em drives desgastadas). Aviso acima de 80%; crítico acima de 95%.

NVMe available_spare

Percentagem de capacidade de reserva restante para substituição de bad blocks. Aviso abaixo de 10%; crítico abaixo de 5% (o `available_spare_threshold` é tipicamente definido a esse valor).

NVMe critical_warning

Bitfield do `nvme smart-log` que sinaliza: reserva abaixo do limiar, temperatura acima do limiar, fiabilidade do dispositivo degradada, modo apenas de leitura, falha do backup de memória volátil. Qualquer valor diferente de zero = alerta imediato.

Alerta e notificação

Configurável condições de alerta

Configure alertas personalizados no seu painel para ser notificado assim que as métricas dDisk Health ultrapassarem os limites que definiu.

Disk Health painel de controlo da configuração dos gatilhos de monitorização

Estado de saúde SMART

crítico

Dispara quando o SMART reporta um estado de saúde de falha.

Setores realocados

crítico

Alerta quando a contagem de setores realocados excede o limite.

Temperatura do disco

aviso

Dispara quando a temperatura do disco excede o intervalo operacional seguro.

Setores pendentes

aviso

Dispara quando a contagem de setores pendentes indica falha potencial.

Importância da monitorização da saúde dos discos

As falhas de disco podem resultar em perda de dados e indisponibilidade dispendiosa. A monitorização SMART fornece sinais de aviso precoces — desde temperaturas em subida e setores realocados a aumentar até picos de erros de leitura — para que possa atuar antes de uma drive falhar.

Evite a perda de dados com deteção precoce de falhas
Otimize o desempenho identificando estrangulamentos
Planeie capacidade com análise histórica de tendências
Mantenha a conformidade com monitorização de integridade de dados

Porquê escolher Xitoring

O Xitoring fornece monitorização de saúde de disco zero-config com integração SMART para todos os tipos de disco. Obtenha alertas em tempo real, tendências históricas e indicadores preditivos de falha num dashboard unificado.

Compatível com SSDs, HDDs e arrays RAID
Configuração num único comando em Linux e Windows
Limiares personalizáveis para atributos SMART
Alertas multicanal para eventos críticos de disco

Casos de uso

Cenários comuns de monitorização da saúde do disco

Onde a monitorização de disco mais frequentemente deteta falhas de unidade antes que causem danos reais.

Servidores de base de dados

Uma unidade avariada numa base de dados pode significar tempo de inatividade, encomendas perdidas ou, no pior dos casos, dados corrompidos. Monitorizamos cada unidade para detetar os primeiros sinais de falha para que a equipa possa substituir um disco com problemas no seu próprio horário — e não no meio de uma interrupção às 3 da manhã.

Servidores de backup e arquivo

O problema único com as unidades de backup é que uma falha permanece invisível até ao dia em que realmente precisa do backup — altura em que já é tarde demais. Testamos cada unidade numa base regular e detetamos o desgaste precocemente para que nunca procure um backup que não existe.

Servidores que escrevem muitos dados (SSDs)

Os SSDs têm um número limitado de escritas antes de se desgastarem, e bases de dados movimentadas e aplicações com muitos dados esgotam-nos mais rapidamente do que a maioria das equipas percebe. Monitorizamos o desgaste em percentagens claras para que as unidades sejam substituídas a tempo — e não após uma falha súbita e irrecuperável.

Antes de começar

Pré-requisitos para Disk Health

Certifique-se de que tem tudo isto pronto — depois disso, a maioria das instalações leva 60 segundos.

Servidor Linux (Debian/Ubuntu, RHEL/CentOS ou distribuição compatível)
Pacote smartmontools instalado (smartctl) e lsblk disponível
Acesso sudo / root — os dados SMART exigem permissões elevadas

Guia de configuração

Comece a minutos

Instalar pré-requisitos (Linux)

Instale o smartmontools para ativar a recolha de dados SMART. Garanta que o lsblk está disponível no seu sistema.

# Ubuntu/Debian
sudo apt-get install smartmontools

# CentOS/RHEL
sudo yum install smartmontools

Ativar a integração Disk Health

Execute o comando integrate e selecione Disk Health. O Xitogent deteta automaticamente os seus discos e começa a recolher dados SMART. Não são necessários pré-requisitos no Windows.

xitogent integrate

Confirme que está a funcionar

Execute este comando no servidor para confirmar que o Xitogent detetou a integração. Em cerca de 30 segundos começam a chegar novas métricas ao seu painel.

sudo xitogent status

Comparar

Está a considerar alternativas?

Veja como o Xitoring se compara às alternativas para a monitorização de Disk Health — preços fixos, integrações mais profundas e um único agente que cobre toda a sua stack.

Xitoring vs

Datadog

O preço por host fica caro rapidamente em escala. Veja como o Xitoring entrega a mesma cobertura num plano fixo.

Xitoring vs

New Relic

Observabilidade full-stack sem níveis empresariais, taxas de ingestão ou licenças por utilizador.

Xitoring vs

Grafana Cloud

Uma ferramenta com um único preço, em vez de juntar Prometheus, Loki e Grafana numa stack que também tem de monitorizar.

Ver todas as comparações

Frequentemente perguntas feitas

Que tipos de discos são suportados?

Xitoring suporta SSDs, HDDs e configurações RAID em servidores Linux e Windows. Qualquer disco que forneça dados SMART é compatível.

Preciso de instalar software adicional?

No Linux, é necessário ter o smartmontools instalado (apt-get install smartmontools ou yum install smartmontools). No Windows, não é necessário qualquer software adicional.

Posso monitorizar unidades NVMe?

Sim, as unidades NVMe que disponibilizam dados SMART/de integridade através de interfaces padrão são suportadas pela integração.

Com que frequência são recolhidos os indicadores?

Por predefinição, os indicadores de integridade do disco são recolhidos a intervalos de 1 minuto, garantindo a deteção atempada de quaisquer anomalias.

Que atributos SMART preveem falha de drive?

Os relatórios trimestrais Drive Stats do Backblaze (o padrão de ouro, baseado em milhões de drive-years de dados) identificam cinco atributos como os preditores de falha mais fortes: SMART 5 (Reallocated_Sector_Ct), SMART 187 (Reported_Uncorrectable_Errors), SMART 188 (Command_Timeout), SMART 197 (Current_Pending_Sector_Ct) e SMART 198 (Offline_Uncorrectable). Qualquer valor raw diferente de zero em 187/197/198 merece atenção; um crescimento rápido em qualquer um dos cinco = falha iminente.

Como monitorizo a saúde de uma drive NVMe?

Use o `nvme-cli`: `sudo nvme smart-log /dev/nvme0n1` devolve `critical_warning` (bitfield — qualquer valor diferente de zero é alerta imediato), `temperature`, `available_spare` (aviso < 10%, crítico < 5%), `percentage_used` (aviso > 80%), `data_units_written` (× blocos de 512KB para total escrito), `media_errors`, `num_err_log_entries`, `unsafe_shutdowns`. O Xitogent lê todos eles e faz trending ao longo do tempo.

Como monitorizo a saúde do disco em Windows?

O Windows expõe o SMART via WMI (`Win32_DiskDrive`, `MSStorageDriver_FailurePredictStatus`) e via o módulo PowerShell Storage Spaces (`Get-PhysicalDisk`, `Get-StorageReliabilityCounter`). O agente Windows do Xitogent lê ambos e traduz para o mesmo conjunto de métricas que em Linux. É uma GUI popular para inspeção ad-hoc.

Com que frequência devo correr self-tests do smartctl?

Cadência moderna: testes short semanais (~2 minutos, não disruptivos) + testes long mensais (~horas, ligeiro impacto no desempenho, correr durante janelas de IO baixo). Configure via `smartd.conf` para agendamento automático. O Xitogent recolhe os resultados de self-test a partir de `smartctl -l selftest` e expõe falhas mesmo quando a saúde SMART global da drive continua a reportar PASS.

Funciona com arrays RAID?

Sim, para a maioria das controladoras RAID modernas (LSI/Broadcom megaraid, HP Smart Array, Adaptec) — fazem passthrough dos dados SMART por drive. Use a sintaxe `smartctl -d megaraid,N /dev/sda` (o Xitogent deteta automaticamente). Para RAID por software (mdraid do Linux, ZFS), cada drive subjacente é independentemente monitorizável. Para enclosures RAID-on-chip que escondem o SMART, fica limitado à saúde ao nível da controladora.

Comece a monitorizar Disk Health hoje

Configure em menos de 60 segundos. Não é necessário cartão de crédito. Estatísticas completas desde o primeiro dia.

Iniciar período de avaliação gratuita

Continue a explorar

Relacionado Integrações

Docker

Redis

MySQL