Contenedores y estado del sistema

Actualizado mayo de 2026

Disk Health Seguimiento

Supervise en tiempo real los atributos SMART de los discos, la temperatura, los sectores reasignados y los indicadores de fallos predictivos en unidades SSD y HDD.

Empieza tu prueba gratuita Ver documentos

¿Por qué realizar un seguimiento? Disk Health?

Los fallos de disco son una de las principales causas de pérdida de datos y de paradas imprevistas. La supervisión del estado de los discos de Xitoring utiliza la tecnología SMART (Self-Monitoring, Analysis, and Reporting Technology) para ofrecerte alertas tempranas antes de que las unidades fallen, y abarca SSD, HDD y configuraciones RAID tanto en Linux como en Windows.

Monitorización de atributos SMART

Compatibilidad con SSD y HDD

Compatibilidad con configuraciones RAID

Seguimiento de la temperatura

Conteo de sectores reasignados

Seguimiento de horas de encendido

Alertas predictivas de fallo

Compatibilidad con Linux y Windows

Soporte nativo de agente para Linux y Windows

Intervalos de recopilación de métricas de 1 minuto listos para usar

¿Qué es el monitoreo de la salud del disco?

Monitoreo de la salud del disco, explicado

El monitoreo de la salud del disco detecta el crecimiento de sectores reasignados, el desgaste de NVMe, los picos de temperatura y los indicadores de fallo inminente días o semanas antes de que las unidades mueran, tiempo suficiente para migrar los datos y cambiar la unidad sin tiempo de inactividad. Para servidores de bases de datos, hosts de backups y cualquier carga de trabajo donde un fallo de unidad signifique pérdida de datos, el monitoreo SMART es la alerta de mayor ROI que puede configurar. Xitoring ejecuta smartctl + nvme-cli localmente y envía las alertas a Slack, PagerDuty, Telegram o su sistema de guardias existente.

Métricas

Lo que monitorizamos

Estado de salud SMART

Indicador global de salud del disco (aprobado/falló).

Temperatura

Temperatura actual del disco en grados Celsius.

Sectores reasignados

Cantidad de sectores defectuosos remapeados.

Horas de encendido

Horas operativas totales del disco.

Tasa de errores de lectura

Tasa de errores de lectura encontrados.

Sectores pendientes

Sectores esperando ser remapeados.

Temperature_Celsius (SMART 194)

Temperatura actual de la unidad. Los HDD se degradan por encima de 50 °C; los SSD de consumo hacen throttling por encima de 70 °C. Alerte en el máximo nominal del fabricante menos 10 °C para una advertencia temprana.

UDMA_CRC_Error_Count (SMART 199)

Errores CRC relacionados con el cable en la interfaz SATA/SAS. Los valores crecientes señalan un cable defectuoso o una conexión floja: una solución fácil que a menudo se diagnostica erróneamente como fallo de unidad.

Desgaste de SSD (Wear_Leveling_Count + Total_LBAs_Written)

Seguimiento de la resistencia del SSD. `Wear_Leveling_Count` normaliza la vida restante; `Total_LBAs_Written` más el TBW nominal de la unidad indican el porcentaje de desgaste actual. Alerte al 80% utilizado.

percentage_used de NVMe

Desde `nvme smart-log`: la estimación del fabricante de la vida consumida (0-100%, puede superar el 100% en unidades desgastadas). Advierta por encima del 80%; crítico por encima del 95%.

available_spare de NVMe

Porcentaje de capacidad de reserva restante para el reemplazo de bloques defectuosos. Advierta por debajo del 10%; crítico por debajo del 5% (`available_spare_threshold` suele establecerse ahí).

critical_warning de NVMe

Bitfield de `nvme smart-log` que señala: reserva por debajo del umbral, temperatura por encima del umbral, fiabilidad del dispositivo degradada, modo solo lectura, fallo del backup de memoria volátil. Cualquier valor distinto de cero = alerta inmediata.

Desencadenantes y alertas

Configurables condiciones de activación de alertas

Configura alertas personalizadas en tu panel de control para recibir una notificación en cuanto las métricas de «Disk Health» superen los umbrales que hayas definido.

Disk Health panel de control de la configuración de los desencadenantes de supervisión

Estado de salud SMART

crítico

Se dispara cuando SMART reporta un estado de salud fallido.

Sectores reasignados

crítico

Alerta cuando el número de sectores reasignados supera el umbral.

Temperatura del disco

advertencia

Se activa cuando la temperatura del disco supera el rango operativo seguro.

Sectores pendientes

advertencia

Se dispara cuando el número de sectores pendientes indica un fallo potencial.

Importancia de la monitorización de la salud del disco

Los fallos de disco pueden provocar pérdida de datos y caídas costosas. La monitorización SMART ofrece señales tempranas — desde aumentos de temperatura y crecimiento de sectores reasignados hasta picos en errores de lectura — para que pueda actuar antes de que un disco falle.

Evite la pérdida de datos con detección temprana de fallos
Optimice el rendimiento identificando cuellos de botella
Planifique la capacidad con análisis histórico de tendencias
Mantenga el cumplimiento con monitorización de integridad de datos

Monitorización SMART de la salud del disco

Por qué elegir Xitoring

Xitoring proporciona monitorización de salud de disco sin configuración con integración SMART para todos los tipos de disco. Obtenga alertas en tiempo real, tendencias históricas e indicadores predictivos de fallo en un único panel.

Compatible con SSD, HDD y matrices RAID
Configuración con un solo comando en Linux y Windows
Umbrales personalizables de atributos SMART
Alertas multicanal para eventos críticos de disco

Casos de uso

Escenarios habituales de monitoreo de la salud del disco

Dónde la monitorización de discos detecta con mayor frecuencia los fallos de las unidades antes de que causen daños reales.

Servidores de bases de datos

Una unidad fallida en una base de datos puede significar tiempo de inactividad, pedidos perdidos o, en el peor de los casos, datos corruptos. Vigilamos cada unidad en busca de las señales tempranas de fallo para que el equipo pueda reemplazar un disco con problemas según su propio horario — no en medio de una interrupción a las 3 AM.

Servidores de respaldo y archivo

El problema único con las unidades de respaldo es que un fallo permanece invisible hasta el día en que realmente necesitas la copia de seguridad — para entonces ya es demasiado tarde. Probamos cada unidad según un horario y detectamos el desgaste temprano para que nunca busques una copia de seguridad que no existe.

Servidores que escriben muchos datos (SSD)

Las SSD tienen un número limitado de escrituras antes de desgastarse, y las bases de datos ocupadas y las aplicaciones con muchos datos las agotan más rápido de lo que la mayoría de los equipos se dan cuenta. Hacemos un seguimiento del desgaste en porcentajes claros para que las unidades se reemplacen a tiempo — no después de un fallo repentino e irrecuperable.

Antes de empezar

Requisitos previos para Disk Health

Asegúrate de tener todo esto en su sitio — la mayoría de las instalaciones tardan 60 segundos una vez listo.

Servidor Linux (Debian/Ubuntu, RHEL/CentOS, o distribución compatible)
Paquete smartmontools instalado (smartctl) y lsblk disponible
Acceso sudo / root — los datos SMART requieren permisos elevados

Guía de configuración

Empieza con minutos

Instalar los requisitos previos (Linux)

Instala smartmontools para habilitar la recolección de datos SMART. Comprueba que lsblk esté disponible en tu sistema.

# Ubuntu/Debian
sudo apt-get install smartmontools

# CentOS/RHEL
sudo yum install smartmontools

Habilitar la integración de Disk Health

Ejecuta el comando integrate y selecciona Disk Health. Xitogent detecta automáticamente tus discos y comienza a recolectar datos SMART. No se requieren prerrequisitos en Windows.

xitogent integrate

Verifica que funciona

Ejecuta este comando en el servidor para confirmar que Xitogent ha detectado la integración. En unos 30 segundos comenzarán a llegar métricas nuevas a tu panel.

sudo xitogent status

Comparar

¿Estás considerando alternativas?

Mira cómo se compara Xitoring frente a las alternativas para la supervisión de Disk Health: precios planos, integraciones más profundas y un solo agente que cubre todo tu stack.

Xitoring vs

Datadog

El precio por host se vuelve caro rápidamente a escala. Descubre cómo Xitoring ofrece la misma cobertura con una tarifa plana.

Xitoring vs

New Relic

Observabilidad full-stack sin niveles empresariales, tarifas de ingesta ni licencias por usuario.

Xitoring vs

Grafana Cloud

Una herramienta con un solo precio, en lugar de unir Prometheus, Loki y Grafana en un stack que también tienes que supervisar.

Ver todas las comparaciones

Con frecuencia preguntas formuladas

¿Qué tipos de discos son compatibles?

Xitoring es compatible con unidades SSD, HDD y configuraciones RAID tanto en servidores Linux como Windows. Cualquier disco que proporcione datos SMART es compatible.

¿Tengo que instalar algún programa adicional?

En Linux, es necesario tener instalado smartmontools (apt-get install smartmontools o yum install smartmontools). En Windows, no se necesita ningún software adicional.

¿Puedo supervisar las unidades NVMe?

Sí, la integración es compatible con las unidades NVMe que proporcionan datos SMART y de estado a través de interfaces estándar.

¿Con qué frecuencia se recopilan los datos?

Por defecto, los datos sobre el estado de los discos se recopilan cada minuto, lo que garantiza la detección oportuna de cualquier anomalía.

¿Qué atributos SMART predicen el fallo de la unidad?

Los informes trimestrales Drive Stats de Backblaze (el estándar de oro, basados en millones de años-unidad de datos) identifican cinco atributos como los predictores de fallo más fuertes: SMART 5 (Reallocated_Sector_Ct), SMART 187 (Reported_Uncorrectable_Errors), SMART 188 (Command_Timeout), SMART 197 (Current_Pending_Sector_Ct) y SMART 198 (Offline_Uncorrectable). Cualquier valor crudo distinto de cero en 187/197/198 merece atención; un crecimiento rápido en cualquiera de los cinco = fallo inminente.

¿Cómo monitoreo la salud de las unidades NVMe?

Use `nvme-cli`: `sudo nvme smart-log /dev/nvme0n1` devuelve `critical_warning` (bitfield: cualquier valor distinto de cero es alerta inmediata), `temperature`, `available_spare` (advertencia < 10%, crítico < 5%), `percentage_used` (advertencia > 80%), `data_units_written` (× bloques de 512 KB para el total escrito), `media_errors`, `num_err_log_entries`, `unsafe_shutdowns`. Xitogent los lee todos y muestra las tendencias a lo largo del tiempo.

¿Cómo monitoreo la salud del disco en Windows?

Windows expone SMART mediante WMI (`Win32_DiskDrive`, `MSStorageDriver_FailurePredictStatus`) y mediante el módulo PowerShell de Storage Spaces (`Get-PhysicalDisk`, `Get-StorageReliabilityCounter`). El agente Xitogent para Windows lee ambos y los traduce al mismo conjunto de métricas que en Linux. es una GUI popular para inspecciones puntuales.

¿Con qué frecuencia debo ejecutar los autotests de smartctl?

Cadencia moderna: tests cortos semanales (~2 minutos, no disruptivos) + tests largos mensuales (~horas, ligero impacto en el rendimiento, ejecutar durante ventanas de baja IO). Configure mediante `smartd.conf` para la programación automática. Xitogent recoge los resultados de los autotests desde `smartctl -l selftest` y muestra los fallos incluso si la salud SMART global de la unidad sigue reportando PASS.

¿Funciona con matrices RAID?

Sí para la mayoría de las controladoras RAID modernas (megaraid de LSI/Broadcom, HP Smart Array, Adaptec): hacen passthrough de los datos SMART por unidad. Use sintaxis como `smartctl -d megaraid,N /dev/sda` (Xitogent lo detecta automáticamente). Para RAID por software (mdraid de Linux, ZFS), cada unidad subyacente es monitoreable de forma independiente. Para enclosures RAID-on-chip que ocultan SMART, está limitado a la salud a nivel de controladora únicamente.

Empieza a seguir a Disk Health hoy

Se configura en menos de 60 segundos. No se necesita tarjeta de crédito. Estadísticas completas desde el primer día.

Empieza tu prueba gratuita

Sigue explorando

Relacionado Integraciones

Docker

Redis

MySQL