コンテナとシステムの健全性

更新日: 2026年5月

Disk Health 監視

SSDおよびHDDのSMART属性、温度、再割り当てセクタ、および予兆故障指標をリアルタイムで監視します。

なぜ監視するのか Disk Health?

ディスクの故障は、データ損失や予期せぬダウンタイムの主な原因の一つです。Xitoringのディスクヘルス監視機能は、SMART（自己監視・分析・報告技術）を活用し、ドライブが故障する前に早期警告を発します。この機能は、LinuxおよびWindows環境におけるSSD、HDD、RAID構成を幅広くカバーしています。

SMART属性の監視

SSDとHDDのサポート

RAID構成との互換性

温度トラッキング

再割り当てセクタ数

電源投入時間の追跡

予知障害アラート

LinuxとWindowsをサポート

Linux と Windows のネイティブエージェントサポート

1 分間隔のメトリクス収集（標準）

ディスクヘルス監視とは

ディスクヘルス監視を解説

ディスクヘルス監視は、再割り当てセクタの増加、NVMe の摩耗、温度の急上昇、差し迫った障害の指標を、ドライブが死ぬ数日から数週間前に検出します — データを移行してダウンタイムなしでドライブを交換するのに十分な時間です。データベースサーバー、バックアップホスト、ドライブ障害がデータ損失を意味するあらゆるワークロードにおいて、SMART 監視は設定できる単一の最高 ROI アラートです。Xitoring はローカルで smartctl + nvme-cli を実行し、Slack、PagerDuty、Telegram、既存のオンコールへアラートを配信します。

指標

私たちが監視するもの

SMARTヘルスステータス

ディスクの総合健全性インジケーター（合格/不合格）。

温度

現在のディスク温度（摂氏）。

再割り当てセクタ

再マッピングされた不良セクタ数。

電源投入時間

ディスクの総稼働時間。

読み取りエラー率

発生した読み取りエラーの割合。

保留中のセクタ

再マッピング待ちのセクタ。

Temperature_Celsius（SMART 194）

現在のドライブ温度。HDD は 50°C を超えると劣化します。コンシューマー SSD は 70°C を超えるとスロットリングします。早期警告のため、ベンダー定格最大値から 10°C 引いた値でアラートを設定してください。

UDMA_CRC_Error_Count（SMART 199）

SATA/SAS インターフェース上のケーブル関連 CRC エラー。値の上昇は不良ケーブルまたは緩んだ接続をフラグします — ドライブ障害と誤診されがちな簡単な修正です。

SSD 摩耗（Wear_Leveling_Count + Total_LBAs_Written）

SSD 耐久性の追跡。`Wear_Leveling_Count` は正規化された残存寿命。`Total_LBAs_Written` とドライブの定格 TBW から現在の摩耗率を算出します。80% 使用時にアラートを設定してください。

NVMe percentage_used

`nvme smart-log` から — ベンダーの寿命消費見積もり（0–100%、摩耗したドライブでは 100% を超える場合あり）。80% 超で警告、95% 超で重大。

NVMe available_spare

不良ブロック置換用の残りスペア容量の割合。10% 未満で警告、5% 未満で重大（`available_spare_threshold` は通常そこに設定されます）。

NVMe critical_warning

`nvme smart-log` からのビットフィールド。しきい値未満のスペア、しきい値超の温度、デバイス信頼性の劣化、読み取り専用モード、揮発性メモリバックアップ失敗をフラグします。ゼロでない値はすべて即時アラートです。

トリガーとアラート

設定可能アラートのトリガー

ダッシュボードでカスタムトリガーを設定し、Disk Healthのメトリクスが定義した閾値を超えた瞬間に通知を受け取れるようにします。

SMARTヘルスステータス

重要な

SMARTが健全性失敗を報告したときに発動。

再割り当てセクタ

重要な

再割り当てセクタ数が閾値を超えたときにアラート。

ディスク温度

警告

ディスク温度が安全動作範囲を超えたときに発動。

保留中のセクタ

警告

保留中のセクタ数が潜在的な障害を示すときに発動。

の重要性：ディスクヘルス監視

ディスク障害はデータ損失と高額なダウンタイムを引き起こします。SMART監視は、温度上昇、再割り当てセクタの増加、読み取りエラーの急増などの早期警告を提供し、ドライブが故障する前に対処できるようにします。

早期障害検出でデータ損失を防止
ボトルネックを特定してパフォーマンスを最適化
履歴トレンド分析によるキャパシティ計画
データ整合性監視でコンプライアンスを維持

なぜ選ぶべきか： Xitoring

Xitoringは、すべてのディスクタイプに対するSMART統合付きのゼロコンフィグディスクヘルス監視を提供します。リアルタイムアラート、履歴トレンド、予測障害インジケーターを統合ダッシュボードで取得できます。

SSD、HDD、RAIDアレイをサポート
LinuxとWindowsでワンコマンドセットアップ
カスタマイズ可能なSMART属性の閾値
重要ディスクイベントのマルチチャネルアラート

ユースケース

一般的なディスクヘルス監視のシナリオ

ディスク監視が実際に損害を引き起こす前にドライブ障害を最も頻繁に検出する場所。

データベースサーバー

データベース内のドライブ障害は、ダウンタイム、注文の損失、最悪の場合、データ破損を意味する可能性があります。私たちはすべてのドライブの初期の障害兆候を監視し、チームが午前3時の停止中にではなく、自分たちのスケジュールで問題のあるディスクを交換できるようにします。

バックアップおよびアーカイブサーバー

バックアップドライブの特有の問題は、実際にバックアップが必要になる日まで障害が目に見えないままであり、その時には手遅れになっていることです。私たちは各ドライブを定期的にテストし、早期に摩耗を表面化させることで、存在しないバックアップに手を伸ばすことがないようにします。

大量のデータを書き込むサーバー（SSD）

SSDは摩耗するまでに書き込み回数に制限があり、ビジーなデータベースやデータ量の多いアプリは、ほとんどのチームが認識しているよりも速くそれらを使い果たします。私たちは摩耗を明確なパーセンテージで追跡し、突然の回復不能な障害の後ではなく、ドライブが時間通りに交換されるようにします。

はじめる前に

Disk Health の前提条件

これらが揃っていることを確認してください — 揃っていれば、ほとんどの導入は 60 秒で完了します。

Linux サーバー（Debian/Ubuntu、RHEL/CentOS、または互換ディストリビューション）
smartmontools パッケージがインストール済み（smartctl）かつ lsblk が利用可能であること
sudo / root アクセス — SMART データには昇格された権限が必要です

セットアップガイド

はじめに議事録

前提パッケージをインストール（Linux）

smartmontools をインストールして SMART データ収集を有効化します。lsblk がシステム上で利用可能であることを確認してください。

# Ubuntu/Debian
sudo apt-get install smartmontools

# CentOS/RHEL
sudo yum install smartmontools

Disk Health 連携を有効化

integrate コマンドを実行して Disk Health を選択します。Xitogent がディスクを自動検出し、SMART データの収集を開始します。Windows では前提条件は不要です。

xitogent integrate

動作確認

サーバー上でこのコマンドを実行して、Xitogent が連携を認識していることを確認してください。約 30 秒以内に新しいメトリクスがダッシュボードに流れ始めます。

sudo xitogent status

比較

代替ツールを検討中ですか？

Disk Health 監視の代替ツールと比べて Xitoring がどう優れているかをご覧ください — 定額料金、より深い統合、そしてスタック全体をカバーする 1 つのエージェント。

Xitoring 対

Datadog

ホスト単位の課金は規模が大きくなるとすぐに高額になります。Xitoring が定額プランで同等のカバレッジを提供する仕組みをご覧ください。

Xitoring 対

New Relic

エンタープライズ階層、データ取り込み料金、ユーザー単位のライセンスなしで実現するフルスタックの可観測性。

Xitoring 対

Grafana Cloud

Prometheus、Loki、Grafana を組み合わせて自分でも監視しなければならないスタックを構築する代わりに、1 つの価格で 1 つのツール。

すべての比較を見る

頻繁に質問をした

どのようなディスクタイプがサポートされていますか？

Xitoringは、LinuxおよびWindowsサーバー上のSSD、HDD、およびRAID構成に対応しています。SMARTデータを公開するディスクであれば、すべて互換性があります。

追加のソフトウェアをインストールする必要がありますか？

Linuxでは、smartmontoolsをインストールする必要があります（apt-get install smartmontools または yum install smartmontools）。Windowsでは、追加のソフトウェアは必要ありません。

NVMeドライブを監視することはできますか？

はい、標準インターフェースを通じてSMART/ヘルスデータを公開するNVMeドライブは、この統合機能でサポートされています。

指標はどのくらいの頻度で収集されますか？

ディスクの状態に関するメトリクスは、デフォルトで1分間隔で収集されるため、異常を迅速に検出できます。

どの SMART 属性がドライブ障害を予測しますか？

Backblaze 四半期 Drive Stats レポート（数百万のドライブ年データから抽出されたゴールドスタンダード）は、5 つの属性を最強の障害予測指標として特定しています。SMART 5（Reallocated_Sector_Ct）、SMART 187（Reported_Uncorrectable_Errors）、SMART 188（Command_Timeout）、SMART 197（Current_Pending_Sector_Ct）、SMART 198（Offline_Uncorrectable）。187/197/198 のゼロでない生値はすべて注意を要します。5 つのうちいずれかの急速な増加 = 差し迫った障害。

NVMe ドライブの健全性はどう監視しますか？

`nvme-cli` を使用します。`sudo nvme smart-log /dev/nvme0n1` は `critical_warning`（ビットフィールド — ゼロでないものはすべて即時アラート）、`temperature`、`available_spare`（< 10% で警告、< 5% で重大）、`percentage_used`（> 80% で警告）、`data_units_written`（合計書き込みのための × 512KB ブロック）、`media_errors`、`num_err_log_entries`、`unsafe_shutdowns` を返します。Xitogent はそれらすべてを読み取り、時系列でトレンディングします。

Windows でディスクヘルスはどう監視しますか？

Windows は WMI（`Win32_DiskDrive`、`MSStorageDriver_FailurePredictStatus`）と Storage Spaces PowerShell モジュール（`Get-PhysicalDisk`、`Get-StorageReliabilityCounter`）経由で SMART を公開します。Xitogent の Windows エージェントは両方を読み取り、Linux と同じメトリクスセットに変換します。アドホック検査用には人気の GUI が利用可能です。

smartctl のセルフテストはどのくらいの頻度で実行すべきですか？

現代の頻度: 週次の短時間テスト（約 2 分、非破壊）+ 月次の長時間テスト（約数時間、軽度のパフォーマンス影響、低 IO の時間帯に実行）。自動スケジュールのため、`smartd.conf` 経由で設定してください。Xitogent は `smartctl -l selftest` からセルフテスト結果を取得し、ドライブの全体的な SMART ヘルスがまだ PASS と報告していても失敗を可視化します。

RAID アレイで動作しますか？

ほとんどの現代の RAID コントローラー（LSI/Broadcom megaraid、HP Smart Array、Adaptec）で動作します — それらはドライブごとの SMART データをパススルーします。`smartctl -d megaraid,N /dev/sda` 形式の構文を使用してください（Xitogent は自動検出）。ソフトウェア RAID（Linux mdraid、ZFS）では、各基礎ドライブを独立して監視できます。SMART を隠す RAID-on-chip エンクロージャでは、コントローラーレベルの健全性のみに制限されます。

Disk Healthの監視を開始する今日

60秒以内で設定完了。クレジットカードは不要。導入初日から詳細な分析データが利用可能。

無料トライアルを開始

探検を続けよう

Disk Health 監視

なぜ監視するのか Disk Health?

ディスクヘルス監視を 解説

私たちが 監視するもの

SMARTヘルスステータス

温度

再割り当てセクタ

電源投入時間

読み取りエラー率

保留中のセクタ

Temperature_Celsius（SMART 194）

UDMA_CRC_Error_Count（SMART 199）

SSD 摩耗（Wear_Leveling_Count + Total_LBAs_Written）

NVMe percentage_used

NVMe available_spare

NVMe critical_warning

設定可能 アラートのトリガー

SMARTヘルスステータス

再割り当てセクタ

ディスク温度

保留中のセクタ

の重要性： ディスクヘルス監視

なぜ選ぶべきか： Xitoring

一般的なディスクヘルス監視の シナリオ

データベースサーバー

バックアップおよびアーカイブサーバー

大量のデータを書き込むサーバー（SSD）

Disk Health の 前提条件

はじめに 議事録

前提パッケージをインストール（Linux）

Disk Health 連携を有効化

動作確認

代替ツールを 検討中ですか？

Datadog

New Relic

Grafana Cloud

頻繁に 質問をした

Disk Healthの監視を開始する 今日

関連 連携機能

ディスクヘルス監視を解説

私たちが監視するもの

設定可能アラートのトリガー

の重要性：ディスクヘルス監視

一般的なディスクヘルス監視のシナリオ

Disk Health の前提条件

はじめに議事録

代替ツールを検討中ですか？

頻繁に質問をした

Disk Healthの監視を開始する今日

関連連携機能