Question 1

Xitoringの異常検知はどのように機能しますか？

Accepted Answer

Xitoringは、学習期間（通常1〜2週間）にわたる機械学習を使用して、ホストごと、メトリックごとのベースラインを構築します。このベースラインは、日次、週次、季節のパターンを考慮するため、健全な夜間バッチのスパイクがアラートをトリガーすることはありません。メトリックが統計的に有意な方法でベースラインから逸脱した場合、AIは段階的な異常アラートを発します。

Question 2

これは単なるスマートな閾値ですか？

Accepted Answer

いいえ。スマートな閾値は依然として1つの数値を使用するだけで、それを計算するだけです。Xitoringの検知は、各メトリックの時間の経過に伴う完全な分布をモデル化し、周期性を捉え、シグナル間で相関させます。これにより、単一の閾値では見逃してしまう緩やかな変化やパターン変更をキャッチします。

Question 3

根本原因分析とは何ですか？

Accepted Answer

インシデントが発生すると、XitoringのRCAエンジンは、関連する時間枠内のすべてのメトリック異常、デプロイイベント、設定変更、および類似の過去のインシデントを抽出し、証拠とともに最も可能性の高い原因をランク付けします。これは推測ではなく、最初にどこを調査すべきかを決定するために使用できる相関レポートです。

Question 4

静的閾値はまだ必要ですか？

Accepted Answer

一部のメトリックについては、はい。厳格なSLA閾値（例：p99レイテンシーが200ミリ秒未満）は、固定値として推論する方が簡単です。異常検知はそれらと並行して実行され、静的アラートでは決してトリガーされない緩やかな変化をキャッチします。この2つは補完的であり、排他的ではありません。

Question 5

学習期間はどのくらいかかりますか？

Accepted Answer

ほとんどのメトリックは24〜48時間以内に使用可能なベースラインを生成し、1〜2週間以内に高信頼度のベースラインを生成します。システムは、より多くのデータを参照し、特定のワークロードパターンを学習するにつれて継続的に改善されます。

Question 6

これによりアラート量が増加しますか？

Accepted Answer

通常は逆です。重大度スコアリングは、影響の少ない逸脱や既知の季節パターンを抑制するため、オンコール担当者がページされる頻度は少なくなりますが、より早期に重要な問題について通知されます。チームは通常、これを有効にした後、呼び出しが減り、平均検出時間が短縮されます。

Question 7

どのメトリックが異常検知をサポートしていますか？

Accepted Answer

Xitoringが収集するすべての時系列メトリック：CPU、メモリ、ディスク、I/O、ネットワーク、応答時間、リクエストレート、およびプッシュする任意のカスタムメトリック。検知は、基盤となるソースに関係なく同じ方法で機能します。

Question 8

これには追加の設定や新しいエージェントが必要ですか？

Accepted Answer

いいえ。すでにXitogentまたはXitoringのいずれかのモニタータイプでメトリックを収集している場合、異常検知はパネルのトグルです。新しいエージェント、新しいエクスポーター、新しいパイプラインは不要です。

Question 9

異常検知と根本原因分析を組み合わせることで、インシデント対応はどのように短縮されるのでしょうか？

Accepted Answer

最新の異常検知システムでは、検知レイヤーと根本原因分析が連携しています。異常が検出されると、その異常信号とデプロイ、設定変更、関連メトリクス、過去のインシデントを照合し、考えられる原因を特定します。 その目的は、SREの判断に取って代わるのではなく、インシデント発生時の最初の30分を費やすダッシュボード上の「宝探し」を省略することにあります。Xitoringは、アカウント内のすべてのホストとメトリクスに対して、メトリクスごとの調整や新しいエージェントの導入を必要とせずに、検知とRCAを継続的に実行します。

異常検知 &
根本原因分析

数千社から信頼されています — で評価されています

異常検知とは何ですか？

キー特長

予測AI検知

根本原因管理

自動学習ベースライン

マルチシグナル相関

アラート疲労の軽減

インシデント予測

問題を発見前にインシデントになる

異常検知ユースケース

クラウドフリート

データベース運用

Eコマースの信頼性

SaaSプラットフォーム

フィンテックとコンプライアンス

DevOps & SREチーム

なぜ異常検知なのか検知

根本原因分析、自動化

仕組み動作

手動調整不要

重大度認識

お使いのチャネルと連携

AIOps — インフラに何でも質問

頻繁に質問をした

反応するのをやめましょう。予測を始めましょう。

その他の記事 Xitoring

異常検知 & 根本原因分析