アラートノイズを軽減
ITOpsチームがアラートに溺れていると、自分の環境で何が起こっているのかを理解するのが難しくなり、ましてや問題の発見と修正が難しくなります。ツールの数が増え、IT やビジネスシステムのデータが指数関数的に増加し続けているため、状況はさらに悪化しています。チームは問題を見つけて修正することができず、ツール間を行き来しながら時間を費やしています。これらはすべて、チームのフラストレーションや収益の損失、コストの増加につながります。
ITとビジネスシステムのデータが指数関数的に増加し続けると、ツールの数が増え、アラート疲れが悪化しています。たとえば、BigPanda や Moogsoft などの別の AIOps ミドルウェアを実装して、イベントの関連付けやノイズリダクションを行っていたかもしれません。ただし、通常、これらのツールは設定が難しく、ワークフローのモニタリングとは切り離されており、ビジネスサービスへの影響に基づいてアラートに優先順位を付けることもできません。チームはツール間を行き来しながら時間を費やし、問題の発見と修正ができず、そのすべてがチームのフラストレーションや収益の損失、コストの増加につながります。
Splunk ITSIはアラートノイズの低減にどのように役立ちますか?
すべてのアラートを 1 か所で見る
は Splunk platform データソースにとらわれず、ITOpsチームは、で利用できる何千ものデータ統合とコンテンツパックを使用して、Splunkとサードパーティの監視データをSplunk ITSIにすばやくオンボードできます。 Splunkbase 。Splunk ITSIを使用すると、チームは現在すでに使用されている監視、イベント、インシデント管理ツールからのテレメトリデータやアラートを関連付けて分析できます。関連するコンテキストでアラートを充実させたり、取り込んだデータからカスタムアラートを作成したりできます。つまり、すべてのアラートを以下で確認できるということです。 Splunk ITSI イベントアナリティクス ツールを切り替えたり、既存の投資を置き換えたりする必要はありません。
アラートの衛生状態を改善してアラートノイズを削減
チームはより正確なアラートと異常検出を行うことで、アラートの衛生状態を改善できます。誤検知アラートを減らすには、 アダプティブ・スレッショルディング Splunk では、ITSI が過去のデータに基づいてベースラインを動的に調整し、アラートの精度を高めます。機械学習の支援により、これらの適応型閾値はわずか数クリックですばやく簡単に作成できます。また、可能な限り正確になるように、外れ値を検出してベースラインから除外することもできます。誤検知や望ましくないアラートを積極的に回避するために、チームはSplunk ITSIを活用できます。 カスタム閾値ウィンドウ 夏のセールイベントやブラックフライデーのような暦日のイベントによるウェブトラフィックの増加など、何か異常なことが起こると予測される場合に、KPI とサービスの重要度レベルを調整します。
関連するアラートをグループ化してアラートノイズを減らす
Splunk ITSI はアラートをインテリジェントにエピソードごとにグループ化し、優先順位を付けることができます。これにより、アラートの総数がアクションにつながるエピソードに減り、チームがインシデントを理解しやすくなります。Splunk ITSIは、機械学習とルール/ポリシーベースの相関関係の両方を活用することで、アラートノイズを 90% 以上削減できます。
衛生警戒態勢が万全であっても暴風雨は起こり得ます。箱から出してすぐに、 モニタリングとアラート用の Splunk ITSI コンテンツパック アラートストームの到来をチームに早期に警告し、アラート量が過去の基準と比較して増加傾向にあることを知らせます。チームが先を見越して行動を起こす時間を与えるだけでなく、関連するアラートのクラスターを検出できるため、チームはインシデントを迅速に切り分け、優先順位を決めるのに役立ちます。さらに、運用態勢ダッシュボードを使用すると、アラートノイズリダクション、MTTD、MTTR などの主要業績評価指標をすぐに簡単にベースライン化できるため、チームは改善を続けることができます。
指示されたトラブルシューティングでインシデントに効率的に対応
アラートをグループ化して優先順位を付けることで、チームはサービスの影響と使用状況を確認できます。 エピソードレビュー イベントのタイムラインで考えられる根本原因を突き止めるため。コンテキストをサードパーティの監視ツールやエンティティの状態に伝えるタイムラインからのリンクは、根本原因に焦点を合わせるのに役立ちます。 過去に類似したエピソードがどのようにうまく解決されたかを知っていれば、最初から始める必要はありません。Splunk ITSI の Episode Review を使うと、類似のエピソードを探したり、問題を解決するために取られたアクションを確認したり、問題の解決方法に関するメモを読んだり、リンクされたチケットを確認してエピソードの背景を詳しく調べたりできます。メール通知の送信、スクリプトの実行、への送信などのアクションを自動化することもできます。 Splunk SOAR 。最後に、双方向のチケット発行とカスタムの指示とランブックの作成により、インシデント対応を迅速化できます。最後に、チームはワンクリックで次の作業に取り掛かることもできます。 Splunk Application Performance Monitoring または、Splunk AppDynamics が問題のコンテキスト内でさらなるアクションを取ることもできます。
ユースケースガイダンス
-
- アラートのライフサイクルの管理:検出から修正まで
- で生成されたイベントを使用して、完全なアラート管理ワークフローを作成 Splunk Observability Cloud Splunk On-Call との統合により Splunk ITSI で使用できるようにすることで、適切なチームに通知が確実に届くようになります。
-
- Splunk On-Call統合のためのITSI注目イベント集約ポリシーにおけるアクションルールの設定
- エピソードを監視するための ITSI 相関検索の設定
- ITSI 注目すべきイベント集約ポリシーの設定
- Splunk On-Call と IT サービスインテリジェンスとの統合の設定
- 注目すべきイベントを作成するためのユニバーサル相関検索の設定
- 統合 Splunk Observability Cloud クラウドプラットフォームまたはエンタープライズとのアラート
- Web アプリケーションからのアラートの調査と修正
- オブザーバビリティクラウドアラートの ITSI ユニバーサルアラートスキーマへの標準化
-
- ITSI サービスアナライザーを使用したサービス問題のトラブルシューティング
- ITSI Service Analyzer を使用すると、サービスが応答しなかったり、意図したとおりに実行されなかったりした場合に、問題の根本原因をすばやく特定できます。