クロスドメインネットワークの問題を数分でトラブルシューティング

重要な Web サービスがダウンしました。6 つのチームがブリッジコールに参加します。ネットワークはボーダー・ゲートウェイ・プロトコル (BGP) をチェックします。データセンターチームはアプリケーションセントリックインフラストラクチャ (ACI) をチェックします。セキュリティはファイアウォールをチェックします。VMware チームが ESX ホストをチェックします。全員同じ答えが返ってきます。私たちではありません。45分後、根本原因はACIでの単一ブリッジドメインの撤回であることが判明しました。この事実は、ずっとテレメトリで明らかでした。

これは珍しいシナリオではありません。企業ネットワークでは毎週発生しています。信号は存在します。問題は、データモデル、タイムライン、またはサービスコンテキストを共有しないプラットフォームに分散していることです。インシデントプレッシャーのもとで手作業でまとめると、MTTRは数分から数時間に膨らみます。

この記事では、Splunkプラットフォームがエンタープライズサービススタックのあらゆる層からテレメトリを取り込み、実際のデータ、実際のソースタイプ、実際のSPLを使用して、症状から根本原因に迅速に移行するために必要な、相関性のあるサービスレベルのビューを運用チームに提供する方法を示します。

前提条件

ソフトウェア

この機能は、特定のSplunkアプリとCiscoテクニカルアドオンを組み合わせて構築されています。

エンタープライズネットワークコマンドセンター。これは Splunk Enterprise 上に構築されたプライベートアプリです。エンドツーエンドのサービスヘルスビューを提供し、フルスタックのヘルススコアとドメインごとの KPI の内訳を 1 つのダッシュボードに表示するようにカスタム構築されています。このアプリは一般には公開されていませんが、この記事では Splunk プラットフォーム上で構築できる機能を使ってこのユースケースを実現する方法を紹介します。一部の検索の正確な SPL は、すぐに始められるように記載されています。環境に合わせた同様のアプリを構築するためのその他のヘルプは、以下を参照してください。開発者向けドキュメンテーションまたはとの契約プロフェッショナルサービス。
シスコ DC ネットワーキングアプリ (以前は ACI アドオン)。シスコアプリケーションポリシーインフラストラクチャコントローラ（APIC）との API の直接統合。リーフアンドスパインの状態、ファブリックの異常、テナントの状態、ブリッジドメインの状態を監視します。
シスコサウザンドアイズアプリ。クラウドとエンタープライズエージェントのテスト結果を取得して、可用性、損失、遅延、ジッターなどのパスをエンドツーエンドで可視化します。
シスコデータセンター向け ITSI コンテンツパック。ACI および Nexus 環境用のサービスツリーと KPI があらかじめ設定されています。DC チームの ITSI 導入を加速します。
のアドオンヴイエムウェアとヴイエムウェア・メトリックス。VI API を使用して、仮想マシンと ESX のパフォーマンスを基盤となる ACI ファブリックと相関させます。
シスコセキュアファイアウォール。DNS レスポンスタイプ、ネットワークアドレス変換（NAT）、ルールアクションなどの Firepower 脅威防御（FTD）イベントを eStreamer 経由で取り込みます。
Splunk ITSI (ITSI)。未処理のテレメトリをサービスレベルのヘルススコアに集約し、ML を使用して適応型しきい値処理を実行し、何千もの未処理のアラートを構造化されたエピソードに圧縮する相関エンジン。

テレメトリーオンボーディング:何がどのように取り込まれるのか


データソース	インテグレーション/TA	Splunk ソースタイプ
シスコ ACI	シスコ DC ネットワーキング TA (APIC REST API+ Nexus Syslog)	`cisco:dc:aci:health cisco:dc:aci:*`
サウザンド・アイズ	シスコサウザンドアイズアプリケーション (REST API、スケジュールされたプル)	`thousandeyes:*`
シスコ IOS-XR	GRPC/GNMI (テレグラフパイプライン) 経由のシスコ MDT TA	`openconfig:` / `GNMI_BGP.`
シスコファイアーパワー	シスコセキュアファイアウォール TA (eStreamer)	`cisco:sfw:estreamer`
ヴイエムウェア ESX	ヴイエムウェア向けアドオン (VI API、予定)	`vmware:perf:cpu vmware:perf:net vmware:events`

重要な KPI とそれが明らかにする内容

Splunk ITSI で KPI を設定して管理する方法については、以下を参照してください。 ITSI における KPI の作成の概要。


KPI	それが教えてくれること
ITSI サービスヘルススコア	すべてのネットワーク・ドメインにわたる0～100の複合加重スコア。崩壊するとすぐにビジネスへの影響が示されます。
サウザンドアイズ HTTP アベイラビリティ	`Test_Metrics.metric_name: http.server.request.availability` — 総合的なユーザー視点での到達可能性
サウザンドアイズパケットロス%	`Test_Metrics.metric_name: network.loss` — 100% の場合、ハードコネクティビティの障害が確認され、劣化は確認されません。
サウザンド・アイズ・レスポンスタイム	`Test_Metrics.metric_name: http.client.request.duration` — エンドツーエンドのアプリケーション応答遅延。
BGP セッションステート	`GNMI_BGP.session_state` — ピアごとのネイバーステート。Idle/Active はセッションがダウンしていることを意味します。
受け入れられる BGP プレフィックス（VRF 単位）	`Cisco-IOS-XR-ipv4-bgp-oper: .../neighbor.af_data/prefixes_accepted` — プレフィックス撤回検出。
ACI ファブリック/テナントヘルス	`cisco:dc:aci:health` — APIC からのファブリック、テナント、ブリッジドメイン、および EPG ヘルススコア
ACI 障害イベント	`cisco:dc:aci:*` — ファブリックからの障害コード、重大度、根本原因分析イベント。
ESX CPU/メモリ/ネットワーク	`vmware:perf:cpu` 、 `vmware:perf:mem` 、 `vmware:perf:net` — VM リソースの競合を確認または除外します。
火力ルールアクション	`cisco:sfw:estreamer` — 決定と NAT イベントの許可/拒否。ポリシーがトラフィックをブロックしていないことを確認する。

次の図は、Web VM → ACI データセンター → Nexus → コア IOS-XR ルーター → MPLS/インターネットというエンタープライズサービスチェーン全体を示しています。これは、Splunk プラットフォームがネットワークモニター — Acme ダッシュボードからエンドツーエンドで監視しているトポロジです。

運用シナリオ:ACI ブリッジドメインの撤回

次のステップは、カスタムビルドのネットワークモニターアプリのさまざまなダッシュボードと、各ダッシュボードに含まれるデータが、冒頭のシナリオで説明した Acme ネットワークの問題のトラブルシューティングにチームがどのように役立つかを示しています。これらのダッシュボードは以下に基づいて構築されています。上記の KPI また、SPL は次の一部のダッシュボードパネルに提供されています。以下の SPL セクション。

ステップ1:60秒以内に確立された2つの事実

サービスヘルススコアカードダッシュボードには、多数の主要指標が一目で分かります。

ThousandEyes と Upstream Connectivity の KPI はどちらも重要で、複合スコアはゼロです。
BGP アラートが同時に発生します。10.30.4.137 の ACI ネイバーから予想される 4 つのプレフィックスが 0 に下がりました。
Web サーバーのサブネットは削除されました。

CLIセッションを1つも開かなくても、2つの事実が明らかになりました。障害は実際のものであり、ACIからBGPへのハンドオフが原因です。

ThousandEyesダッシュボードに移動すると、HTTPの可用性は0％、パケットロスは100％であることがわかります。を使用して Test_Metrics.metric_name: http.server.request.availability と network.loss 、ユーザー側で完全に機能停止していることを確認できます。

次に、[BGP] > [アップストリーム] ダッシュボードに BGP ネイバー 10.30.4.137 が表示されます (ACI): prefixes_accepted 4 から 3 にドロップされました。Cisco-IOS-XR-IPv4-BGP-OperYANG パスにより、ACI からのプレフィクスの撤回が確認されました。

ステップ 2: ACI が原因です

Cisco ACI ダッシュボードには、ファブリックの状態は正常であることが示されています。リーフアンドスパインのハードウェア障害や EPG の問題はありません。テナントの MAPLE を詳しく調べると、根本原因であるブリッジドメインが明らかになります。 MAPLE_BD04_SPLUNK はオフラインです。そのドメインはサブネット 10.30.4.0/24 を所有していますが、現在は撤回されています。ACI 障害イベントはに表示されます。 cisco:dc:aci:* 重大度と根本原因の分析コンテキスト付き。

ステップ 3: データから除外された他の 4 つのレイヤー

Core ダッシュボードには、すべてのインターフェイス状態が動作中であることが表示されます。 eth_inerr と eth_indiscard カウンタが 0 で、ルータレイヤはクリーンです。 cisco:sfw:estreamer 異常な拒否アクションや NAT 障害は表示されない。セキュリティポリシーは要因ではありません。

最後に、VMware ESX ダッシュボードには以下が表示されます。 vmware:perf:cpu そして vmware:perf:net 正常範囲内です。VM リソースの競合は停止の原因にはなりません。

調査の背後にあるSPL

ダッシュボード : BGP > アップストリーム

パネル : プレフィックスロス

目的 : シスコモデル駆動型テレメトリパイプラインからの正確な YANG パスを使用した BGP プレフィックス撤回検出

| mstats max("Cisco-IOS-XR-ipv4-bgp-oper:bgp/instances/instance/instance-active/vrfs/vrf/afs/af/neighbor-af-table/neighbor.af_data/prefixes_accepted") AS prefixes_accepted WHERE index="cisco_metrics" AND af_name="ipv4-unicast" span=1m BY neighbor_address, source | search source=* neighbor_address=* | fields _time, source, neighbor_address, prefixes_accepted | search prefixes_accepted<4.000000

ダッシュボード : シスコ ACI

パネル : ブリッジドメイン非アクティブ

目的 : ACI 障害検出 — RCA コンテキストによるサーフェスブリッジドメインのオフラインイベント

| inputlookup bdlist.csv | fields "Bridge Domain Name" | eval key=trim('Bridge Domain Name') | join type=left key [ search eventtype=cisco_dc_aci_health component=fvBD dn="uni/*" apic_host=apic-inb.maple.ciscolabs.com | rex field=dn "tn-(?<TenantName>[^/]+)" | search TenantName=Maple | eval key=trim(name) | stats latest(cur) AS cur BY key ] | where isnull(cur) | rename key AS "Bridge Domain Name" | table "Bridge Domain Name"

ダッシュボード : サウザンド・アイズ

パネル : ネットワークパケットロス

目的 : ThousandEyes のアベイラビリティとパケットロスを単一のタイムラインで相関させる

| tstats `summariesonly` avg(Test_Metrics.metric_name:network.loss) as avg_loss FROM datamodel="Cisco_ThousandEyes.Test_Metrics" WHERE * * * * * (* OR NOT Test_Metrics.server.address="*") Test_Metrics.metric_name:network.loss="*" Test_Metrics.thousandeyes.test.type IN ("agent-to-server", "agent-to-agent") BY _time | timechart avg(avg_loss) AS avg_loss | append [| tstats `summariesonly` avg(Test_Metrics.metric_name:network.loss) AS avg_loss FROM datamodel="Cisco_ThousandEyes.Test_Metrics" WHERE * * * * * (* OR NOT Test_Metrics.server.address="*") Test_Metrics.metric_name:network.loss="*" Test_Metrics.thousandeyes.test.type IN ("agent-to-server", "agent-to-agent") ]

ダッシュボード : ヴイエムウェアセックス

パネル :

目的 : VMware ネットワークドロップチェックにより、ESX が停止の原因になっていないことを確認する

index=vmware-perf sourcetype=vmware:perf:net instance=aggregated | stats sum(p_summation_net_droppedRx_number) AS dropped_rx, sum(p_summation_net_droppedTx_number) AS dropped_tx, sum(p_summation_net_errorsRx_number) AS errors_rx, sum(p_summation_net_errorsTx_number) AS errors_tx BY moid | where dropped_rx > 0 OR dropped_tx > 0 OR errors_rx > 0 OR errors_tx > 0 | sort -dropped_rx

ドメイン間の相関関係が MTTR を変える理由

これらのクエリはそれぞれ、タイムラインを共有する 1 つの Splunk インデックスに対して実行されます。ThousandEyes の可用性が BGP と同じタイミングでゼロになった場合 prefixes_accepted 相関関係が 0 に下がると、必要なのはクエリーだけで、45 分間の争議の余地はありません。

Splunk ITSI (ITSI) を使うと、生成される6,000件以上の未処理アラートを1つの構造化されたエピソードに圧縮できるため、さらに効果的です。以前は 6 つのチームが必要だったことを、1 人のエンジニアが数分で解決できます。

この ITSI サービスアナライザーは、ACME サービスが低下し、ACI ブリッジドメインの KPI がクリティカルとマークされ、ThousandEyes とアップストリーム KPI が低下したことを示しています。複合スコアは、寄与しているドメインごとに分類されています。

このダッシュボードには、6,000 件以上の未処理のアラートが 1 つのエピソードに圧縮されて表示されます。重要度タイムライン、寄与しているKPI、根本原因のコンテキストはすべて 1 つの構造化されたインシデントにまとめられています。

要約:業務上のシフト

従来のモデルでは、各チームに異なるツールが用意されていました。各ツールはそれぞれ独自の領域について正しく設定されており、それ以外の領域には見えません。ほとんどの場合がそうであるように、障害がドメインの境界を越える場合、調査は技術的な問題であると同時に調整上の問題にもなります。

Splunk ITSIは共通データレイヤーとしてドメインツールよりも上位に位置します。Cisco DC ネットワーク TA、ThousandEyes アドオン、eStreamer、VMware アドオンはすべて、タイムラインを共有した共有インデックスにフィードされます。ACI ブリッジドメインの撤回と ThousandEyes のアベイラビリティ障害との関係は、誰も手作業で把握できるものではありません。どちらのイベントも ITSI では共通のサービスコンテキストを共有しているため、ダッシュボードに表示されます。

数分間のダウンタイムが収益への影響、SLAクレジット、顧客の信頼に直接つながるネットワークでは、Splunk ITSIはクロスドメイン保証を実現するための運用層であり、将来のロードマップ項目ではありません。

次のステップ

組織におけるネットワークアシュアランスの提供について詳しく知る準備はできていますか？このシリーズの他の記事もご覧ください。