メインコンテンツへスキップ

Splunk Lantern

クロスドメインネットワークの問題を数分でトラブルシューティング

重要な Web サービスがダウンしました。6 つのチームがブリッジコールに参加します。ネットワークはボーダー・ゲートウェイ・プロトコル (BGP) をチェックします。データセンターチームはアプリケーションセントリックインフラストラクチャ (ACI) をチェックします。セキュリティはファイアウォールをチェックします。VMware チームが ESX ホストをチェックします。全員同じ答えが返ってきます。私たちではありません。45分後、根本原因はACIでの単一ブリッジドメインの撤回であることが判明しました。この事実は、ずっとテレメトリで明らかでした。

これは珍しいシナリオではありません。企業ネットワークでは毎週発生しています。信号は存在します。問題は、データモデル、タイムライン、またはサービスコンテキストを共有しないプラットフォームに分散していることです。インシデントプレッシャーのもとで手作業でまとめると、MTTRは数分から数時間に膨らみます。

この記事では、Splunkプラットフォームがエンタープライズサービススタックのあらゆる層からテレメトリを取り込み、実際のデータ、実際のソースタイプ、実際のSPLを使用して、症状から根本原因に迅速に移行するために必要な、相関性のあるサービスレベルのビューを運用チームに提供する方法を示します。

前提条件

ソフトウェア

この機能は、特定のSplunkアプリとCiscoテクニカルアドオンを組み合わせて構築されています。

  • エンタープライズネットワークコマンドセンター。これは Splunk Enterprise 上に構築されたプライベートアプリです。エンドツーエンドのサービスヘルスビューを提供し、フルスタックのヘルススコアとドメインごとの KPI の内訳を 1 つのダッシュボードに表示するようにカスタム構築されています。このアプリは一般には公開されていませんが、この記事では Splunk プラットフォーム上で構築できる機能を使ってこのユースケースを実現する方法を紹介します。一部の検索の正確な SPL は、すぐに始められるように記載されています。環境に合わせた同様のアプリを構築するためのその他のヘルプは、以下を参照してください。 開発者向けドキュメンテーション またはとの契約 プロフェッショナルサービス
  • シスコ DC ネットワーキングアプリ (以前は ACI アドオン)。シスコアプリケーションポリシーインフラストラクチャコントローラ(APIC)との API の直接統合。リーフアンドスパインの状態、ファブリックの異常、テナントの状態、ブリッジドメインの状態を監視します。
  • シスコサウザンドアイズアプリ 。クラウドとエンタープライズエージェントのテスト結果を取得して、可用性、損失、遅延、ジッターなどのパスをエンドツーエンドで可視化します。
  • シスコデータセンター向け ITSI コンテンツパック 。ACI および Nexus 環境用のサービスツリーと KPI があらかじめ設定されています。DC チームの ITSI 導入を加速します。
  • のアドオン ヴイエムウェア ヴイエムウェア・メトリックス 。VI API を使用して、仮想マシンと ESX のパフォーマンスを基盤となる ACI ファブリックと相関させます。
  • シスコセキュアファイアウォール 。DNS レスポンスタイプ、ネットワークアドレス変換(NAT)、ルールアクションなどの Firepower 脅威防御(FTD)イベントを eStreamer 経由で取り込みます。
  • Splunk ITSI (ITSI)。未処理のテレメトリをサービスレベルのヘルススコアに集約し、ML を使用して適応型しきい値処理を実行し、何千もの未処理のアラートを構造化されたエピソードに圧縮する相関エンジン。

テレメトリーオンボーディング:何がどのように取り込まれるのか

データソース インテグレーション/TA Splunk ソースタイプ
シスコ ACI シスコ DC ネットワーキング TA (APIC REST API+ Nexus Syslog) cisco:dc:aci:health cisco:dc:aci:*
サウザンド・アイズ シスコサウザンドアイズアプリケーション (REST API、スケジュールされたプル) thousandeyes:*
シスコ IOS-XR GRPC/GNMI (テレグラフパイプライン) 経由のシスコ MDT TA openconfig:* / GNMI_BGP.*
シスコファイアーパワー シスコセキュアファイアウォール TA (eStreamer) cisco:sfw:estreamer
ヴイエムウェア ESX ヴイエムウェア向けアドオン (VI API、予定) vmware:perf:cpu vmware:perf:net vmware:events

重要な KPI とそれが明らかにする内容

Splunk ITSI で KPI を設定して管理する方法については、以下を参照してください。 ITSI における KPI の作成の概要

KPI それが教えてくれること
ITSI サービスヘルススコア すべてのネットワーク・ドメインにわたる0~100の複合加重スコア。崩壊するとすぐにビジネスへの影響が示されます。
サウザンドアイズ HTTP アベイラビリティ Test_Metrics.metric_name: http.server.request.availability — 総合的なユーザー視点での到達可能性
サウザンドアイズパケットロス% Test_Metrics.metric_name: network.loss — 100% の場合、ハードコネクティビティの障害が確認され、劣化は確認されません。
サウザンド・アイズ・レスポンスタイム Test_Metrics.metric_name: http.client.request.duration — エンドツーエンドのアプリケーション応答遅延。
BGP セッションステート GNMI_BGP.session_state — ピアごとのネイバーステート。Idle/Active はセッションがダウンしていることを意味します。
受け入れられる BGP プレフィックス(VRF 単位) Cisco-IOS-XR-ipv4-bgp-oper: .../neighbor.af_data/prefixes_accepted — プレフィックス撤回検出。
ACI ファブリック/テナントヘルス cisco:dc:aci:health — APIC からのファブリック、テナント、ブリッジドメイン、および EPG ヘルススコア
ACI 障害イベント cisco:dc:aci:* — ファブリックからの障害コード、重大度、根本原因分析イベント。
ESX CPU/メモリ/ネットワーク vmware:perf:cpuvmware:perf:memvmware:perf:net — VM リソースの競合を確認または除外します。
火力ルールアクション cisco:sfw:estreamer — 決定と NAT イベントの許可/拒否。ポリシーがトラフィックをブロックしていないことを確認します。

次の図は、Web VM → ACI データセンター → Nexus → コア IOS-XR ルーター → MPLS/インターネットというエンタープライズサービスチェーン全体を示しています。これは、Splunk プラットフォームがネットワークモニター — Acme ダッシュボードからエンドツーエンドで監視しているトポロジです。

image1.png

運用シナリオ:ACI ブリッジドメインの撤回

次のステップは、カスタムビルドのネットワークモニターアプリのさまざまなダッシュボードと、各ダッシュボードに含まれるデータが、冒頭のシナリオで説明した Acme ネットワークの問題のトラブルシューティングにチームがどのように役立つかを示しています。これらのダッシュボードは以下に基づいて構築されています。 上記の KPI また、SPL は次の一部のダッシュボードパネルに提供されています。 以下の SPL セクション

ステップ1:60秒以内に確立された2つの事実

サービスヘルススコアカードダッシュボードには、多数の主要指標が一目で分かります。

  • ThousandEyes と Upstream Connectivity の KPI はどちらも重要で、複合スコアはゼロです。
  • BGP アラートが同時に発生します。10.30.4.137 の ACI ネイバーから予想される 4 つのプレフィックスが 0 に下がりました。
  • Web サーバーのサブネットは削除されました。

image2.png

CLIセッションを1つも開かなくても、2つの事実が明らかになりました。障害は実際のものであり、ACIからBGPへのハンドオフが原因です。

ThousandEyesダッシュボードに移動すると、HTTPの可用性は0%、パケットロスは100%であることがわかります。を使用して Test_Metrics.metric_name: http.server.request.availabilitynetwork.loss ユーザー側で完全に機能停止していることを確認できます。

image3.png

次に、[BGP] > [アップストリーム] ダッシュボードに BGP ネイバー 10.30.4.137 が表示されます (ACI): prefixes_accepted 4 から 3 にドロップされました。Cisco-IOS-XR-IPv4-BGP-OperYANG パスにより、ACI からのプレフィクスの撤回が確認されました。

image4.png

ステップ 2: ACI が原因です

Cisco ACI ダッシュボードには、ファブリックの状態は正常であることが示されています。リーフアンドスパインのハードウェア障害や EPG の問題はありません。テナントの MAPLE を詳しく調べると、根本原因であるブリッジドメインが明らかになります。 MAPLE_BD04_SPLUNK はオフラインです。そのドメインはサブネット 10.30.4.0/24 を所有していますが、現在は撤回されています。ACI 障害イベントはに表示されます。 cisco:dc:aci:* 重大度と根本原因の分析コンテキスト付き。

image5.png

ステップ 3: データから除外された他の 4 つのレイヤー

Core ダッシュボードには、すべてのインターフェイス状態が動作中であることが表示されます。 eth_inerreth_indiscard カウンタが 0 で、ルータレイヤはクリーンです。 cisco:sfw:estreamer 異常な拒否アクションや NAT 障害は表示されない。セキュリティポリシーは要因ではありません。

image6.png

最後に、VMware ESX ダッシュボードには以下が表示されます。 vmware:perf:cpu そして vmware:perf:net 正常範囲内です。VM リソースの競合は停止の原因にはなりません。

image7.png

調査の背後にあるSPL

ダッシュボード : BGP > アップストリーム

パネル : プレフィックスロス

目的 : シスコモデル駆動型テレメトリパイプラインからの正確な YANG パスを使用した BGP プレフィックス撤回検出

| mstats max("Cisco-IOS-XR-ipv4-bgp-oper:bgp/instances/instance/instance-active/vrfs/vrf/afs/af/neighbor-af-table/neighbor.af_data/prefixes_accepted") AS prefixes_accepted WHERE index="cisco_metrics" AND af_name="ipv4-unicast" span=1m BY neighbor_address, source
| search source=* neighbor_address=* 
| fields _time, source, neighbor_address, prefixes_accepted 
| search prefixes_accepted<4.000000

ダッシュボード : シスコ ACI

パネル : ブリッジドメイン非アクティブ

目的 : ACI 障害検出 — RCA コンテキストによるサーフェスブリッジドメインのオフラインイベント

| inputlookup bdlist.csv 
| fields "Bridge Domain Name" 
| eval key=trim('Bridge Domain Name') 
 
| join type=left key [ 
    search eventtype=cisco_dc_aci_health component=fvBD dn="uni/*" apic_host=apic-inb.maple.ciscolabs.com 
    | rex field=dn "tn-(?<TenantName>[^/]+)" 
    | search TenantName=Maple 
    | eval key=trim(name) 
    | stats latest(cur) AS cur BY key 

 
| where isnull(cur) 
| rename key AS "Bridge Domain Name" 
| table "Bridge Domain Name" 

ダッシュボード : サウザンド・アイズ

パネル : ネットワークパケットロス

目的 : ThousandEyes のアベイラビリティとパケットロスを単一のタイムラインで相関させる

| tstats `summariesonly` avg(Test_Metrics.metric_name:network.loss) as avg_loss  FROM datamodel="Cisco_ThousandEyes.Test_Metrics" WHERE * * * * * (* OR NOT Test_Metrics.server.address="*") Test_Metrics.metric_name:network.loss="*" Test_Metrics.thousandeyes.test.type IN ("agent-to-server", "agent-to-agent") BY _time | timechart avg(avg_loss) AS avg_loss
| append [| tstats `summariesonly` avg(Test_Metrics.metric_name:network.loss) AS avg_loss  FROM datamodel="Cisco_ThousandEyes.Test_Metrics" WHERE * * * * * (* OR NOT Test_Metrics.server.address="*") Test_Metrics.metric_name:network.loss="*" Test_Metrics.thousandeyes.test.type IN ("agent-to-server", "agent-to-agent") ] 

ダッシュボード : ヴイエムウェアセックス

パネル :

目的 : VMware ネットワークドロップチェックにより、ESX が停止の原因になっていないことを確認する

index=vmware-perf sourcetype=vmware:perf:net instance=aggregated 
| stats sum(p_summation_net_droppedRx_number) AS dropped_rx, 
        sum(p_summation_net_droppedTx_number) AS dropped_tx, 
        sum(p_summation_net_errorsRx_number) AS errors_rx, 
        sum(p_summation_net_errorsTx_number) AS errors_tx 
         BY moid 
| where dropped_rx > 0 OR dropped_tx > 0 OR errors_rx > 0 OR errors_tx > 0 
| sort -dropped_rx 

ドメイン間の相関関係が MTTR を変える理由

これらのクエリはそれぞれ、タイムラインを共有する 1 つの Splunk インデックスに対して実行されます。ThousandEyes の可用性が BGP と同じタイミングでゼロになった場合 prefixes_accepted 相関関係がゼロになると、必要なのはクエリーだけで、45 分間の争議の余地はありません。

Splunk ITSI (ITSI) を使うと、生成される6,000件以上の未処理アラートを1つの構造化されたエピソードに圧縮できるため、さらに効果的です。以前は 6 つのチームが必要だったことを、1 人のエンジニアが数分で解決できます。

この ITSI サービスアナライザーは、ACME サービスが低下し、ACI ブリッジドメインの KPI がクリティカルとマークされ、ThousandEyes とアップストリーム KPI が低下したことを示しています。複合スコアは、寄与しているドメインごとに分類されています。

image8.png

このダッシュボードには、6,000 件以上の未処理のアラートが 1 つのエピソードに圧縮されて表示されます。重要度タイムライン、寄与しているKPI、根本原因のコンテキストはすべて 1 つの構造化されたインシデントにまとめられています。

image9.png

要約:業務上のシフト

従来のモデルでは、各チームに異なるツールが用意されていました。各ツールはそれぞれ独自の領域について正しく設定されており、それ以外の領域には見えません。ほとんどの場合がそうであるように、障害がドメインの境界を越える場合、調査は技術的な問題であると同時に調整上の問題にもなります。

Splunk ITSIは、共通データレイヤーとしてドメインツールよりも上位に位置します。Cisco DC ネットワーク TA、ThousandEyes アドオン、eStreamer、VMware アドオンはすべて、タイムラインを共有した共有インデックスにフィードされます。ACI ブリッジドメインの撤回と ThousandEyes のアベイラビリティ障害との関係は、誰も手作業で把握できるものではありません。どちらのイベントも ITSI では共通のサービスコンテキストを共有しているため、ダッシュボードに表示されます。

数分間のダウンタイムが収益への影響、SLAクレジット、顧客の信頼に直接つながるネットワークでは、Splunk ITSIはクロスドメイン保証を実現するための運用層であり、将来のロードマップ項目ではありません。

次のステップ

組織におけるネットワークアシュアランスの提供について詳しく知る準備はできていますか?このシリーズの他の記事もご覧ください。

  • 作成者: Mahamudul Chowdhury
  • ソリューションデザイナー Splunk