メインコンテンツへスキップ

Splunk Lantern

キャンパスインフラストラクチャにおけるクロスドメイン可視性の実現

今日、オタワではWi-Fiが遅いです。ほとんどのキャンパスネットワークインシデントはこのようにして始まります。監視アラートやダッシュボードが赤くなることではなく、ユーザーからの苦情が最終的にヘルプデスクに届くときです。その時までには、エンジニアリングチームはすでに遅れをとっています。

キャンパスネットワークは本質的にクロスドメインです。ワイヤレス性能は有線インフラストラクチャに依存します。有線の安定性は、アクセスレイヤスイッチの状態によって異なります。アクセスレイヤの状態は物理的な接続状況によって異なります。どのレイヤーの問題も、すべてのレイヤーをまとめて見て初めて明らかになる形で上向きに伝播します。ほとんどの監視ツールはこのような処理を行いません。Cisco Catalyst Center は AI 主導の問題検出とヘルススコアリングをキャンパスにもたらし、Splunk はそのシグナルを運用コンテキストに反映して、より迅速な調査を促進します。と Splunk ITSI (ITSI) のアダプティブ・スレッショルディング機能 、信号はユーザーが影響に気付く前に発射される可能性があります。

前提条件

ソフトウェア

この機能は、特定のSplunkアプリとCiscoテクニカルアドオンを組み合わせて構築されています。

  • エンタープライズネットワークコマンドセンター。これは Splunk Enterprise 上に構築されたプライベートアプリです。Catalyst Center のテレメトリとワイヤレスヘルスを関連付けて 1 つの運用ビューにまとめます。このアプリは一般には公開されていませんが、この記事では Splunk プラットフォーム上で構築できる機能を使ってこのユースケースを実現する方法を紹介します。一部の検索の正確な SPL は、まず始められるように、この記事に記載されています。環境に合わせた同様のアプリを構築するためのその他のヘルプは、以下を参照してください。 開発者向けドキュメンテーション またはとの契約 プロフェッショナルサービス
  • シスコカタリストアドオン 。Catalyst Center および IOS-XE デバイスから syslog、NetFlow、および API データを取り込みます。キャンパスデータの主要な統合レイヤー。
  • シスコエンタープライズネットワーク用 ITSI コンテンツパック 。Catalyst Center 環境と Meraki 環境向けにサービスツリーと KPI があらかじめ設定されています。すぐに使えるキャンパスのヘルススコアリング機能を提供します。
  • Splunk ITSI (ITSI)。Catalyst Center の KPI からサービスツリーを構築します。ML ベースの適応型しきい値処理により、クリティカルなしきい値を超える前にヘルススコアの偏差を検出します。

テレメトリーオンボーディング:データハブとしての Catalyst Center

データソース インテグレーション/TA Splunk ソースタイプ
ネットワークの問題と AI ベースライン シスコ Catalyst アドオン (Catalyst Center API) cisco:dnac:issue
デバイスヘルスと AP 無線統計情報 シスコカタリストアドオン (Catalyst Center API) cisco:dnac:devicehealth
クライアントの健康と経験 Cisco Catalyst アドオン (Catalyst Center API) cisco:dnac:client cisco:dnac:clienthealth
インフラストラクチャドメインヘルス シスコ Catalyst アドオン (Catalyst センター API) cisco:dnac:networkhealth
構成コンプライアンス シスコカタリストアドオン (Catalyst Center API) cisco:dnac:compliance
セキュリティアドバイザリ (PSIRT) シスコカタリストアドオン (Catalyst Center API) cisco:dnac:securityadvisory
リアルタイムのセキュリティイベント Splunk HEC への Catalyst センターイベントウェブフック source=http:DNAC_EVENT 

ザ・ cisco:dnac:issue ソースタイプは、このダッシュボードで最も操作上の重みがあります。フラッピング問題、無線周波数(RF)干渉イベント、ワイヤレス侵入防止システム(WIPS)アラート、AI ベースライン逸脱イベントなど、Catalyst Center の AI 保証エンジンからネットワークの問題を追跡します。これこそが、プロアクティブなエピソード検出と根本原因調査の両方に役立つものです。

キャンパス運営にとって重要な KPI

Splunk ITSI で KPI を設定して管理する方法については、以下をご覧ください。 ITSI における KPI の作成の概要

KPI それが教えてくれること
キャンパス・ヘルス・スコア cisco:dnac:networkhealth — 有線、ワイヤレス、ルーティングの各ドメインにわたる総合的な健康状態最上位のサービス指標。
AP ヘルススコア cisco:dnac:devicehealth — 無線使用率、ノイズ、干渉、到達可能性を含む AP ごとのヘルス。
AP 無線使用率% cisco:dnac:devicehealth — 無線あたりのチャネル負荷。しきい値を超えると、RF 輻輳によりスループットが低下します。
クライアントオンボーディングスコア cisco:dnac:client — アソシエーション、DHCP、認証の加重スコア。ドロップはオンボーディングが失敗したことを示します。
クライアント信号強度インジケーター (RSSI) と信号対雑音比 (SNR) cisco:dnac:client — クライアントごとの信号品質。RSSI が低いか、SNR が低い場合は、カバレッジまたは干渉の問題があることを示しています。
インターフェイス入力/出力エラー cisco:dnac:devicehealth — スイッチハードウェアからのポート単位のエラーカウンタ。物理層障害を示す重要なインジケータ。
イシュー数 (P1-P4) cisco:dnac:issue — Catalyst Center の問題の重大度。P1/P2 数の増加は、インフラストラクチャへの影響が広範囲に及んでいることを示しています。
AI ベースライン偏差イベント cisco:dnac:issue — Catalyst Center AI は、学習したベースラインから逸脱した動作にフラグを立てます。厳しいしきい値より前に起動します。
構成コンプライアンス% cisco:dnac:compliance — ゴールデンイメージの順守と存在終了 (EoX) ライフサイクルステータスドリフトは潜在的な不安定性の原因を示している。
PSIRT アドバイザリーカバレッジ cisco:dnac:securityadvisory — キャンパス内のデバイスにマッピングされたアクティブな CVE アドバイザリ。リスクの定量化。

運用シナリオ:アクセス層障害によるワイヤレスの低下

次の ITSI Glass Table は、キャンパスのヘルススコアが 50 で、つまり「低下している」ことを示しています。データセンター、支店、その他のセグメントはすべて正常です。そのため、対象範囲はすぐに確認されます。これはキャンパス特有の問題です。

image1.png

サービスツリー:アラートを開く前にどのレイヤーかを知る

キャンパスネットワークの ITSI サービスツリーは、コア、ディストリビューション、アクセス、ワイヤレスアクセスポイント (AP) の複合ヘルススコアをレイヤーごとに分類します。次に示すように、アクセス・ポイントが重要で、アクセス・レイヤーとディストリビューション・レイヤーが劣化してもコアは正常な状態のままである場合のパターンがはっきりしています。問題は AP レイヤーをサポートする有線インフラストラクチャーにあります。これは RF でも SSID 設定でもなく、ワイヤレスコントローラでもありません。エンティティレベルのドリルダウンにより、OTT02-SDA APが特定の影響を受けるエンティティであることが確認されました。は cisco:dnac:issue 指標が重要度に影響します。

image2.png

パターンを読む : 右上の Catalyst Center パネルを見てください。アクセスが重要で、アクセスレイヤとディストリビューションが劣化していて、コアが正常であることに注意してください。このパターンは、AP の下にある有線インフラストラクチャに問題があることを直接示しています。ITSI サービスツリーでこの組み合わせを見ると、RF メトリックは赤信号です。問題はアクセスレイヤスイッチインフラストラクチャにあります。

予測エピソード:ユーザーが気付く前にアラートが発生

Splunk ITSI がアラートを発信します 予測エピソード 適応型閾値法により、キャンパスの健康スコアは今後30分で49.93を下回ると予測されています。これは静的な閾値ではありません。機械学習モデルは、通常のヘルススコアのベースラインを以下から学習しています。 cisco:dnac:networkhealth 履歴を確認して、統計的に有意な偏差を検出しました。エピソードは、サービスがまだ回復可能な間に起動します。

この1つのエピソードの背後には、複数のシグナルが寄せられています cisco:dnac:issue .2 つのネットワークレイヤーにわたるインターフェイスエラー、AP 接続障害、AI ベースラインの逸脱は、1 つの構造化されたインシデントにまとめられます。エンジニアは、個別のアラートをキューに入れる代わりに 1 つのインシデントを開くことができます。

image3.png

最後に、この KPI タイムラインには アクセスレイヤーのデグレードは最初から cisco:dnac:devicehealth 、続いてからの配布 cisco:dnac:networkhealth 、コアは影響を受けません。開始時のタイムスタンプは相関関係がわかるようになっています。

image4.png

運用ダッシュボード:影響の定量化

Splunk プラットフォームの運用コマンドセンターのメインダッシュボードには以下が表示されます。

  • ヘルススコア:45%
  • 36 件の重要課題から cisco:dnac:issue
  • 100件以上の PSIRT アドバイザリーが提供しています cisco:dnac:securityadvisory
  • レイヤー特有の影響

image5.png

36 件の P1/P2 問題を掘り下げてみると、問題の量の急増ではなく、持続的な問題量の傾向がわかります。可用性と接続性のカテゴリが優勢です。

image6.png

アクセスレイヤスイッチには、からの入出力エラーカウンタの上昇が表示されます cisco:dnac:devicehealth 。これにより、AP アップリンクが不安定になる物理的な根本原因が確認されました。

image7.png

調査の背後にあるSPL

エンタープライズネットワークコマンドセンターに表示したい情報は、デバイスやトポロジによって異なります。含めたいと思われる検索例をいくつか示します。

目的 : AI ベースラインコンテキストを使用して Catalyst センターから P1/P2 の問題を明らかにする

`cisco_catalyst_app_index` sourcetype=cisco:dnac:issue cisco_catalyst_host="*" | search IssueSpecificCategory IN ("Availability", "Connectivity", "Security", "Wireless") 
| stats  
    latest(_time) AS last_seen,  
    latest(IssueName) AS issue_name,  
    latest(IssuePriority) AS priority,  
    latest(IssueStatus) AS status,  
    latest(IssueSpecificSummary) AS summary latest(IssueSpecificCategory) AS category 
     BY IssueID, DeviceName  
| convert ctime(last_seen) AS "Last Seen" 
| table "Last Seen", DeviceName, issue_name, priority, status, category ,summary 
| sort -last_seen 
| head 50 
| rename DeviceName AS "Device", issue_name AS "Issue", priority AS "Priority", status AS "Status", summary AS "Details" 

目的 : 受信した RSSI および SNR コンテキストでのワイヤレスクライアントのオンボーディング失敗

index=campus sourcetype="cisco:dnac:client" 
| where onboardingScore < 3 OR connectionStatus="failed" 
| stats count avg(rssi) AS avg_rssi avg(snr) AS avg_snr BY ssid apName site 
| where count > 5 
| eval signal_quality=case(avg_rssi > -65,"good", avg_rssi > -75,"marginal", true(),"poor") 
| sort -count 

目的 : AP 無線ヘルスからの高使用率と干渉を検知 cisco:dnac:devicehealth

`cisco_catalyst_app_index` sourcetype="cisco:dnac:devicehealth" (cisco_dnac_host="*" OR cisco_catalyst_host="*") DeviceFamily="Unified AP" 
| stats avg(UtilizationRadio0) AS u24, avg(UtilizationRadio1) AS u50,  
        avg(NoiseHealthRadio0) AS n24, avg(NoiseHealthRadio1) AS n50,  
        avg(InterferenceHealthRadio0) AS i24, avg(InterferenceHealthRadio1) AS i50,  
        dc(DeviceID) AS count 
| eval data="2.4 GHz,".u24.",".n24.",".i24.",".count."|5 GHz,".u50.",".n50.",".i50.",".count 
| makemv delim="|" data 
| mvexpand data 
| rex field=data "(?<Band>[^,]+),(?<avg_util>[^,]+),(?<avg_noise>[^,]+),(?<avg_interference>[^,]+),(?<ap_count>.+)" 
| eval avg_util=round(coalesce(avg_util,0),1),  
       avg_noise=round(coalesce(avg_noise,0),1),  
       avg_interference=round(coalesce(avg_interference,0),1), 
       ap_count=coalesce(ap_count, 0) 
| table Band avg_util avg_noise avg_interference ap_count 

目的 : アクセス層のデバイスインターフェイスエラー。物理的な根本原因を突き止めてください。

`cisco_catalyst_app_index` sourcetype="cisco:dnac:issue" cisco_catalyst_host="*"  
(IssueSpecificName="*interface*error*" OR IssueSpecificDescription="*interface*error*") 
| eval domain=case(match(DeviceFamily,"(?i)Unified AP|Wireless"), "Wireless",  
                   match(DeviceFamily,"(?i)Switches|Switch"), "Wired",  
                   match(DeviceFamily,"(?i)Routers"), "Routing",  
                   1=1, "Other") 
| search domain="*" 
| rex field=IssueSpecificDescription "interface\s+'(?<interface_name>[^']+)'" 
| stats latest(_time) AS last_seen,  
        latest(IssuePriority) AS priority,  
        latest(DeviceRole) AS role, 
        latest(IssueSpecificSummary) AS summary,  
        latest(DeviceName) AS device, 
        latest(SiteNameHierarchy) AS site 
        by IssueID, interface_name 
| table last_seen, device, role, interface_name, priority, summary, site 
| rename last_seen AS "Last Detected", device AS "Device Name", role AS "Role", interface_name AS "Interface", priority AS "Prio", summary AS "Error Description", site AS "Site Location" 
| convert ctime("Last Detected") 
| sort -priority, -"Last Detected" 

要約:事後対応型のチケットから事前対応型の保証まで

Catalyst Center の AI 保証エンジンは、キャンパスドメイン内の問題を検出するための面倒な作業の多くを行います。これらの問題を、WAN、データセンター、セキュリティドメインを含む企業全体のサービスへの影響と関連付けることはできません。また、学習した行動ベースラインに基づいて予測アラートを発行し、問題が P1 インシデントになる 30 分前に検出することもありません。

Splunkソフトウェアは豊富なテレメトリ機能を活用します cisco:dnac:issuecisco:dnac:devicehealth 、および cisco:dnac:client それをサービスコンテキストに入れます。ITSI サービスツリーはレイヤー間の依存関係を明確にします。適応型閾値処理モデルは、特定のキャンパスの健全性を学習し、一般的な閾値を超えたときではなく、何かが逸脱したときに起動します。

目標は簡単です。ユーザーがWi-Fiチケットを送信する前に、アクセスレイヤーの切り替えインターフェイスを修正することです。Splunk ソフトウェアはそれを可能にします。

次のステップ

組織におけるネットワークアシュアランスの提供について詳しく知る準備はできていますか?このシリーズの他の記事もご覧ください。

  • 作成者: Mahamudul Chowdhury
  • ソリューションデザイナー Splunk