チェックアウト遅延問題のトラブルシューティング
あなたは、オンラインストアをサポートするために複数のマイクロサービスを実行するクラウドネイティブ環境で働くサイト信頼性エンジニアです。カスタマーサポートチームには、チェックアウトの遅延が発生している顧客から多くの苦情が寄せられているため、問題のトラブルシューティングと解決を行う必要があります。
必要なデータ
このユースケースでの Splunk ソフトウェアの使い方
- 開く Splunk Observability Cloud メインメニューに移動し、をクリックします。 Splunk Real User Monitoring 。
-
ザ・
Splunk Real User Monitoring
ホーム画面には、読み込み時間、アクティビティ、フロントエンドエラーに関するデータが表示されます。この情報を調べて問題がないか調べてください。この例では、次のことがわかります。
/cart/checkout
ノードレイテンシーが高いです。クリックして詳しく調べてください。
-
見てみると
/cart/checkout
ノードを見ると、レイテンシーが急上昇していることがわかります。さらに詳しく見るには、をクリックします。 SESSIONID 。
-
トレースビューから、レイテンシーの問題があるリクエストを特定できます。この場合、1.73 秒の遅延が見られます。詳細については、を参照してください。
Splunk Application Performance Monitoring
をクリックします。
APM in the center row of this area.
-
ここでは、トレースのバックエンドビューを見ることができます。この例では、にいくつかのエラーがあることがわかります。
cartservice
、checkoutservice
、およびpaymentservice
。このバックエンドビューの下部にあるをクリックしますfrontend/cart/checkout
下のリンク Workflow Name サービスマップにアクセスするには
-
サービスマップを見て、応答時間が長いかどうかを確認してください。この例では、レイテンシーの問題が外部クライアントから発生していることがわかります。
frontend
そしてcheckoutservice
に流れてpaymentservice
。この問題が、に起因するエラーが原因であるかどうかはすぐにはわかりませんpaymentservice
そのため、さらに調査する必要があります。
-
をクリックします
paymentservice
Request Rate エリアのエラーの 1 つをクリックすると、トレースの例が表示されます。をクリックします。 Trace ID トレースの1つを見ると詳細が表示されます。
-
このトレースのウォーターフォールビューには、いくつかのエラーが表示されます。この例では次のようになります。
checkoutservice
がエクスポネンシャルバックオフを行っているため、この領域の上部にレイテンシーの高いバーが表示されます。
-
この段階では、エラーの原因となっている環境 (1 つまたは複数) を再確認することをお勧めします。下のドロップダウンボックスで
paymentservice
をクリックします。 Environment 。実行中の環境のエラーの内訳が表示されます。
-
アクセスするように変更したドロップダウンフィールドの横にあります
Tag Spotlight
をクリックし、
Spotlight
。
Tag Spotlight
これらのスパンに入力されるすべてのタグが表示されるので、これらのタグ内の問題を探すことができます。この例では、発生しているすべてのエラーとバージョン 350.10 が相関していることがわかります。つまり、このデプロイメントをロールバックする必要がある可能性があるということです。
-
Splunk ログオブザーバーを開き、をクリックします。
+
上部のツールバーにあります。をクリックします。
フィールド
、検索
label_app
このエリアで、をクリックしてpaymentservice
。次に、棒グラフのエラーログをフィルタリングします。この例では、シリアル化の失敗が複数発生していることがわかります。
-
新しいデプロイがこれらのエラーの原因になっていることを完全に確認するには、をクリックしてください
Visual Analysis
画面上部のアイコンをクリックし、バージョン別に並べ替えます。ここでは、バージョン 350.10 がこれらのシリアル化エラーの原因となっていることがわかります。
-
(オプション) シリアル化失敗イベントのいずれかをクリックしてスタックトレースをコピーしてチームに送信すると、後で問題の修正をマージできます。
-
デプロイメントをロールバックしたら、以下を使用できます。
Splunk Observability Cloud
エラーが停止したことを再確認します。画面の左上にあるタイムピッカーを使用して、をクリックします。
Live Tail
。このモードでは、発生したエラーをリアルタイムで確認できます。デプロイメントが展開されると、これらのエラーが停止し、問題が軽減されるはずです。
次のステップ
e コマース環境における遅延やエラーにより、顧客が予定していた購入を断念し、組織に財務的な影響が及ぶ可能性があります。これらの問題を迅速に特定して解決することで、損失額を減らし、不満を抱く顧客の数を減らすことができます。
このガイドの内容は、.conf2020の講演から引用したものです。 オブザーバビリティのロギング は、ユーザーの成功を支援する数千に及ぶSplunkリソースの1つです。さらに、次の Splunk リソースは、このユースケースの理解と実装に役立つ場合があります。