メインコンテンツへスキップ

Splunk Lantern

チェックアウト遅延問題のトラブルシューティング

あなたは、オンラインストアをサポートするために複数のマイクロサービスを実行するクラウドネイティブ環境で働くサイト信頼性エンジニアです。カスタマーサポートチームには、チェックアウトの遅延が発生している顧客から多くの苦情が寄せられているため、問題のトラブルシューティングと解決を行う必要があります。

このユースケースでの Splunk ソフトウェアの使い方

  1. 開く Splunk Observability Cloud メインメニューに移動し、をクリックします。 Splunk Real User Monitoring
  2. ザ・ Splunk Real User Monitoring ホーム画面には、読み込み時間、アクティビティ、フロントエンドエラーに関するデータが表示されます。この情報を調べて問題がないか調べてください。この例では、次のことがわかります。 /cart/checkout ノードレイテンシーが高いです。クリックして詳しく調べてください。
    clipboard_efa730ac80f346866325cf45828b21133.png
  3. 見てみると /cart/checkout ノードを見ると、レイテンシーが急上昇していることがわかります。さらに詳しく見るには、をクリックします。 SESSIONID
    clipboard_e62881af2f7a243c5a307a2c09f5f9a24.png
  4. トレースビューから、レイテンシーの問題があるリクエストを特定できます。この場合、1.73 秒の遅延が見られます。詳細については、を参照してください。 Splunk Application Performance Monitoring をクリックします。 APM in the center row of this area.
    clipboard_e65085cbcfff5dde87be2fbb46f1d98fb.png
  5. ここでは、トレースのバックエンドビューを見ることができます。この例では、にいくつかのエラーがあることがわかります。 cartservicecheckoutservice 、および paymentservice 。このバックエンドビューの下部にあるをクリックします frontend/cart/checkout 下のリンク Workflow Name サービスマップにアクセスするには
    clipboard_e4e266503d348c2b492aa0deb5fb437fa.png
  6. サービスマップを見て、応答時間が長いかどうかを確認してください。この例では、レイテンシーの問題が外部クライアントから発生していることがわかります。 frontend そして checkoutservice に流れて paymentservice 。この問題が、に起因するエラーが原因であるかどうかはすぐにはわかりません paymentservice そのため、さらに調査する必要があります。
    clipboard_e69b2f1133203047b421d509a9409ace5.png
  7. をクリックします paymentservice Request Rate エリアのエラーの 1 つをクリックすると、トレースの例が表示されます。をクリックします。 Trace ID トレースの1つを見ると詳細が表示されます。
    2021-09-22_16-57-57 (1).gif
  8. このトレースのウォーターフォールビューには、いくつかのエラーが表示されます。この例では次のようになります。 checkoutservice がエクスポネンシャルバックオフを行っているため、この領域の上部にレイテンシーの高いバーが表示されます。
    clipboard_e2d1e6b380705f86b069dd2ed124568ec.png
  9. この段階では、エラーの原因となっている環境 (1 つまたは複数) を再確認することをお勧めします。下のドロップダウンボックスで paymentservice をクリックします。 Environment 。実行中の環境のエラーの内訳が表示されます。
    clipboard_e407b1cf5a2051547c88407def2b7eb90.png
  10. アクセスするように変更したドロップダウンフィールドの横にあります Tag Spotlight をクリックし、 Spotlight Tag Spotlight これらのスパンに入力されるすべてのタグが表示されるので、これらのタグ内の問題を探すことができます。この例では、発生しているすべてのエラーとバージョン 350.10 が相関していることがわかります。つまり、このデプロイメントをロールバックする必要がある可能性があるということです。
    clipboard_edcc059ccf9a9482f2af43e88adf5f458.png
  11. Splunk ログオブザーバーを開き、をクリックします。 + 上部のツールバーにあります。をクリックします。 フィールド 、検索 label_app このエリアで、をクリックして paymentservice 。次に、棒グラフのエラーログをフィルタリングします。この例では、シリアル化の失敗が複数発生していることがわかります。
    2021-09-22_17-02-23 (1).gif
  12. 新しいデプロイがこれらのエラーの原因になっていることを完全に確認するには、をクリックしてください Visual Analysis 画面上部のアイコンをクリックし、バージョン別に並べ替えます。ここでは、バージョン 350.10 がこれらのシリアル化エラーの原因となっていることがわかります。
    2021-09-22_17-10-26 (1).gif
  13. (オプション) シリアル化失敗イベントのいずれかをクリックしてスタックトレースをコピーしてチームに送信すると、後で問題の修正をマージできます。
    clipboard_e25d159e633a8efba6846b19e24c4c72c.png
  14. デプロイメントをロールバックしたら、以下を使用できます。 Splunk Observability Cloud エラーが停止したことを再確認します。画面の左上にあるタイムピッカーを使用して、をクリックします。 Live Tail 。このモードでは、発生したエラーをリアルタイムで確認できます。デプロイメントが展開されると、これらのエラーが停止し、問題が軽減されるはずです。
    clipboard_e0148eaabd7e429f6322314fe48939723.png

次のステップ

e コマース環境における遅延やエラーにより、顧客が予定していた購入を断念し、組織に財務的な影響が及ぶ可能性があります。これらの問題を迅速に特定して解決することで、損失額を減らし、不満を抱く顧客の数を減らすことができます。

このガイドの内容は、.conf2020の講演から引用したものです。 オブザーバビリティのロギング は、ユーザーの成功を支援する数千に及ぶSplunkリソースの1つです。さらに、次の Splunk リソースは、このユースケースの理解と実装に役立つ場合があります。

Splunk OnDemand Services: これらのクレジットベースのサービスを利用すると、事前定義されたカタログからさまざまな技術サービスを受けられる Splunk の技術コンサルタントに直接アクセスできます。ほとんどのお客様が オンデマンドサービス 彼らによると ライセンスサポートプラン 。ODSチームに問い合わせてください ondemand@splunk.com サポートが必要な場合。