vRealize Operations を用いたトラブルシューティングの概要
vRealize Operations によるトラブルシューティングはどういった手順で行うのか。その基本的な流れを紹介します。
Workbenchの起動
vRealize Operations でトラブルシューティングを行うには、Troubleshooting Workbench(以下、Workbench)というツールを使います。
vRealize Operations からアラートを受けてWorkbenchを起動すると、その画面には、いつもとは異なるグラフを描いたメトリックおよび関連するイベント、変化のあったプロパティが表示されます。
スコープの設定、時間範囲の設定
アラート発生元が仮想マシンであった場合、Workbenchにはアラートの発生元である仮想マシンを中心として、関係性の深いオブジェクトが表示されます。スコープは自動的に決定されますが、仮想マシンおよびゲストOS、仮想マシンに割り当てられているデータストア、ホスト、さらにはリソースプールまで、任意にスコープを広げることが可能です。
また、時間の範囲はアラートを元にワークベンチを開始した場合、アラート発生時間の2時間前と発生30分後の合計2時間半の時間範囲となります。アラートを元にしない場合は6時間前から今の範囲になります。時間範囲を変更することも可能です。
分析に必要なメトリックの表示
Workbenchの画面には上記の時間内におけるアノマリーなメトリックがグラフ表示されます。ここで気になるグラフを更に詳細に分析することが可能です。
機械学習を活用し、例えばストレージ障害時のI/O性能の低下などのグラフと相関の高い順に関連グラフを自動選択して表示する機能も搭載しています。
こうしてスコープを広げたり絞ったり、気になるメトリックを深掘りしたりといった作業を繰り返すことで、アラートの根本原因を探っていきます。
ノイズの除去
なお、アラートの根本原因につながらない「同一クラスや同一ステートの問題事象」、「複数オブジェクトにわたる同一タイプのイベントに関する変更やメトリックのしきい値」、「複数オブジェクトにわたる同一メッセージに関連する変更」といった情報は、ノイズとして事前に除去しておくことができることで原因究明の確度が高くなります。