はじめに
こんにちは、DB技術統括部のK.Fです。
この記事では、Oracle Enterprise Manager Cloud Control (以下、EMCC)を導入する際に、必ず設計が必要となる「メトリックのしきい値設定」の考え方について、簡単にご紹介いたします。
EMCCはご存じの通り、Oracle Databaseを始めとし、WebLogicなどのWebアプリケーションサーバや、Exadata・Private Cloud Applianceを包括的に監視・管理することができる、Oracle社が開発するシステム管理ソフトウェアとなっております。
近いソフトウェアだと「Zabbix」などが挙げられますが、EMCCは特にOracleに特化した管理ソフトウェアだと思ってもらえれば良いと思います。
そもそもメトリックとは
直訳すると「メトリック = 測定基準」となりますが、
IT分野(主にシステム管理・運用)においては、CPU使用率やメモリ使用量、ストレージ使用量といった、コンピュータの各コンポーネントの測定値のことを"メトリック"と示すことが多いです。
Oracle Databaseを監視する際によく設計するメトリックの例としては
・表領域使用率
・アラートログ
といったものが挙げられます。
しきい値について
そもそも「しきい値とは?」という方もいらっしゃると思いますので、簡単に説明いたします。
「しきい値」はいわゆる基準値にあたるものとなり、その値を超えた場合、人や他のシステムにアラートやメールなどを通知できるものとなります。
EMCCでのしきい値設定の考え方
さて、本題となりますが、EMCCでしきい値を設定する際には、他にも設定可能な項目があります。
実際にCPU使用率のメトリック収集設定の画面を見てみましょう。
図:EMCCでCPU使用率のメトリックしきい値を設定する際の画面
ここで「比較演算子」「発生数」「収集スケジュール」といった新しいワードが出てきました。それぞれ意味を確認してみましょう。
【比較演算子】収集したメトリックと設定したしきい値を比較するための演算子を設定します。考え方としては、『収集メトリック』【比較演算子】『しきい値』の並びとなります。
(例) 60%(収集メトリック) >(比較演算子) 90%(しきい値)
⇒ つまりこの場合は一致しないのでアラート発報されません。
【発生数】アラート発報するまでに、しきい値を超えることを許容する回数を設定します。
【収集スケジュール】メトリックを収集するための間隔です。CPU使用率などは数分ごとに収集すべきですが、ディスク使用率等は数時間ごとの収集でも良いでしょう。
知っておくべき"2つ"のしきい値
具体的には【警告】と【クリティカル】を設定できる形となっており、2段階の基準を設定できます。
なお、「警告」より「クリティカル」の方が重要度が高く、一早く確認・対応を行うべき基準とされています。
考え方はそれぞれ以下の通りとなっています。
【警告】すぐに対応・対処する必要はないが、解決する必要がある
【クリティカル】システムに障害や停止が起こる直前・起こっているため、すぐに対応・対処する必要がある
もちろん「警告のしきい値」を超えた段階でアラート発報させることも可能なので、余裕をもって対策することが可能です。
発生数について
さて発生数について、先ほど「アラート発報するまでに、しきい値を超えることを許容する回数」と記載しましたが、実際にこの数値を変更することでどのような挙動となるのか確認してみましょう。
CPU使用率を収集スケジュール5分で収集したデータを作成したので、これをベースにご紹介いたします。
図:CPU使用率を5分ごとに収集したデータ
発生数=1で設定してみる
それでは実際にこのデータをもとに、発生数を1に設定した場合のEMCCの挙動を確認してみましょう。(クリティカルなしきい値に90%を設定しているものとしています)
図:発生数=1に設定した場合のEMCCからアラート発報される例
グラフに記載したように、90%を超えた「8:25」と「8:40」の2回アラート発報されていることがわかります。つまり、発生数が1の時にはしきい値を超えた時には、すぐアラート発報されているということとなります。
発生数=2で設定してみる
それでは続いて、発生数を2に設定した際の挙動を確認してみましょう。
図:発生数=2に設定した場合のEMCCからアラート発報される例
先ほどと異なり、「8:45」の1回のみアラート発報されていることがわかります。つまり、一度しきい値を超えただけでは発報とならず、2回連続してしきい値を超えた場合のみアラート発報されたということとなります。
まとめ
メトリックしきい値設定の際に発生数も合わせて設計することにより、「バッチ処理で10分程度は確実にCPU使用率が上がるが、それが長期間化する場合にアラート発報してほしい」といったニーズにも対応することが可能となります。
弊社では、Oracle DatabaseやEMCCの設計・構築から、DBの改善や性能分析といった運用支援も対応可能となりますので、DBでお困りの際は気軽にご相談ください!