序論
監視されたサービスとホストの現在の状態は2つのコンポーネントで決定します:
- サービスまたはホストの状態 (すなわち、OK、WARNING、UP、DOWNなど)
- サービスまたはホストの状態タイプ
2つの状態タイプがNagiosにあります - 不安定状態(SOFT)と安定状態(HARD)。 これらの状態のタイプは監視ロジックの重要な部分です、何時にイベントハンドラーが実行するか、また警告が何時送られるかを決めるのに使われます。
このドキュメントでは不安定(SOFT)と安定(HARD)状態の違いと、その起こる原因、起こって以降を説明します。
サービスとホスト・チェック再試行
過渡状態での誤った警告を防ぐため、Nagosは本当の誤りとする前に何回サービスやホストのチェックを行うかを指定できます。 これはホストとサービス定義の max_check_attempts オプションで制御されます。 ステータス・タイプが働いて、実際の障害があるかどうかを決定するためどの様にホストやサービスが(再)チェックされるかを理解することは重要です。
不安定状態
不安定状態は以下の状況で起こります…
- サービスかホスト・チェックがOKでない、または、UPでない状態では、サービスやホスト定義のmax_check_attemptsで指示で指定された回数のまだ(再)チェックされていません。 これはソフト・エラーと呼ばれます。
- サービスかホストがソフト・エラーから回復するとき。 これは不安定な回復であると考えます。
ホストかサービスが不安定(SOFT)状態に変わると、以下事が起こります:
- 不安定状態は記録されます。
- イベントハンドラが不安定状態を扱うために実行されます。
log_service_retries または log_host_retries をメイン設定ファイルで可能にした場合にだけ、不安定状態が登録されます。 不安定状態で起こる唯一重要なことが、イベントハンドラの実行です。 安定状態に変わる前に、問題の先を見越して修正してみたいなら、イベントハンドラを使用するのは有用な場合があります。 イベントハンドラが実行されるとき、$HOSTSTATETYPE$か$SERVICESTATETYPE$マクロに、「不安定(SOFT)」の値があります(あなたのイベントハンドラ・スクリプトは、それらがいつ修正措置を取るべきであるかを知ることができます)。 ここでイベントハンドラに関する詳しい情報を見つけることができます。
安定状態
安定状態は以下の状況でホストとサービスに起こります:
- UPでない、または、OKでない状態。 すなわち ホストやサービス定義中の max_check_attempts オプションで指定された回数(再)チェックされた結果がそうであった場合。 これは安定した誤り状態です。
- 1つの安定した障害状態から他の障害状態にホストかサービスの移行(例えば、WARNINGからCRITICAL)
- 対応するホストがサービス・チェックがOKでない状態となり、ホストがDOWNかUNREACHABLEのどちらかの状態。
- ホストかサービスが障害状態から回復するとき。 これは安定回復と考えます。
-
パッシブ・ホスト・チェック結果が受け取られているとき。
パッシブ・ホスト・チェックは安定とみなします。それはpassive_host_checks_are_soft オプションを可能にしていない場合です
ホストかサービスが安定状態変更になると以下ことが起こります:
- 安定状態は記録されます。
- イベントハンドラは、安定状態を扱うために実行されます。
- ホスト、サービスの障害発生や回復について通知されます。
例
ここに状態変化が起こってどの様に状態タイプが決められるかを書いています。そしてイベントハンドラーや通知が行われるかを書いています。 以下のテーブルは、時間経過とともに起こる連続したサービスのチェックを示しています。 サービスは、max_check_attempts に 3 の値です。
時間 | チェック # | 状態 | 状態のタイプ | 状態変更 | 注意 |
---|---|---|---|---|---|
0 | 1 | OK | 安定 | いいえ | サービスの初期状態 |
1 | 1 | 重要 | 不安定 | はい | 最初の、OKでない状態の検出。イベントハンドラを実行します。 |
2 | 2 | 警告 | 不安定 | はい | サービスがOKでない状態にずっとあります。 イベントハンドラを実行します。 |
3 | 3 | 重要 | 安定 | はい | マックス・チェックを行ったので、サービスは安定(HARD)状態に入ります。 イベントハンドラは実行されます、そして、障害通知を出します。 これが起こる直後チェック#は1にリセットされます。 |
4 | 1 | 警告 | 安定 | はい | サービスは注意で安定した(HARD WARNING)状態に変化します。 イベントハンドラは実行されます、そして、問題通知を出します。 |
5 | 1 | 警告 | 安定 | いいえ | サービスは安定した(HARD)障害状態です。 サービスのための通知間隔が何であるかによって、別の通知を出すかもしれません。 |
6 | 1 | OK | 安定 | はい | サービスはHARD回復になります。 イベントハンドラは実行されます、そして、回復通知を出します。 |
7 | 1 | OK | 安定 | いいえ | サービスはまだOKです。 |
8 | 1 | 未知 | 不安定 | はい | サービスは不安定な(SOFT) OKでない状態に変化すると検出されます。 イベントハンドラを実行します。 |
9 | 2 | OK | 不安定 | はい | サービスは不安定回復になります。 イベントハンドラは実行されますが、これが「本当」の障害でなかったので、通知は送られません。 状態のタイプは安定に設定されます。そして、これが起こるって直後チェック#は1にリセットされます。 |
10 | 1 | OK | 安定 | いいえ | サービスはOK状態で安定しています。 |