自由気ままに書いちゃおう

好きなことをつらつらと・・・

システムステータス(SystemStatus)とインスタンスステータス(InstanceStatus)のチェックについて

今回は、AWSのEC2インスタンスを監視する際に死活監視と同じような意味合いを持つ監視項目を2つ紹介します。

■システムステータスのチェック

これらのチェックでは、インスタンスを使用するために必要な AWS システムを監視し、
AWS システムが正常に動作していることを確認しています。
具体的には、インスタンスをホストしているハードウェア側の障害を監視しています。
 
CloudWatchで監視している場合のメトリクス名は「StatusCheckFailed_System (StatusCheckFailed_System)」です。
また、正常時は「1」です。異常時は「1以上」です。
よって、CloudWatchアラームの閾値は、「StatusCheckFailed_System (StatusCheckFailed_System) >= 1」にすると良いです。

 
■インスタンスステータスのチェック
これらのチェックでは、このインスタンスのソフトウェアとネットワーク構成を監視しています。
具体的には、EC2インスタンスの内部障害を監視しています。
 
CloudWatchで監視している場合のメトリクス名は「StatusCheckFailed_Instance (StatusCheckFailed_Instance) 」です。
また、正常時は「1」です。異常時は「1以上」です。
よって、CloudWatchアラームの閾値は、「StatusCheckFailed_Instance (StatusCheckFailed_Instance) >= 1」にすると良いです。

■上記チェックを使用した復旧動作について
上記のように異常を検知した場合、Cloudwatchアラームの「Recover this Instance」アクションを指定することで自動的にインスタンスが再起動するように設定することができます。
⇒ これを「Auto Recovery」と言います。