orz記録

おうちとかいしゃのシステム技術のことを中心に書いていこうと思っています。

2014/01/21 14:56 VMware vSphere HAがうまく動かなかった理由を考えていた。

こんにちは。会社から更新。社会人失格。ま、技術的なことですから。

 

さて、久しぶりにvmwareのお話。

タイトルのとおり、HAがうまく動かなかったわけです。具体的には以下の様な感じ。

 

ESXiホストのコネクション切れをvCenterServerが検出した。

vCenterServerはvSphere HAを発動した。

HAに失敗したというイベントログが残っていた。詳細なメッセージは忘れちゃった(笑)。

 

障害が起こったESXiは、マネジメントIPにPingも通らなくなっていた状態だった。

おそらくHW障害か、カーネルのバグかなんかでハングったと思われる。

他のところに移動したVMは、そのまま立ち上がって来たものもあれば、

Cancel

I move it.

I copy it.

の選択肢が出てきて、そのままじゃ起動しなかった。

 

ESXiのHWを電源断→入したら、ESXiは何事もなく上がってきた。

 

障害の原因、それはそれで追求しなければいけないんだけれど、

ここでの問題はなんでHAに失敗したかってこと。

 

で、いろいろググッて調べてみた。主に見ていたサイトは以下2つ。

 

http://techhead.co/vmware-esx-i-moved-it-or-i-copied-it-whats-the-difference/

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2034571

 

で、限られた状況証拠から想像したみた。想像かよ(笑)。

 

HAのハートビート通信が切れたので、障害ESXiは孤立した。

で、他のESXiでインベントリ登録して起動しようと思っていたけれど、その時にVM自体は何事もなく上がっている状態だったものは、

ファイルがロックされていてロックできなかったので、HAのエラーが出た。

 

その後にESXi自体が全体的にハングった。

このときに他のESXiに移動したものに関しては他のESXiによってファイルのロックが取得できたので

普通にHA機能が動いて起動に成功した。

 

なんかおかしい。辻褄合ってないな(笑)。

 

さて、ここでちょっとしたFYIを。

VMを移動した時に、出る3つの選択肢

Cancel

I move it.

I copy it.

は、.vmxファイル内のuuid.locationと起動時に自動的に作成されるものと比較して一致してなかった時に出てきます。

 

じゃ、停止状態でストレージを移行した場合、storage vMotionした場合はどうなるのかってことなのですが、

停止状態でストレージを移行した場合、.vmxファイルの内容からuuid.locationの行自体がバッサリ消えます!

storage vMotionした場合はやってないのでわかりません。

 

んな感じで。メモ代わりに書いただけですので。