note : 省電力状態での稼働傾向
vSphere ESXi 環境で CPU 消費があまり高くない状況に見えている中で Soft lockup や中のアプリケーションのタイムアウトが発生する等、省電力モードによって影響を受けていた可能性があるため気付いたことの備忘です。
挙動としては次のような事象が発生します。
– ESXiなどのホストから見るとCPU消費が低い(40%程度をうろつく)
– CPUがサチっているようなログやアラームが出ない
– VMの稼働が若干もっさりしている感じがあるが、最初から省電力状態にしていると気付きづらい
– 変更前後を比べると体感できる程度の応答時間の変化がある(Nested ESXi 上の NSX Managerを開くのに数秒早くなる)
– Nested 環境の一部のVMでsoft lockupが出る
– 特に高CPU消費のNSX edgeで出易い
– CPUパフォーマンスの異常が見られないがアプリケーションのタイムアウトが発生することがある
– HCX(4.10,4.11)デプロイ直後に構成が問題ない状態でログインに非常に時間が掛かり失敗する状態に陥る
なおこの状態でシェア値やCPU数を増やしてもクロック数自体が低いのか、特にHCXの問題は解決しませんでした。
電力管理のポリシーはホスト筐体の管理、およびOSレイヤになるESXiホストの電源管理ポリシーで管理します。
iRMCだと次のあたり。S4マニュアルとは違っていたのでS6も少し違うかもしれません。
ESXi 設定値は英語表記で ‘High Performance’,’Balanced’,’Low Power’,’Custom’ の4つです。
https://techdocs.broadcom.com/jp/ja/vmware-cis/vsphere/vsphere/8-0/vsphere-resource-management-8-0/host-power-management-policies.html
iRMC設定が’Minimum Power’, ESXiの電源管理ポリシーが’Low Power’にしていると上記のような事象に見舞われました。
上のCPU消費傾向の後半は’OS Controlled’,’High Performance’に設定した状態でVM構成は変更しておらず、ここまで変化するとは思っていませんでした。
HCXやSoft lockup問題も解消しましたが100W程度上昇。元の消費の550Wは別の機材も含んでおり、iRMCを見る限り250->350W程度に上がった感じです。
VMから見た場合に影響が出ている可能性のある傾向は次にある23時前後の違いのようです。今回はFrigateアプリケーションを起動している小規模VMにおける動画の間欠的な受信の失敗ですが、それ以外には異常が無かったものです。いずれも構成に起因してアプリケーション等にも依存するため傾向として捉えてください。
– VM CPU idle が平均して数%程度しかなく、定常的に負荷が掛かっている。
– VM CPU IO wait 待ちが秒単位で出ている。
– VM CPU pressure stall (https://docs.kernel.org/accounting/psi.html)が出ている。
– VM Network Softnet Out of quota が出ている。
– ESXi CPU Ready が基盤全体の平均として 1.5s 程度掛かっている。
とりあえず自宅の電気代を抑えようと思って省電力設定していたのを忘れていたのですが、ここまでインパクトがあるとは思っていなかったので参考までに。