2024/07/29 早朝から数時間ブログがダウンしていました。
原因
アタックで落ちる場合もあるんですが、今回に限っては
毎日特定時間にSSL証明書を自動更新バッチが動いているのですが
そのバッチサーバがなんと!!なんと💦
OSアップデートがでかいのが来てtemporaryを使いつぶして
なんと、Nginxが動作不能に陥り、証明書をゲットできなくなったのが原因です。
バッチサーバから証明書を上手く取得出来ない場合
取得側のシェルで、ある程度は旧証明書を使い翌日にRETRYするを
組み込んでいたのですが、今回は、中途半端に4つくらいある証明書の
3つだけゲットでき処理中に落ちたみたいで、残り1つの資材がゲット出来ず
処理落ちしてNginxを再起動した所、資材不足で立ち上がらず
ブログ自体が落ちてしまった経緯です。
対策
これは、全部が取得出来たかを確認した後にnginxを再起動するという
シェルに改変することで、バッチサーバが転けてもある程度は行ける
状況になると思うので、そちらを実装していきたいと思います。
何はともあれ、数時間のダウンで終わったので良かったです。
監視サーバも入れてますが、寝ずに見てるわけではないので
alertは事後対応になっちゃいますね。