サーバを安く調達する為に、昔からVPSを使う事が多いけど、
このVPSいろんな業者があって、それぞれの特色なども色々あるのですが
このBlogのKagoyaというVPSを使って提供している訳なのですが
最近、このKagoyaのVPSが品質が悪くてちょっとなーと思っているので記事にしたいと思います。
VPSとは?
上にもちょっと書いたけど、VPSを提供している業者となります。
VPSは、クラウドでサーバを切り売りしている業態で、1台のサーバの中に
複数のクラウドサーバを生成し、効率良くサーバを動作させるという仕組みです。
だいたいこんな仕組みです。
それらを提供している会社が、AWSも含めて色々あります。
高い物から低価格低機能なものまで色々あるのですが、
今回は、その業者の1つ、KagoyaのVPSを紹介します。
Kagoyaとは?
使い始めた頃は、さくらのVPSより遙かに使いやすく利便性も高い状態でした。
なので、筆者は最初さくらのVPSをつかって、このブログサイトを公開しておりました。
その後、カゴヤの乗り換えた経緯です。
自動的にスナップショットをとる機能があったり、すぐ作って検証終わったらすぐつぶすみたいな
事がかなり簡単にできるすばらしいクラウドでした。
しかし、数年前からどんどんトラブルも増えてきており、夜中にホストサーバの容量が足りなくなり
契約してサーバを立ち上げているリソースを剥奪されて、使えない時間帯があったり。
リソース不足なんか、常時監視してれば、そろそろサーバリソース一杯だなとか
追加しないと、どれかのサーバが下記みたく影響を受けるな?とか分かりそうなものですが・・・。
====================================================
発生日時 :4月7日(金)23時30分 ~ 4月8日(土)11時40分(24時間表記)
原 因 :リソース不足
対応内容 :リソース不足解消のためのメンテナンス実施
影響範囲 :ホスト機収容の以下インスタンス
○○○○○○○○
影響内容 :上記時間帯でご利用インスタンスに接続できない時間が発生いたしました。
====================================================
たまたま、使っていたサーバは、テスト用のサーバで商用としては使って居なかった為
実害はなかったのですが、それにしても、こちら起因でないサーバ停止は費用も含めて
譲歩いただきたいですが、メール一本で電話連絡などもない状態です。
これ以外にも
最近の出来事になりますが、上にも出てきました自動スナップショット保存機能がバグってます。
管理画面にはいって下記の仕組みがそれに当たります。
これをONにすると、1日1回(時間指定できないのもちょっと使いにくいのですが)自動的にホットで
スナップショット保存が行われます。ただ、最近コントロールパネル障害が多発している関係なのか?
この前のコントロールパネルのサーバにDDoS攻撃された影響なのか?
全く、普及後のテストをしていないのか?分かりませんが
上記スナップショット保存をONにしても、スナップショット保存がとられるないサーバと
普通にスナップショット保存が行われるサーバがあるのです。
これが、リアルでとられているスナップショットですが、何か?おかしくないですか?
カゴヤのサポートが言うには、
============================================================================
コントロールパネルのスナップショット一覧を確認したところ
ID:aaaaaaaa スナップショット名:[停止不可]みせ
というスナップショットが6月14日15時3分に作成されておりました。
6月15日分のスナップショットについては、6月14日15時3分に取得されていますので
24時間程度お待ちいただけますでしょうか。
============================================================================
次保存されているのが、6月18日11:32:53です。
スナップショット保存の状態を確認しただけで、内部的な動作は一切確認せず
サポートが回答してきた訳です。
また、コントロールパネルから、問い合わせを投げても
平気で3日くらい何も対応せず、放置される状況が続いてます。
電話してやっと、一次回答をしますといって、送ってきたのが上のメールがそれに当たります。
過去色々なトラブルがあり、問い合わせしているのですが、10個あったら2つくらいしか
回答して折らず、その後の進捗やもう分かりません等も一切行ってこない。
サポートとしては、これを作ったシステム会社にエスカレーションするだけで
Kagoyaの方では、一切調べていないのではないかと思っています。
結局、24時間後はおろか、14日~18日の間にスナップショット保存はされず
なんなのか?不定期な感じになってる。
昨日の出来事
昨日は、もう数ヶ月前から調子が悪いサーバがあって、それをどうにすべく
調査してたのですが、結論からすると、ストレージの枯渇が影響しているかなとの結論で
停止させて、スナップショットを手動保存して、その作業自体も数時間かかって
なんなのよって?思いながら、なんとかスナップショット保存までこぎ着けて
その後、1つプランアップを実施したら、もはや帰ってこない。24時間がたとうとしている。
下記の動画みてもらえると、ステータス取得中となって強制停止も何も一切出来ない状態に陥った・・・。
カントリー風な音楽をつけたけど、いい加減にしてほしい感じ。
このサーバは、もう捨てる決心が早々についてるので、サーバさえ起動して、状況さえ確認出来たら
もうすてて、課金を止めたいのですが、このままでもずーっと課金され続けている訳で。
ヘルプデスクに電話して、早々にもう止めれるか?止めれないなら、いつまでこの状況なのかで
課金の金額をそれなりに検討しておかないと行けないので、どうにかしていただきたいですね。
これも、電話は時間外だったので、メールフォームから問い合わせを投げていますが
メールフォームって、上にも書いた通り、数日最低でも3日くらいは放置されて
受付したのか?今やってますなのか?全く分からないですよね。
何が起こっているか?考察する
このサーバは、数ヶ月前から調子が悪く、監視alertが多発するサーバだった。
そももそ、使用用途が監視サーバなので監視サーバ自体が遅く
問題ないサーバであっても、alertを発報するという訳の分からない状態になっていた。
これらの原因を調査すべきSSHで中に入って色々見るが、
特に何も無く、ひたすらシステム側の負荷が高い状態が見て取れた。
これは、今までの経験上、原因は限られる。
1.同じホストに人気のサイトを提供しているサーバがある場合
そちらにリソースを持って行かれて、あまりリソースを消費していない
サーバ側のリソースが奪われて遅くなっているパターン
2.収容されているサーバのいずれかが、DDoS攻撃などで
ネットワーク帯域を圧迫しており、ネットワークが流れないことにより
スペック劣化に陥るパターン
3.ホストサーバが不安定になっているパターン
完全に壊れるとわかるが、中途半端に壊れているパターン
例えば、該当サーバが収容されているストレージのSANの経路に問題があるとか
そのストレージ装置の収容されているボリュームのRAID構造が壊れているとか
RAID5もしくはRAID6構成でいずれかのSSDが壊れていて、スペックダウンしている場合など
色々考えられるが、スナップショット保存に異常な時間を要し、
スナップショット自動j保存にも数日かかっていることから、
最後のストレージ装置の不具合の可能性が高い気がする。
今回不具合のサーバから採取した、スナップショットをインスタンスとして
サーバを構築したが、全くをもってあれだけ不安定だった状況がうその様に改善した。
その結果をもって考えると、収容されていたホストもしくはストレージ装置
もしくは、その両方に不具合があって、数ヶ月まえから調子が悪かった事がうかがえる。
もし、サーバそのものが調子が悪い場合、スナップショットからサーバを起こしても
同様に調査が悪い状態が再現されるはず。
例えば、サーバをクラックされて何か他のサイトへの攻撃の踏み台にされているとか。
画面開くだけでもヒーヒー言っていたので、新たな環境で立ち上げたサーバは
何もなかったかのように無事動いている。
調子が悪い時は、CPUの負荷率が1~3位をいったり来たりしてた、
今は、0.1~0.4平均最大でも0.8くらいで収まってる。
これからのことから、格納されたサーバホストに接続されるサーバ本体か、ストレージ装置のトラブルが考えられる。
こういうのは、監視を日々ちゃんとトレンドを見ておけば、異常が発生する前に気がつける話しではあるが
監視サーバにたよっていると、閾値を超える前の不安定な状態であっても、監視がなっていないから
大丈夫だになってしまうのである。
改善いただきたい内容
とりあえず、ヘルプデスクのシステムへのスキル向上及び上流ヘルプデスクの
技術解析スキル向上と、チケットなどで焦げ付いている問い合わせへの対応を
もっとちゃんと実施していただきたい。電話で会話しても、スキル不足によって
会話にならない時がある。VPSを使う人って、それなりのスキル持ってる人だと思っています。
それに対応出来るスキルを持っている方の配置が好ましい。
対応に時間がかかり過ぎて、いまやってるのか?もう分からないから
忘れるのを待とうか?なのか全く分からない・・・。
こんな事言っちゃ悪いですが、サポートデスクは地に落ちてます。
よくこれで、クレームにならないレベルだと思っています。
最後に、今システムで色々異常が発生しているように思いますが
これ、システムが正常に動いてますか?を総点検していただきたいですね。
追記
問い合わせしていた内容が帰ってきましたが、予想通り
カゴヤ・ジャパン サポートセンター ○○です。
平素は当社サービスをご利用いただき誠にありがとうございます。
お待たせいたしまして申し訳ございません。
担当部署にて調査を行いましたが、6月19日に定期スナップショット取得ができなかった
原因について特定することができませんでした。
誠に申し訳ございません。
で?どうするの?分からないで済まそうとしてるみたいです。
現に現在もうごいていないのですが。
どうにかならないですかね?カゴヤさん!!