2万台規模のIaaSを監視するPrometheusが安定稼働するまでの道のり

     
この動画を視聴するには参加登録が必要です。
このイベントに参加申し込み
(参加無料)

私たちのチームではこれまで Sensu を使って IaaS 環境の障害を監視していましたが、Sensu の EOL をきっかけに、監視基盤を Kubernetes 上の Prometheus へ移行することにしました。
Prometheus の利用にあたり、監視の要件を満たすための設計や実装、また、Prometheus の運用中に起きた障害の再発防止が必要でした。
本講演では、Prometheus を利用した監視基盤の構成、要件を満たすための実装、そして、実際に起きた障害とその再発防止策を紹介します。

馬場 隆彰
ヤフー株式会社
インフラエンジニア

2017年に入社し、Kubernetes、OpenStack、ストレージ、監視システムなどの構築、運用を担当しています。

北田 駿也
ヤフー株式会社
インフラエンジニア

2013年にヤフーに入社し、OpenStack、Kubernetes、監視システム、Web UI、ソフトウェアロードバランサなどの開発・運用を担当しています。