SREのはじめ方 NTTドコモ サービスデザイン部が数十億トランザクションの中で実践するサービスレベル管理 シェア

初級者   SRE

今、多くの企業でサービスの信頼性を担うSite Reliability Engineering(SRE)の組織やエンジニアロールが立ち上げられ始めています。しかし元々はインフラやその運用エンジニアとして活動していたチームが、どのように SRE を担うエンジニアへと変革を遂げて行けばいいでしょうか?そこでまずは SRE の基本を振り返りながら、SREのミッション、SLI/SLO/SLAの基本を解説します。
またセッションの後半では、NTT ドコモのサービスデザイン部 宮川様にご登壇をいただきます。NTT ドコモは動画、音楽、電子書籍や決済サービスなど50種類以上のデジタルサービスを7,800万人に提供しており、それらサービスの中核となる新たな統合 API 基盤の実運用を開始しています。その運用を担う SRE チームでは、月に数十億のトランザクションを捌くだけでなく今後さらに数十倍に拡大するシステムを見越しつつも、運用負荷を高めることなくサービスレベルを向上させる取り組みを行っています。サービスデザイン部がいかにして多数のサービスとトランザクションを効率的に捌くためのサービスレベル管理を実践しているのか、その実例をお話いただきます。

清水 毅
New Relic 株式会社
シニアソリューションコンサルタント

パッケージベンダーにてecommerceシステムのソフトウェアエンジニア、インフラエンジニアを経験後、DevOpsチームの立ち上げやSaaSビジネスのパフォーマンスやセキュリティに特化したチームの立ち上げに従事。その後、AWSにて1人目のSaaS専門ソリューションアーキテクトとして多くの日本企業のSaaS化、セキュリティ対策、SRE立ち上げを支援し、現職。特にインフラ、パフォーマンス、セキュリティという非機能要件の設計から運用を得意とする。

宮川 倫
NTTドコモ株式会社
サービスデザイン部 第一クラウド推進

2017年入社。コンシューマ向けサービスの開発・運用を担当。2020年より社内API基盤”RAFTEL”のSRE。運用効率の最大化を目指し、ツール導入検討や改善に取り組む。最近ウマ娘にはまっている。