投稿日 2022.03.28

最終更新日 2022.03.28

SRE(サイト信頼性エンジニアリング)の事例を紹介!成功のポイントを見つけよう

SRE(サイト信頼性エンジニアリング)の事例を紹介!成功のポイントを見つけよう

これから、トレンドの分野になることが予想されているSRE。システム運用にまつわる課題を根本から解決できる一つの考え方として、SREに注目が集まっています。

そこで今回は、「SREとは何か?」という基本的なところに触れながら、実際の事例をいくつかセレクトしてご紹介。「SREという言葉は耳にしたことがあるけれど、イメージが湧かない…」という人は、ぜひ参考にしてください。

SREとは?

SREとは?

SREは、Googleが提唱したエンジニアに対する役割のこと。システムの信頼性の高さに重きを置いており、開発と運用のバランスを取りながらその役割を果たします。

SREという言葉を生み出したのは、GoogleのエンジニアであるBen Treynor氏。彼の著書である「Site Reliability Engineering」にて、以下のようにSREについての説明を行っています。

My explanation is simple: SRE is what happens when you ask a software engineer to design an operations team.
「私の説明は簡単です。SREは、ソフトウェアエンジニアに運用チームの設計を依頼したときに起こることです」

これまで保守的なアプローチが中心だった運用チームに対し、高い信頼性を維持しながら変化し、攻めるというのがSREの特徴。開発と運用を一つのチームにしてサービスやシステムの信頼性を高めることが、SREの目的です。

SREの事例紹介

SREの事例紹介

それでは、SREを取り入れた実際の事例を見ていきましょう。

株式会社メルカリ

日本を代表するフリマアプリとして知られるメルカリ。その運営会社である株式会社メルカリでは、2015年からSREへの取り組みをスタートさせています。このメルカリの取り組みは、日本企業の間でSRE職というポジションを広めるきっかけにもなりました。

メルカリがSREを導入した目的は、ダウンタイムの削減メルカリ自体への信頼性の向上など。しかしSREを導入した当初は、セキュリティの担保や開発環境の整備、ログの収集、分析基盤の構築や運用など、その作業範囲は限定的でした。

メルカリのサービスの発展に対しては大きく貢献していたものの、2018年に実施されたマイクロサービス化やキャッシュレス決済サービス「メルペイ」のサービス開始などに伴い、当初のSREチームではカバーしきれなくなってきたのです。

そこでメルカリではメルカリとメルペイを横断し、基盤となるチームのマイナーアップデートを実施。“SRE Core”・“SRE Edge”・”SRE Advocacy”という専門性の異なる三つのサブチームを設け、管理体制に対する信頼性の向上と品質の改善を実現しました。

株式会社エウレカ

株式会社エウレカは、マッチングアプリ「pairs」を運営している企業。エウレカでは、2016年にインフラチームと技術基盤チームとを融合させ、SREチームを発足しました。

エウレカは、2012年にpairsの事業をスタート。その2年後となる2014年7月には会員数が100万人を突破し、順調にサービスの規模も拡大していきますが、それとともにシステムモニタリングの必要性も高まりました。

pairsのサービスを開始してしばらくの間は目先の作業に集中していたことから、ログの収集・活用は後回しに。ログ基盤の整備もなされていませんでしたが、2015年にスタートした“フルスクラッチプロジェクト”の影響から、今後10倍、100倍と増えていくログに耐えられるプラットフォームの構築が急がれたのです。

このタイミングで、エウレカではSREチームを発足。「ビジネスの阻害要因になる事象を全て排除する」というミッションのもと、デプロイパイプラインの整備や新しいインフラの構築業務、VMからコンテナへの移行作業など、さまざまな業務に取り組みました。

さまざまな業務に取り組む中、SREの業務範囲が多岐に渡りすぎて一つの業務に注力できないという問題点を改善すべく、2021年からはSREを定期的に見直し。チームの理想の姿を探し続けながら、業務に取り組んでいます。

株式会社ヌーラボ

プロジェクト管理ツールの「Backlog」や、オンライン作図ツールの「Cacoo」を開発・販売している株式会社ヌーラボでは、インフラ専任エンジニアが入社した2015年からSREを導入。この頃までは社内におけるエンジニアの人数も少なく、それぞれが開発と運用を兼任しているような状態でした。

サービスの幅が大きくなるにつれSREのメンバーも少しずつ増員し、Backlogでは1年に1~2名ほどSRE要員が増え、チームとしての形を確立。しかし、“SREを開発チーム所属にするのか?”や“全プロダクトの共通チームにするのか?”など、SREチームを作る上での悩みは絶えませんでした。

試行錯誤を繰り返した末、2019年にプロダクトを横断した「SRE課」が発足。この体制が整ったことで、SRE課が抱えるプロダクトに取り組みながら、他のチームの課題にも目を向けて横断的に各チームの連携が取れるよう工夫を凝らしたのです。

ヌーラボの特徴は、開発チームとSREチームが分離しているということ。開発とSREとを切り離すことで生じる問題点の共有や進捗の共有に関しては、定期的に情報共有の場を設けることでその問題を解消しています。

LINE株式会社

コミュニケーションアプリ「LINE」の運営元であるLINE株式会社では、2019年にSREの専門チームが発足しました。SRE専門チーム発足の背景となったのが、同社のプライベートクラウド「Verda」の存在です。

Verdaの目的は、インフラに関するリソースの提供だけでなく、これまでユーザー自身が考えるべきことを減らせるなど、ユーザーにとって便利だと感じるサービスを提供すること。しかしVerda内で提供されるサービスは、開発に携わったそれぞれのチームがデプロイや監視を行わなければならず、サーバーの確保やシステムそのものを管理するための仕組み作りに大きな手間と時間が費やされていました。

この課題を解決するためには、SREが機能することがベスト。SRE専門チームにて社内から出るVerdaに対する問い合わせ対応をしたり、物理的なマネジメントを実行したりしています。

また、デザインを見直したり障害の発生を防ぐための品質向上を実施したりと、いくつかの軸を持っていることも特徴の一つ。SREがVerdaに対してどのような活動ができるのかを考えながら、日々業務に取り組んでいるのです。

株式会社リクルートテクノロジーズ

リクルートグループ内のIT部門を担う株式会社リクルートテクノロジーズでは、2017年4月にSREに特化した組織を創設。150を超えるWebサービスを運営しているリクルートホールディングスにとって、その効率化と機能の強化は企業として避けて通れない道です。

そこでリクルートテクノロジーズでは、インフラ構築にまつわるあらゆる業務の自動化・迅速化を目指すため、SREの取り組みをスタート。SREの専門組織によって、これまで数々のスタートアップを実現してきました。

SRE専門組織が立ち上がる前は、それぞれのWebサービスごとに組織内を横断しながら対応。しかしさまざまな組織を横断しての対応となるため、構築完了まで時間と手間がかかり非効率的でした。

SRE専門組織が創設されてからは、個別の要件に対しても細やかにかつ迅速に対応できるようになった上、アプリケーションの垣根を超えた協力が可能に。正反対のニーズに応えられる組織であることから、今後もSREに対する期待の高まりが予想されています。

まとめ

SREに対する求人の数が増えてきたとは言え、まだまだSREの実際の事例は少ないのが実情です。Googleが提唱したSREの概念が浸透し始めてはいるものの、「では、どのようなスキルを持った人員を配置し、どのような組織にすればいいのか」というところが見えていないケースも少なくないことでしょう。

まだまだ導入に対してのハードルが高いと感じることも多いかと思いますが、将来的にはSREの存在が当たり前になる世の中がやってきます。今のうちにSREに関する疑問を解消し、未来を切り開く企業となれるよう意識を変えていきましょう。

この記事の監修者