10X に SRE Team ができるまでとこれから

SRE Team の @babarot です。今年1月に入社してからおよそ 3 ヶ月が経ちました。

この度、株式会社10X (以下、10X) は、2022年5月14日、15日に開催される SRE NEXT 2022 に、SILVER スポンサーとして参加します。実は 10X では今年1月に SRE Team が発足しました。これまで開発において求められていたことに新たに "Reliability" という観点が加わり、それが今後強く必要になってくるためです。このタイミングに合わせて、10X に SRE Team ができるまでとチームのこれからについて紹介します。

現在、10X では開発不要でネットスーパーアプリを立ち上げられるシステムである Stailer を開発し、バックエンドとそれにつなげるアプリ (iOS と Android) を提供しています。

Stailer をリリースして以降、複数の国内大手企業で導入され、小売企業の DX 推進を支えてきました。これまでは「事業計画期」「事業立上期」の側面が大きく、サービスをローンチしてパートナーとの実績を積み上げ、Stailer としての方向性を確かめながら歩みを進めていたフェーズでした。

これからは「事業成長期」となりつつあります。 いまある Stailer をより確固たるプラットフォームとしての地位を確立させ事業を成長させていくフェーズです。そこで求められるのは開発だけではない「信頼性の確保」という目線です。今後、開発スピードにおいて、たとえ2歩下がることがあっても安心して3歩前にすすめるような提案・施策を展開していきます。

これまでの 10X では SRE チームはなく、開発メンバーでインフラを見れる人が開発・運用をしていました。Stailer ではインフラ基盤に GKE を採用しています(アーキテクチャについては @wapa5pow のブログも参照)。Kubernetes やその周りのエコシステムを効果的に活用し運用するには専任のメンバーがいたほうが良いことに加えて、10X では Stailer の成長によってパートナー企業や店舗数のもあり、二足のわらじでインフラを見れるような規模ではなくなってきていました。ましてやスケールだけではなく "Reliability" 観点でのインフラ投資も求められてきており、より一層 SRE としてチームを成立させることが急務となっていました。

1人目 SRE として僕が入社したタイミングでこれまでインフラを見ていたメンバーと一緒に SRE チームを作りました。SRE チームでは目下、次のことに取り組んでいます。

  • モニタリング基盤の Datadog 化
  • スケーラブルな Kubernetes Cluster のデザイン
  • スケーラブルな Kubernetes manifest management のデザイン
  • Incident response の型化とワークフローの整理
  • インフラリソースの Terraform 化
  • デプロイの高速化、リリースフローの刷新
  • Team development
  • ...

「Terraform の導入」などは事業のフェーズが変わったのを知るのにわかりやすい issue かと思います。Infrastructure as Code は「事業立上期」には必要のないことですが、今後よりスケールさせていくためには必要になってくることです。10X SRE チームでは、このようにこれから事業やインフラのスケールに必要なものもガンガン進めていきます。

まだできたばかりのチームです。最近、SRE チームで1年ロードマップを作成し、今後1年間 Stailer の成長を "Reliability" 観点でどのようにサポートしていくか、また、SRE チーム自体をどうスケールさせていくかをチームで定義しました (一部抜粋のみ。ロードマップのタイムラインは省略)。

1 year Roadmap (タイムラインは省略)

10X SRE ではスタートアップの成長期を支えることが好きな方、インフラ・チームの両面をスケールさせるのが好きな方を募集しています。JD も作成したのでぜひご覧ください。連絡をお待ちしております!

SRE(Site Reliability Engineer) / 株式会社10X