estie SRE の sugitak (X: @sugitak06 ) です。2022年8月に1人目専任 SRE として入社してそろそろ3年経ち、 SRE として求められるものもずいぶん変わってきました。このブログでは、 estie SRE の現在地をご紹介したいと思います。
estie の不動産領域と SRE
ひとことで言うと、 estie は不動産 B2B の事業を行う会社です。
商業用不動産の世界では、投資や運用に欠かせない「情報」を得る手段が限られています。私たちが提供するプロダクトでは、不動産業界全体の活動を効率的に行えるようにするために、世の中に出ていないデータを顧客に提供しています。このプロダクト群をもって世の中の情報流通をなめらかにし、「産業の真価を、さらに拓く。」ことを目指しています。詳しくは代表による5周年ブログ記事を参照してください。
私の入社時にはプロダクト数は3つほどで、当時はそこまで高い可用性を求められているわけではありませんでした。ありがたいことにこの数年で利用いただく機会が飛躍的に増え、さらにプロダクト数も10個ほどまで増えたことで、より高いレベルの非機能要件が期待されるようになりました。
以前のプロダクトは時折データを閲覧できればそれで十分に価値提供できていましたが、最近ではより業務に深い場所で利用していただくことも増えており、そのため可用性が非常に重要なものとなってきているのです。
加えて、私たちが「産業の真価を、さらに拓く。」ことを目指すにあたっては、まだまだプロダクトの価値や範囲は十分とは言えません。さらに多くのお客様に価値を届けるためにはより多くの機能や体験を作っていく必要があります。つまり開発です。
そして、高速な開発がさらに高速にできるように支えつつ、それでいて安全にデリバリできる状態を維持する必要があります。私たち estie SRE はその状態を目指し、日々さまざまなチャレンジをしています。
estie SRE のミッション
estie における SRE のミッションは「プロダクトの信頼性を高めるための SRE 文化と基盤を切り拓く」です。
SRE は信頼性を高めることこそが存在理由です。しかし estie の SRE はチームとしては大きくないため、全社の信頼性をすべて実装・運用するようなことはできません。各チームに入り込んでログの改善を行うような動きをすることもあるのですが、それ以上に Cloud Center of Excellence (CCoE) や運用の専門家としての Enabling 、利活用しやすい Observability 基盤の提供など、レバレッジの効く施策でもって貢献することが求められるのです。
現在の SRE は、開発生産性の向上を目指し、 kenkoooo さんとともに Platform Engineering チームとして動いています。その際、「開発者の開発が、プロダクトの価値になる」をキーワードにすることにしました。開発生産性は評価や施策の打ち方が難しいのですが、このキーワードによって目線を「開発者がプロダクト価値を高める速度」に合わせられ、方向性を整えることができているように感じています。
これまでの SRE の活動
estie SRE では、これまで以下のようなことを進めてきました。
AWS アカウント分割
2年前、我々は単一の AWS アカウントを利用していました。プロダクトが増え、複雑になっていく権限のなか、 IAM policies だけで全てをまかなうのは困難になりつつあり、アカウント分割を進めることとなりました。 詳細は AWSアカウント分割のススメ:セキュリティと運用効率が改善したよ - estie inside blog に譲りますが、結構な分量の対応がありつつも無事移転完了まで漕ぎ着けました。
この環境移転の結果、 AWS アカウントが適切な形で分離されるようになり、ガバナンスレベルが向上しました。また副次的な効果として AWS において「Terraform 化されていないプロダクトのリソース」がほぼなくなり、 IaC の活用レベルが三段階くらい上がりました。併せて、圧倒的な安全安心を手に入れました。
Preview 環境
ひとことで言えば、 feature branch を確認できる環境です。 Feature branch 段階で確認できると、レビューが早まったり、プロダクトに入れる前に顧客に見せられたり、デザイナーと営業とのコミュニケーションが素早く実施できたりします。圧倒的に便利になるのです。
詳しくは estieでのナイス基盤な事例の紹介 ~Preview環境実装~ - estie inside blog で紹介しています。
監視の改善
監視・ o11y についても取り組み続けています。
監視の考え方 〜あるいは可観測性とはなんなのか〜 - estie inside blog
これまで実施してきたトピックとしては、 IaC 化とそれによるアラート設定共通化、 Synthetics 監視、 Datadog 日本リージョン移行、 SLO 改善などがあります。
SLO 改善についてはこちらに書いています:QA チームのテストを活用した SLI を ECS on EC2 で動かした話 - estie inside blog
デプロイ改善
デプロイの改善についても継続的に行っています。デプロイについては デプロイ再考2024/reconsidering-deploy-in-2024 という発表をしていますが、ちょうどこの頃にデプロイ統一の実作業も行っており、 GitHub Actions Reusable Workflow としてデプロイのほとんどを共通化しました。これにより、プロダクトごとのデプロイのフローや処理の違いに悩まされることがなくなりました。
また、伸びてきたデプロイ時間を改善するため、 OSS 貢献を行う機会もありました。 ecspresso をさらに速く使うために --wait-until=deployed オプションを追加した話 - estie inside blog
ここまで改善を続けてきたデプロイですが、とくにフロントエンドに対して改善余地があり、今後も取り組んでいくこととなりそうです。
その他たくさん!
SRE は、ここまで書いたこと以外にも、多方面にわたる取り組みを進めてきています。SRE ど真ん中のことはもちろん、ブログになりにくい地道な活動、業務を支え続けるトイル対応、セキュリティ改善、コスト削減や定期モニタリングなど、まさに枚挙に暇がありません。
最近では社内で AI の取り組みが多くあり、 Platform Engineering チームのメンバーが深く関わっています。 SRE でもかなりの活用事例があり、つい昨日以下のブログを出しています。
estieで働くSREのAIとの向き合い方 - estie inside blog
AI を通じて SRE も働き方がまだまだ変わっていくことが予想され、私たちも AI を味方につけてさらに業務を効率化していこうと思います。
estie SRE のこれから
SRE が Platform Engineering チームの一部として動き始めて1年が経ち、これまで書いてきたようなさまざまなことに取り組んできましたが、全社の Platform としてはまだまだ始まったばかり。「マルチプロダクト環境において、理想的なプロダクト開発や環境とはどのようなものか」についてのビッグピクチャーを描いていく段階です。
また、 estie では現在10のプロダクトを開発しており、今後さらに増やしていくことが見込まれています。
日本のスタートアップに新たなスタンダードを 投資家が語るestieの未来像 - estie inside blog
プロダクト数が20個・30個と増えていくなかで信頼性を向上させ続けるというのは、とても大きな挑戦です。技術力はもちろんとして Enabling や組織を動かす力も重要になってきます。
estie SRE へのご応募、お待ちしております!
2018年の創業以来、 estie は大きく成長してきました。ここ数年はマルチプロダクト戦略を進め、不動産業界におけるより多くの問題に対して取り組んで来ています。
このような中、開発組織の変化を追い越す速度で SRE が改善を続けていくために、 SRE の新たなメンバーを募集しています!
不動産業界の未来の一端を切り拓いていくプロダクトの信頼性を、ともに高めていきませんか。ご興味があればぜひ一度、カジュアル面談にお越しください。ご応募お待ちしております!!