はじめに
グロース本部でデータサイエンティストをしています@Kazk1018です。この記事では、先日社内にて公開した「10X Data Jobs」という、10Xのデータに関わる職種や業務、具体的な事例などについて書いたドキュメントの内容を紹介します。
今はAdvent Calendarの季節ですが、本記事はAdvent Calendarではなく、10Xのメンバーで書いているAdvent Calendarについてはこちらにありますのでぜひ本記事と一緒にご覧ください!
「10X Data Jobs」とは?
背景として、社内外から「あれ?この業務はどの職種が担当しているんだっけ?」「これから応募したいと思うんですがこの職種は○○のような業務は担当していますか?」という問い合わせが多くありました。これは半年でデータに関わる職種のJD(職務記述書)の変更や追加があったことが主な要因と思われます。たしかに「データサイエンティスト」は「アナリスト」や「ソフトウェアエンジニア(ML)」との責任境界をどのように設計するかは様々な組織で議論されていることだと思います。10Xでは様々な職種の人と一緒に働く機会が多く、社内外の人にデータに関わる職種や業務内容を理解してもらうことがちょっとした課題になっていました。そこで10Xのデータに関する魅力や役割、それらが各職種とどのように繋がっているのかをまとめた「10X Data Jobs」を作成しました。
(10Xにおける事業の理解を深めていただくには以下の資料やブログを御覧ください。)
10Xにおける「データ」の魅力
10Xにおけるデータの魅力はネットスーパーという事業におけるカバレッジの広さと種類の多さです。 我々が提供するStailerは、BtoBtoCのプラットフォームであるため、お客様がWebやAppで商品を注文する際のログのようなtoC向けのデータだけでなく、各店舗がどのような配達エリアを設定しているのか、店舗のスタッフがどのように商品のピックパック作業(店頭等から商品を選んでお客様ごとに袋詰めする作業)をしたのか、どういった順序でお客様に配達をしたのか等、toB領域のデータが豊富に揃っています。また、我々はプラットフォームを提供しているため、先ほどのデータが小売事業者の数だけ存在しています。ネットスーパーという世の中にまだ正解がない領域において、上記のデータはデータを扱う方達に大きな挑戦の機会を提供してくれます。以下、これらの豊富なデータを活用して我々がどのようなことに取り組んでいるのかを紹介します。
Data Jobsの役割
下記の図はStailerにおけるデータの流れを表しています。
我々の事業では、データから価値を作り出している役割が大きく分けて4つあると考えています。
- 商品マスター (Data Product)
- データ基盤 (Data Platform)
- インサイト分析・ダッシュボード (Insight / Dashboard)
- 機械学習 (ML Platform)
本記事ではこれらの4つの役割について、以下の内容を説明します。
- どのようなデータを利用しているか?
- 何を提供しているのか?
- どのような職種の人が関わっているのか?
その後、社内の具体的なプロジェクトについていくつかの事例を紹介します。 (これらの紹介は淡々と紹介しているので、実際のプロジェクトを知りたいという方は「プロジェクトの事例」からご覧になっても良いと思います。)
商品マスター
エンドユーザ/小売事業者への提供価値の最大化のためにネットスーパーの根幹となる売り場を創るための「商品についての正しい情報が集約されたマスターとなるデータ」を作っています。Stailerにおける売り場を制し、ネットスーパーのコア体験を創り出すことで、メーカー・小売・ユーザへ価値提供するハブとなることを目指しています。
どのようなデータを利用しているか?
小売事業者が持つネットスーパーを構築する上で必要な各種データで、以下が代表例です。
- 商品在庫データ
- 商品カテゴリデータ
- 受発注実績データ
- セール情報データ
- 配送に必要な枠情報データ
また、上記以外にも社内のアナリティクスエンジニアが開発したデータ基盤に取り込まれユーザーやスタッフの行動ログ、キャンペーンの情報などのデータへのアクセス機会もあります。
何を提供しているのか?
「ネットスーパーの立ち上げ/運営に必要なデータ = Whole ProductであるStailerに必要なデータ」をアウトプットしています。それはすなわちエンドユーザ、小売事業者、配送業者含むネットスーパー事業に関連する人々に使われることを意味します。
また、生成されたデータを基にした発展的テーマとして、
- 「セレクション」と呼ばれる商品の品揃え/在庫改善
- 需要予測、パーソナライズ/レコメンドといったML利用
も活用先 / 提供先として存在し、事業サイドにおいても当該データを扱います。
どのような職種の人が関わっているのか?
商品マスターを主に担当しているのは、「データプロダクトマネージャー」と「データプロダクトエンジニア」です。
また業務を進める中で、次のような職種の方と一緒に働いています。
BizDev
ネットスーパーのローンチを共に推進。グロースフェーズにおいてもパートナ施策実現のための売場の構築にて伴走PdM
機能開発におけるデータ与件のやりとりデータサイエンティスト / アナリスト
商品マスターのデータを用いた分析全般のブリッジアナリティクスエンジニア
商品マスタ生成サイクルのテクニカルな相談。アーキテクチャの改善にて連携
データ基盤
プロダクトのデータは基本的にはエンドユーザーに情報を提示するためのものであり、生データのままでは分析しにくいことが多いです。生データをそのまま分析しようとすると、値の意味が開発者に聞かないと分からないこともありますし、別の人が同様の分析を実はしていてデータや知見がサイロ化してしまうなどの問題が発生しがちです。データ基盤では、アナリストやデータサイエンティストはもちろん、BizDevやPdMのような分析を本業としていない職種の方でも、分析が出しやすく信頼できる品質のデータウェアハウスやデータマートを提供します。
どのようなデータを利用しているか?
大きく分けると社内のデータと社外のデータに分類できます。社内のデータは、商品マスターで作成された売場のデータ、ネットスーパーを利用されるユーザーや運用スタッフの行動ログ、広告や宣伝のキャンペーンの情報などの分析に必要なデータが該当します。社外のデータは、お客様から直接いただいたデータやネットスーパーの商圏を分析するための統計情報などがあります。
何を提供しているのか?
データ利用者に対して使いやすく、データの品質の担保ができるように加工したデータを格納したデータウェアハウスやデータマートを提供します。主な対象としては、アナリストやBizDevの方の利用することを想定していますが、機械学習や検索のシステムに接続し、需要予測や商品推薦の特徴量として使われることもあります。
どのような職種の人が関わっているのか?
データ基盤を担当しているのは「アナリティクスエンジニア」です。
また業務を進める中で、次のような職種の方と一緒に働いています。
データサイエンティスト / BizDev / PdM
データ分析やダッシュボードに必要な要件をヒアリングするソフトウェアエンジニア
プロダクトの生データの細かい仕様や制約について連携するSRE
データ基盤のインフラやセキュリティについて相談するコーポレートIT / リーガル
個人情報などのセキュリティ要件について相談する
インサイト分析・ダッシュボード
アナリストのミッションは「事業価値を最大化するために、意思決定を支えるインサイトを継続的に提供する」です。データを事業価値に転換するためには、以下の流れが必要だと思っています。
- 意思決定者の意思決定に至る構成要素を理解し、データで解決可能な課題を括りだす。
- ローデータから正しく集計を行い、分析結果を意思決定者に提供できるようにする。
- ダッシュボード、データマート、DWHを作ることで2のコストを下げる。
10Xは事業の複雑さゆえ意思決定の構成要素が多く、データの種類の多いかつ複雑性も高く、それを抽象化したデータ分析基盤を作る難易度も高いため、上記の1, 2, 3とも大きな課題になっています。アナリストの役割は、1, 2に切り込んで、3をデータ基盤チームと一緒に作っていくことで、10Xのデータ活用全体を活性化させることです。
どのようなデータを利用しているか?
- 売り場の購買、回遊データ
- ピックパックデータ
- 配送のデータ
- 場合によって地理情報などの外部データや実店舗のデータなどを扱うこともあります。
何を提供しているのか?
分析レポート、ダッシュボード、集計データなどのアウトプットをBizDevメンバーやPDMに提供し、意思決定を支援します。ただ分析をするというより、データで解決できそうなIssueのプロジェクト推進を担っているケースが多いです。
どのような職種の人が関わっているのか?
インサイト分析とダッシュボードを担当しているのは「アナリスト」です。
また業務を進める中で、次のような職種の方と一緒に働いています。
BizDev / PdM / RS&O
事業で発生する課題についてヒアリングするソフトウェアエンジニア
分析に利用するデータについて詳細な調査を依頼するアナリティクスエンジニア
分析に必要なデータやダッシュボードの要件を定義する
機械学習
ユーザーの購買行動やスタッフのオペレーションの中に多くの意思決定を行うタイミングが存在しています。例えば、ユーザーは多くの商品が並んでいる売場の中から自分が必要としている商品を発見する必要がありますし、その過程の中で新たに必要な商品を見つけたり、実は欲しかった商品に出会うこともあります。機械学習システムは、人間が一度に多くの情報を処理する必要がある場合に、それらを売場や個人に最適な形で提供し、ユーザーやスタッフの意思決定や作業を支援するものを提供します。
どのようなデータを利用しているか?
Stailerで提供している売場のデータはもちろん、ユーザやスタッフの行動ログ、外部から取得したデータなど様々なデータを利用しています。また、必要に応じて商品データなどにアノテーションを行う場合もあります。
何を提供しているのか?
ユーザーによりスムーズ、かつ楽しく買い物をしていただくために、商品の推薦や検索などの機能を届けています。また、小売事業者に対してオペレーションを効率化するために需要予測や価格最適化を提供することも検討しています。
どのような職種の人が関わっているのか?
機械学習を担当しているのは「ソフトウェアエンジニア(ML)」と「データサイエンティスト」です。
また業務を進める中で、次のような職種の方と一緒に働いています。
プロダクトマネージャー, デザイナー
機械学習という機能を含めた顧客の体験を設計するソフトウェアエンジニア
機械学習システムとプロダクトとの接続を行うRetail Strategy & Operations
店舗の商品戦略やオペレーションの効率化を考える
プロジェクトの事例
品揃えの可視化
実店舗においても、ネットスーパーにおいても、商品の品揃えは顧客の体験に影響を与える大きな要因の一つと考えています。しかし、ユーザから見て商品が売場にあるかどうかは様々な要因で抜け落ちてしまう可能性があります。例えば、在庫が存在していない場合や、ユーザがほしい商品を発見することができなかった場合が挙げられます。この取り組みでは、我々の強みである商品マスターとプロダクトのデータを統合することで、商品がユーザーに渡るまでの「ファネル」を可視化しています。
このようなファネルの可視化によって、商品がユーザに届いていない課題を分析し、最終的にどのようなアクションを取るべきかについて議論しています。こちらの結果は社内でも非常に話題になり、Slackでも非常にリアクションがあっただけでなく、その後様々な場面でこの結果を利用した深い分析が行われています。(tottiさんは本日はお休みのようです。)
配達枠の最適化
ネットスーパーと実店舗の利用における大きな違いとして、ネットスーパーは利用可能者数の上限が定められているという点が挙げられます。ネットスーパーを提供する各店舗において、ある日のどの時間帯にどの程度の注文を受け付けるのか(=Capacity)が設定されるのですが、この配達枠数が少なすぎると本来であれば利用いただけたのに利用出来ないという機会損失が発生し、多すぎると多くの注文に対応するためのスタッフや車両の費用がかかってしまうという問題が発生します。コロナ禍等の外部要因の影響もあり、現在のネットスーパーにおいて配達枠の設定がボトルネックとなるケースが多く、我々の抱える大きな課題の1つとなっています。
配達枠の最適化の取り組みでは、「需要予測の結果からどの程度のCapacityが必要となるのか?」、「現在のスタッフ数でより多くの注文に対応するためにはどのようなオペレーションの改善ができるのか?」といった分析をしています。社内でも「配送枠とオーダーの状況を可視化する」ダッシュボードを作成する試みがあり、社内のネットスーパー利用者からもユーザの声として課題感を感じることができるのが我々の強みでもあります。
商圏分析
ネットスーパーが通常のECと大きく異なるのは、商品の性質と配送エリアの観点から実店舗やセンターの周囲数キロ圏内のみにサービスを提供するという点です。逆に言えば、そのサービス提供エリアの選定こそがどのお客さまにサービスを提供できるかを絞ることになり、その後のマーケティングやキャパシティなどの多く要素の基礎となります。例えば、人口密度の低い地方都市で狭い配送エリアを設定した場合、ネットスーパー事業が成り立つのに必要なだけのユーザーが獲得できない可能性が高く、一方で数十キロといった広すぎる配送エリアを設定した場合、配送効率が下がってネットスーパー事業の採算が悪化してしまうのです。
商圏分析の取り組みでは、日本の各地域の統計データなどを分析することによってネットスーパーの想定顧客数を推計し、小売事業者がどの店舗でネットスーパーを提供するべきかや、何キロ圏に配達すれば良いかの意思決定のサポートを行なっています。
新規ユーザーの獲得
ネットスーパーは実店舗のスーパーと比べるとまだまだ一般的な選択肢とは言えず、より多くの新規のお客様に認知していただき、使い始めていただくことが大きな課題となっています。実店舗のスーパーマーケットや通常のECと比較すると、ネットスーパーにおける新規ユーザー獲得の打ち手はオンライン・オフライン共に様々なアプローチが考えられます(例:Webマーケティング、ポスティング、店頭での認知・インストール促進など)。現在は社内外の様々なチームと協力して、業態・地域・競合状況等の異なる各社において色々な施策を試し、効果的なアプローチを模索している状況です。新規ユーザーの獲得の取り組みでは、ABテストや計量経済学のアプローチ、アンケートやN1インタビューといったユーザーリサーチを用いて、各打ち手の効果を定量的に比較することで、効果的な施策の提案を行うことを目指しています。
商品マスターの設計
各スーパーの事業者が保持しているネットスーパー運営に必要なソースデータは多種多様な外部システムにより生成されています。ネットスーパーの「在庫データ」を作り出すために、その複雑性を一定の粒度に抽象化されたデータレイヤーに集約し、Stailerを動作させるために必要なデータ処理を統一的に処理をさせるようなアーキテクチャの設計、実装を行う必要があります。また売り場を構成させる重要なデータを生成するため日々正しく、安定してデータ生成が行われるために各ステップごとのデータチェックやロジックテスト等、パイプライン全体の品質の向上を目的とした取り組みの検証、実践を行っています。
またこれらの在庫データの複雑性や実際のオペレーションなどをより理解するため、10Xでは社員自ら現場に赴いて、ピッキングなどのオペレーションを体験される方も多いです。下記の資料では現場から得られた知見を基にデータモデリングの設計に活かす試みが紹介されています。
データ分析の民主化
小売事業者の担当者から依頼の度にアナリストが必要なSQLを書いていくのは手間がかかり、データの定義の微妙な違いや集計のミスなど品質の担保が難しくなります。データ基盤ではよくある分析内容をデータウェアハウスやデータマートで管理し、生産性や品質の向上を目指しています。こうした基盤を整備することで、アナリスト以外の職種でもセルフサービスで素早く簡単に分析できるようにしたり、SQLやダッシュボードの講習会なども行ないます。
以前、ブログでも社内で「Data Vault」に関する勉強会について紹介しました。 当時は全く新しい試みでしたが、多くの社内の方に参加してもらうことができました。
社内で「Data Vault勉強会」を開催しました - 10X Product Blog
そこで少しでもData Vaultについて社内での理解を深めてもらうために勉強会を開催しました。データウェアハウスという本来データの利用者が触れる機会の少ない部分であるにも関わらず、日頃データ分析を行っている人からアプリ開発をしているエンジニア、BizDevの方まで多くの方に参加いただけました。
また分析のために必要なデータの取り込みや個人情報などの取り扱いをリーガルやコーポレート、SREと協力など、全社のデータマネジメントやデータガバナンスにも取り組んでいます。
おわりに
いかがだったでしょうか?私も書きながら「なるほど、こういうことをやっているのか」と新しい発見もあり、10Xのデータに関する他の職種への理解がより一層深まりました。今回ご紹介した中で募集中の職種もあるので、ご興味ある方はぜひエントリーしてみたください!まずはカジュアルにお話したいという方はカジュアル面談もご利用ください!