Data & AI Summit 2024 セッションレポート 「シェルのデータガバナンスとデータブリックス活用」

はじめに

2024年6月にサンフランシスコで行われた Data + AI Summit 2024 に参加してきました!

現地ではお客様事例を中心に世界最先端の Data & AI に関する事例を直接聞くことができたので皆さんに展開していきます!

セッションの内容

このセッションでは、シェルのデータガバナンスと Databricks の導入についての具体的な実践例と成功までのアプローチが語られました。

お話をして頂いたジョー・ブライアンさんはシェルのプロダクトマネージャーとして、オーストラリアのガスと電力の取引を担当しています。

20240613_193044468_iOS (1).jpg

ジョーさんのデータガバナンスの導入、Datarbicks の利用を通じてデータの管理と分析を効率化し、分析担当者がリアルタイムデータを活用できるようにするまでの道のりについお話をしてもらいました。

アジェンダ

image.png

  1. This is Hard ( 始めることの難しさ )
    ― データ戦略とガバナンスにおける初期の困難

  2. Our Solution (私たちの解決策)
    ― Unity Catalogとビジネスが所有するデータプロダクト

  3. Data Mesh (データメッシュ)
    ― 我々の実装とガバナンスのための生成AIの活用

  4. Top Lessons (主な教訓)
    - 分析、PowerBI、機械学習、生成AIのガバナンスに関する教訓

  5. Takeaways (まとめ)
    ― 更なるスケールと次のステップ

1. This is Hard ( 始めることの難しさ )

image.png

12年間で3つのデータ戦略と2回のリプレース
データ戦略の作成と更新は長期的なプロセスであり、継続的な努力が必要なもの。戦略の定期的な見直しと更新が不可欠であり、これには時間とリソースがかかる。

みんな忙しい
トレーダーやリスクエキスパートなど、データに依存するスタッフは多忙であり、データガバナンスが最優先事項とはならない。データガバナンスの重要性を強調し、業務の一部として組み込む必要がある。

Nice to have(あれば良いもの)と見なされがち
データガバナンスは必須ではなく、あれば良いものと見なされることが多いです。データガバナンスの重要性を明確にし、必須事項として認識させることが必要です。

具体的な目標の設定
すべてのステークホルダーが価値を感じる具体的な目標を設定することが重要。明確で具体的な目標を設定し、全員がその価値を理解し共有することで、協力を得やすい状況を作り出す。

2. Our Solution (私たちの解決策)

データガバナンスの課題に対処するためにこれらの解決策を実施した。

image.png

即効性のある価値に焦点を当てながら長期戦略を持つ
初期段階で迅速に価値を提供することに焦点を当てた。短期間で成果を出すことで、関係者の信頼を得るとともに、長期的な戦略をサポートするための基盤を築いた。

協調できる優れたツールの活用
Databricks のエコシステムを活用し、GitHubでのコード管理やCI/CD、ダッシュボードの作成など、効率的なツールセットを整えた。適切なツール選定と導入はデータガバナンスの実行力を大幅に向上させる。

全てを準備しなくても良いとして始める
全てを完璧に準備しなくても、段階的に進めることが重要であるとチームで合意形成をした。まずは小規模で開始し徐々にスケールアップすることで、リスクを最小限に抑えつつ柔軟に対応することができるようになった。

オーナーシップはビジネス側が持つ
データプロダクトの所有権をビジネスチームに持たせた。各チームが自身のデータプロダクトを所有し管理することで、データの品質と一貫性を確保することができた。データの所有権を分散させることで、各チームが自らのデータに責任を持ち、積極的に管理に参加することができた。

3. Data Mesh (データメッシュ)

データメッシュの概念を導入することで、データガバナンスを効率的に実現しました。

image.png

Data as a Product(データを製品として扱う)
データを製品として捉え、各チームがデータプロダクトの所有と管理を行うアプローチを採用した。これによりデータの品質と一貫性を確保した。データを製品として扱うことで、各チームが自らのデータに責任を持ち、積極的に管理に参加するようになった

セルフサービス型のインフラストラクチャをプラットフォームとして提供
Databricks や PowerBI などのセルフサービス型のサービスを導入し、ユーザーが自身で必要なデータにアクセスし、分析できる環境を整備しました。これによりデータ活用の効率が向上した。ルフサービス型のプラットフォームは、ユーザーの独立性を高め、迅速なデータ活用を可能にする。

フェデレーテッドガバナンス
フェデレーテッドガバナンスを採用することで、各チームが自身のデータガバナンスを管理しつつ、全社的なガバナンス基準を維持した。これにより柔軟性と統一性を両立させました。各チームの自主性を尊重しながら、全社的なデータガバナンスの一貫性を保つのに役立つ。

データメッシュをガバナンスするためのアプローチ

image.png

Ownership(所有権)
各データプロダクトの所有権を明確にし担当チームがデータの品質と一貫性を管理する。これによりデータの責任の所在が明確になり、品質管理が向上する。

ポイント:所有権を持たせることで、チームが自らのデータに対して責任を持ち、積極的に管理と改善を行うようになる。

Data catalog(データカタログ)
統一されたデータカタログを使用して、全社的にデータの検索と利用を容易にする。データカタログにより、データのメタデータや説明が一元管理され、効率的なデータ利用が可能とる。

ポイント:統一されたデータカタログは、データの検索効率を高め、重複作業を防ぐことができる。

Data lineage(データリネージ)
データリネージを追跡することで、データの生成から利用までの過程を可視化できる。データの出所や変換履歴を確認できトレーサビリティが向上する。

ポイント:データのリネージは、データの信頼性を高め、問題発生時の原因特定と解決を迅速にします。

Data security(データセキュリティ)
データセキュリティを確保するために、適切なアクセス制御と保護措置を実施する。Azureセキュリティグループなどを活用しデータアクセスの制御を一元管理する

ポイント:データセキュリティは、信頼性の高いデータガバナンスを実現するための基盤です。

4. Top Lessons (主な教訓)

シェル社がデータガバナンスの導入と Databricks 活用においてデータに関わる人へ伝えたい学びは以下としていました。

image.png

ベースとなる部分を迅速に提供する必要がある
データガバナンスの土台を迅速に確立することが重要。初期段階での成果を示し、プロジェクトの進捗をスムーズさせる。

ポイント : クイックに成果を出すことはプロジェクトの信頼性を高め、関係者の賛同を得やすくなる。

状況は常に変化しているため、完璧を待ってはいけない
データ技術とツールは絶えず進化し続ける。完璧な環境を待つのではなく、現状で最適な解決策を導入し、適応し続けることが重要になる。

ポイント : 完璧を追求するよりも素早く実行し、適応し続けることで効果的なデータガバナンスを実現し続けることができる。

価値に焦点を当て、これらの機能を優先する
最も価値のある機能に焦点を当て、それを優先的に実装することで、ビジネスに直結する成果を出すことができる。

ポイント : 価値の高い機能を優先することで限られたリソースを有効に活用し、ビジネスの成果を最大化する。

一緒に働くヒトをスーパーマンにする
適切なツールとトレーニングを提供することで、スタッフが自分の役割を超えて成果を上げる能力を持つようにする。スーパーマンの登場がチーム全体の生産性が向上します。

ポイント : 仲間に適切なリソースとサポートを提供することで、彼らの能力を最大限に引き出すことができる。

5. Takeaways (まとめ)

シェルのデータプロジェクトに関わる PdM のジョーさんがこのセッションで持ち帰って欲しいと言っていたことです。

image.png

多様な組織全体にどうやってスケールさせるか
データガバナンスの取り組みは、まずは小規模で開始し徐々に全社的に展開することで効果的にスケールさせることができる。シェルはオーストラリアのトレーディングチームで成功を収めた後、そのモデルを他の地域や部門に展開するアプローチを取った。

ポイント:成功したモデルを他の部門や地域に展開することで、効果的にスケールアップできる。

どこから始めるか
データガバナンスの取り組みは小さなステップから始めることがとにかく重要。シェルは、最初に少数のデータプロダクトを対象にして段階的に進めた。これによりリスクを最小限に抑えつつ、確実に成果を上げることができた。

ポイント : 小規模なプロジェクトから始め、成功を積み重ねることで、徐々に大規模な取り組みへと発展させる。

なぜ生成AIがデータガバナンス整備の引き金となるか
生成AIはデータカタログの自動化やデータガバナンスの効率化に大きく貢献するプロダクト。シェルでは生成AIを用いてデータの説明文やコメントを自動生成しユーザーの負担を軽減された。

ポイント : 生成AIを活用することで、データガバナンスの効率化が図れ、全社的なデータ活用の促進につながる。

まとめ

いかがでしたでしょうか? シェル社のデータガバナンスと Databricks をどう活用しているか?の具体的かつ実践的な事例となっていましたね。

最初の課題はデータ戦略の確立やトレーダーの協力を得ることでしたが、シェルは具体的な目標設定と小規模なプロジェクトからの開始でこれを克服しました。

そして、素早く環境を整備し、完璧を待たずに実行し、価値の高い機能を優先しスタッフの能力を最大限に引き出すということでビジネスで自社のデータを活用する上で大事な考え方なのではないでしょうか?

このようなセッションに複数参加してきましたのでどんどん記事にしてシェアしていきたいと思います!

関連リンク

この記事を書いた人

aws-recipe-user