はじめに
Databricksのイベント「Databricks Data + AI Summit 2024」の講演内容のサマリ記事となります。
本記事では「Delta Sharingを用いたデータ共有とコラボレーションに関する発表」について記載いたします。
※文末に弊社ナレッジコミュニケーションのDatabricksチャンピオンのコメントを掲載しております
概要
Delta Sharingを用いたデータ共有とコラボレーションの最新情報が紹介されました。Delta Sharingは、プラットフォームやクラウドを超えてデータとAI資産を安全に共有できるオープンなエコシステムを提供します。さらに、新しいパートナーシップの発表や、Databricksマーケットプレイスの成長、Clean Roomsのユースケースが紹介されました。
特にS&P GlobalやShutterstock、Atlassianを始めとする大手企業との連携が強調され、
業界横断的なデータ共有の可能性が示されました。
本記事ではDelta Sharingを用いた各企業のユースケース・Clean Roomsの機能とユースケース・DeltaSharingの新機能について説明いたします。
Delta Sharingを用いた各企業のユースケース
1. S&P Global
S&P Globalは世界をリードする組織にクレジットレーティング、ベンチマーク、分析、ワークフローソリューションを提供する企業です。
データ配信能力の強化
Delta Sharingのオープンエコシステムを利用することで、S&P Globalはデータ配信能力を強化し、顧客へのコンテンツ提供をシームレスに行っています。
クライアントへのアクセス向上
S&P Globalのクライアントは、必要なデータに迅速かつ容易にアクセスできるようになり、データ利用の効率が向上しています。
2. Shutterstock
Shutterstockは、ライセンス供与のためのグローバルプラットフォームを提供し、約10億のクリエイティブコンテンツ資産を保有しています。
ボリューム共有
Delta Sharingを使用して、Shutterstockはボリューム共有を通じてクリエイティブコンテンツを効率的に提供しています。
シームレスなコラボレーション
クライアントは異なるプラットフォーム間でコンテンツをスムーズに利用でき、クリエイティブプロジェクトの進行が加速します。
3. Aviva
Avivaは100カ国で事業を展開する産業ソフトウェアのグローバルリーダーであり、20,000以上の顧客を抱えています。
産業AI成果の提供
AvivaはDelta Sharingを利用して、
産業AI成果を顧客に提供し効率的なデータ共有を実現しています。
顧客サポートの強化
Avivaの顧客は産業データを基にしたAIソリューションを迅速に活用でき、
運用の最適化やコスト削減に寄与しています。
4. Atlassian
Atlassianは、Fortune 500の多くの企業や世界中の300,000以上の企業で使用されているワークマネジメントソフトウェアを提供しています。
データシェア機能の強化
Atlassianの新しいデータシェア機能はDelta Sharingを利用しており、顧客がデータレイクから直接データを活用できるようにしています。
迅速なインサイト獲得
顧客は、Tableau、Power BI、Sparkなどのコネクタを通じて迅速にデータを分析し、インサイトを得ることができます。
5. T-Mobile
T-Mobileは通信業界のリーダー企業です。
マーケティング戦略の強化
Databricksマーケットプレイスを通じてT-MobileはDelta Sharingを活用し、マーケティング戦略を強化しています。
顧客エンゲージメントの最適化
T-Mobileの顧客データを活用することで、マーケティング活動がよりパーソナライズされ、顧客エンゲージメントが向上します。
6. Health Verity
Health Verityは、実世界のヘルスケアデータを提供する企業です。
ヘルスケアデータの提供
Delta Sharingを利用して、Health Verityは識別されていない包括的なヘルスケアデータへのアクセスを提供しています。
マーケットプレイスの拡充
Health VerityはDatabricksマーケットプレイスでの提供範囲を拡大し、ユーザーは容易にデータにアクセスできます。
7. Deutsche Borse
Deutsche Borseは複数のクラウド環境(GCPおよびAzure)でデータ処理を行っている企業です。
データ処理の効率化
Databricksを使用してデータ処理を効率化し、ユーザーのアクセス範囲を広げています。
データ製品の提供
Databricksマーケットプレイスを通じて顧客にデータ製品を直接提供し、サンプルノートブックや事前構築コードも提供。
8. Ontada (McKesson Corporation)
Ontadaは、広範な腫瘍学エコシステムの一部で、2,400のプロバイダーに臨床サポートを提供しています。
次世代データプラットフォームの構築
Delta Sharingを使用して、データを効率的に共有し、次世代データプラットフォームを構築しています。
9. Coastal Community Bank
Coastal Community Bankは、最初40,000人の顧客から始まりました。
バンキングアズアサービスの提供
Delta Sharingを利用してパートナーネットワークを通じてデータを瞬時に接続し、顧客数を6,000,000人に拡大しました。
10. Allium
Alliumはブロックチェーン業界の顧客ニーズに応じたコスト効率の高いデータストレージおよび共有ソリューションを提供しています。
リアルタイム通知との統合
enriched data schemasとリアルタイム通知を組み合わせ、
Cloudflare R2を使用してコスト効率の高い安全なデータ共有ソリューションを提供。
コスト削減
Delta SharingとCloudflare R2の組み合わせにより、年間$645,000のコスト削減を実現。
Clean Roomsの詳細
Databricks Clean Roomsは、複数の組織がプライバシーを保護しながらデータを共有し、共同で計算や分析を行うことができる安全な環境を提供するソリューションです。特に、敏感なデータを扱う業界での利用が期待されます。
主な機能と利点
プライバシー保護
データの匿名化とセキュリティ
クリーンルーム内で共有されるデータは、データ所有者のプライバシーを保護するために匿名化されます。データは非公開のまま分析に使用され、直接アクセスすることはできません。
アクセス制御
データへのアクセスは厳密に制御され、特定の条件下でのみ許可されます。これにより、データの不正利用を防止します。
クロスプラットフォームコラボレーション
クラウドとプラットフォーム間の統合
クリーンルームは異なるクラウドやプラットフォーム間でのデータ共有とコラボレーションをサポートします。これにより、異なるシステムを使用する組織間でも効率的にデータを共有できます。
多様なデータ形式のサポート
構造化データと非構造化データの両方をサポート
クリーンルームは、画像、音声、ビデオ、PDFファイルなどの非構造化データを含むさまざまなデータ形式をサポートします。これにより、複雑なデータ分析やAIモデルのトレーニングが可能です。
高度な分析とAIワークロードのサポート
SQLおよびPythonのサポート
クリーンルームはSQLクエリだけでなく、Pythonを使用した機械学習およびAIワークロードもサポートします。
これにより、複雑な分析やAIモデルの構築が容易になります。
ノートブックの活用
ノートブックを利用して、SQLやPythonでの複雑な計算や機械学習ワークロードを実行できます。
スケーラブルなソリューション
オートメーションとワークフローのサポート
API、SQLコマンド、および組み込みのワークフローオーケストレーションを使用して、プライバシー保護されたワークロードを自動化できます。これにより、大規模なデータ処理や複雑なワークフローの効率化が図れます。
ユースケースの例
広告とリテール
パブリッシャーと広告主の連携
パブリッシャーと広告主が、ユーザーデータを共有せずにクリーンルーム内でデータを分析し、広告キャンペーンの最適化やターゲティングの精度を向上させることができます。
金融
データ共有と分析
金融機関がクライアントデータを安全に共有し、クリーンルーム内でリスク分析や不正検出を行うことができます。
医療とライフサイエンス
患者データの解析
医療機関や研究機関が、識別されない形で患者データを共有し、クリーンルーム内で共同研究やコホート分析を実施できます。
実装例
機械学習モデルの共有
クリーンルーム内で、異なる組織が協力して機械学習モデルをトレーニングし、結果を共有します。この際、データは匿名化され、直接アクセスされることはありません。
データ分析のアウトプット利用
クリーンルーム内で実行された分析の結果をノートブックやUnity Catalogに保存し、他のワークロードに活用します。
DeltaSharing新機能の詳細
AIモデルの共有
分離されたトレーニングとサービング
データモデルを一箇所でトレーニングし、複製なしでクラウドや地域を超えてシームレスに共有。これにより、コラボレーションや収益化、インフェレンスの遅延改善が可能。
リアルタイムインフェレンス
DatabricksのAI機能を使用してリアルタイムインフェレンスを実行可能。
モデルサービングやSQLやノートブックからのAI機能の呼び出しに対応。
Volumeのサポート
非構造化データの共有
Volumeオブジェクトタイプを使用して、画像、音声、ビデオ、PDFファイルなどの非構造化データを共有。レプリケーション不要で、多モデルデータのコラボレーションを加速。
ビューの共有
カラムおよび行レベルのアクセス制御
動的ビューと同様に、カラムや行レベルでのアクセス制御が可能。これにより、キュレートされたビューをより多くのユーザーに提供できる。
クロスプラットフォーム対応
Databricks以外のプラットフォームにも対応したビューの共有が可能。
ストリーミングテーブルとマテリアライズドビューのサポート
継続的なデータ更新
ストリーミングテーブルとマテリアライズドビューにより、受信者が最新データを継続的に受け取ることが可能。追加のデータパイプライン設定が不要。
クエリ性能とコストの最適化
動的ビューと同様の細粒度アクセス制御を持つが、クエリ時間のパフォーマンスが向上し、受信者のコストが低減。
レイクハウスフェデレーション:
異なるデータプラットフォームの統合: SnowflakeやGoogle BigQueryなど、異なるデータプラットフォーム間でのデータ共有を可能にする。データの移動やコピーなしに、統一された共有体験を提供。
Cloudflare R2とのパートナーシップ
ゼロエグレス費用
Cloudflare R2ストレージを使用することで、データの転送コストを削減。複雑なレプリケーション設定も不要。
ベンダーロックインなし
データは特定のベンダーにロックインされず、柔軟に利用可能。
Tableauデータ共有コネクタ
ネイティブコネクタ
Tableauデスクトップ上で新しいデータ共有コネクタを利用し、Databricksのリッチなデータエコシステムにアクセス可能。切り替えなしに、シームレスなデータ分析とビジュアライゼーションが可能。
まとめ
Delta SharingとDatabricks Clean Roomsは、データ共有とコラボレーションの新しい可能性を示唆しています。これらのソリューションは、様々な業界横断でのデータ活用を促進し、ビジネスの価値を最大化するための強力なツールです。最新のユースケースと新機能を通じて企業はより効率的かつ安全にデータを活用し、競争力を高めることができます。
Databricksチャンピオンからのコメント
Delta Sharing の魅力が非常に伝わるセッションになっていますね。
きめ細かい単位でデータをコピーすることなく容易に安全にシェアできることや、シェアされたデータをSQLやPython等の複数の言語で扱えることは既存のデータクリーンルームで抱えていた課題を脱却し、技術の進化を感じます。
この技術によって自社でデータ活用するだけにとどまらず、パートナー企業とのコラボレーションも強化され、ビジネスにおいて新たな発展が期待できそうですね!