Databricks、使ってみよう①

はじめに

Databricksとは、Databricks 社が開発した 統合データ分析プラットフォームです。
Databricksを利用することで、高度な解析ソリューションの構築とデプロイができます。

概要

ポータル画面で、スピーディ・手軽にAI・データ分析で必要となるさまざまな要素…

  • 分析データをコンピュータに取り込む
  • 取り込んだデータの分析
  • 分析したデータの可視化

などが含まれたデータ分析のトータル環境をクラウド上で構築できます。

データレイクと分析環境を AWS 上に構築することができるため、コンピューティングリソースやストレージも AWS 上で管理できます。

構成図
MicrosoftTeams-image.png

AWS で実装する場合は、
Databricks アプリケーションとユーザー側の AWS リソースを連携させ、リソースとして EC2 を利用する形になります。

Databricksの特徴・導入するメリット

1.オープンソースをベースとした分析プラットフォーム

  • 高速分散処理に特化しているApache Spark
  • 複数のデータベースを管理できるDELTA LAKE
  • 取り込んだデータを可視化するredash など

上記の図のように、Databricks を構成しているサービス群はほとんどがオープンソースとして公開されているサービスです。
Notebookでコードを書き、Notebookで指定できる言語は、Python Scala SQL R の4つになっています。

2.データ分析環境を一元化できる・シンプルなサービス

会社・組織の中で部門ごとにそれぞれのサービスやツールを利用していることが多く、データ分析業務の統一管理ができていないというケースが見られます。

Databricks では、図のように、分析データ収集・蓄積から加工処理、AIモデル管理・運用まで一括で管理できるため、組織間での連携不足の解消や、管理工数の削減につなげられるメリットがあります。

また、Databricks を構成している各サービス群はシンプルな構成になっています。
シームレスに連携できるため使いやすいです。
image.png

3.コラボレーション向上

Databricks の機能の中で、コラボレーション向上ができる仕組みとして提供されているのが
コーディング画面のCollaborative Notebook(コラボレーティブ ノートブック)となっています。

Collaborative Notebook(コラボレーティブ ノートブック)画面
image.png

Collaborative Notebook は、Jupyter Notebook ライクなインターフェースとなっています。

従来の Notebook では、担当者ごとにバラバラで処理を行っていたので、総合的に管理をすることが難しいというデメリットがありましたが、Collaborative Notebook では会社・組織間でのコーディング作業の共有が可能になっています。

他にも、誰がどの処理を行ったのか?という履歴が残るような仕組みがあるため、エラーの履歴を辿るといったことができるようになっています。

また、クリックするだけで以下のように分析結果が簡単に可視化できるのも非常に便利な点だと思います。

databricks notebook gif.gif

事例紹介

Shell社

業界:エネルギー(石油大手)
解決したいこと:ビックデータ活用を活用するため、データ分析基盤を構築したい
問題解決のために行ったこと:データの取り込み、ETL処理、データ分析、機械学習

導入事例:Shell – Databricks

https://databricks.com

Starbucks社

業界:小売・消費財(コーヒーチェーン)
解決したいこと: 需要予測の策定、パーソナライゼーション、製品イノベーション
問題解決のために行ったこと:機械学習、データの取り込み、ETL

導入事例:Starbucks – Databricks

https://databricks.com

おわりに

Databricks の概要と、特徴・導入するメリットについてまとめてみました。
Databricks のメリットについて分かったので勉強になりました!