Delta tableをDatabricksで作成してみた

はじめに

本記事ではDatabricksを触りたての人向けにDelta tableの構築について解説します。
詳細については以下の内容です。

■ Delta tableとは
・Delta tableについて
・Delta tableを作成するメリット
■ DatabricksでDelta tableの構築
・データの読み込み
・Delta tableに変換するための加工処理
・Delta table構築

Delta tableとは

Delta tableとは信頼性の高い読み書きを高速かつ同時に実行できるデータテーブルのことです。Data lakeというオープンソースソフトウェアによって提供され、単に大量データの処理だけでなく、日々多様化、高度化する要件に対応するための新たな技術が用意されています。

Detabricksでデータを加工するにあたって読み込んだCSV形式などのデータをDelta形式に変換することによりデータ分析に利用する大量データを高速で処理することができることはパフォーマンス面において大きなメリットとなります。

今回はそのDelta tableの構築方法について説明していきます。

DatabricksでDelta tableの構築

今回使用するCSVデータ(c01.csv)です。
こちらのデータは以下のURLより取得できます。今回はこのデータをDelta形式に変換していきます。
サンプルデータ

image.png

まずDatabricksのノートブックを開いてデータをDatabricksにアップロードします。
アップロード方法については以下の記事をご参考ください
データのアップロード方法
次に対象データを読み込み、中身を見ていきます。

image.png

カラム名を英語に変更します。
image.png
image.png

各カラムのデータ型についても確認していきます。
image.png

数値にすべきカラムが文字列になっているなど、データの型が適切でないことがわかります。
よってデータ型を適切なものに修正していきます。

データ型の変換を行い、データ型をもう一度確認してみます。
image.png

これでデータ型の変換は終わりました。

最後にDelta形式へ変換しテーブルの保存を行います。
Delta形式に変換するために、formatの中は”delta”、optionで保存先のpathを指定して、saveAsTableではテーブル名を入力して実行します。
image.png

実際にテーブルを確認していきます。
Create > Database Tables > default > population_dataからテーブルを確認できます。
image.png

保存先のpathからも確認できます。
Create > DBFS > FileStore > tables > population_data から確認できます
image.png

以上でDelta tableの構築が完了しました。
次回は、作成したデータを触ってみたいと思います。