はじめに
本記事ではDatabricksを触りたての人向けにDelta tableの構築について解説します。
詳細については以下の内容です。
■ Delta tableとは
・Delta tableについて
・Delta tableを作成するメリット
■ DatabricksでDelta tableの構築
・データの読み込み
・Delta tableに変換するための加工処理
・Delta table構築
Delta tableとは
Delta tableとは信頼性の高い読み書きを高速かつ同時に実行できるデータテーブルのことです。Data lakeというオープンソースソフトウェアによって提供され、単に大量データの処理だけでなく、日々多様化、高度化する要件に対応するための新たな技術が用意されています。
Detabricksでデータを加工するにあたって読み込んだCSV形式などのデータをDelta形式に変換することによりデータ分析に利用する大量データを高速で処理することができることはパフォーマンス面において大きなメリットとなります。
今回はそのDelta tableの構築方法について説明していきます。
DatabricksでDelta tableの構築
今回使用するCSVデータ(c01.csv)です。
こちらのデータは以下のURLより取得できます。今回はこのデータをDelta形式に変換していきます。
サンプルデータ
まずDatabricksのノートブックを開いてデータをDatabricksにアップロードします。
アップロード方法については以下の記事をご参考ください
データのアップロード方法
次に対象データを読み込み、中身を見ていきます。
数値にすべきカラムが文字列になっているなど、データの型が適切でないことがわかります。
よってデータ型を適切なものに修正していきます。
これでデータ型の変換は終わりました。
最後にDelta形式へ変換しテーブルの保存を行います。
Delta形式に変換するために、formatの中は”delta”、optionで保存先のpathを指定して、saveAsTableではテーブル名を入力して実行します。
実際にテーブルを確認していきます。
Create > Database Tables > default > population_dataからテーブルを確認できます。
保存先のpathからも確認できます。
Create > DBFS > FileStore > tables > population_data から確認できます
以上でDelta tableの構築が完了しました。
次回は、作成したデータを触ってみたいと思います。