AWS Glueを使ってみた第1回

投稿日 2018年6月26日
著者 aws-recipe-user
カテゴリー S3

渡邊です。

データ分析や機械学習などにおいて、単一または複数のデータソースからデータを集約し、必要に応じて変換・加工した上で、データベースやデータウェアハウスなどに格納することがあります。これをETL（Extract, Transform and Load）処理と呼びます。

AWS GlueはこのETL処理を『分散処理』かつ『サーバレス』で提供するサービスです。
今回はこのAWS Glueを動かすこと自体を目的として、なるべく簡単な構成と処理内容で試してみようと思います。

構成

構築する構成は下図の通りです。
S3バケットからデータをインプットし、同じS3バケットへアウトプットします。

全体の流れ

今回の構築は第1回・第2回に分けて、次のように進めます。

第1回
・サンプルデータの準備
・S3バケットとフォルダの作成
・Databaseの作成
・Crawlerの作成と実行
・Tableの確認

第2回
・IAMの変更
・Jobの作成と実行
・結果の確認

サンプルデータの準備

機械学習でよく用いられるアヤメのデータを今回のサンプルデータとします（※1、※2）。
下記URLで公開されています。

http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.names
先頭行に列名を付加して、下記のようにします。

sepal length in cm,sepal width in cm,petal length in cm,petal width in cm,class
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
（中略）
6.7,3.0,5.2,2.3,Iris-virginica
6.3,2.5,5.0,1.9,Iris-virginica
6.5,3.0,5.2,2.0,Iris-virginica
6.2,3.4,5.4,2.3,Iris-virginica
5.9,3.0,5.1,1.8,Iris-virginica

sepal length in cm,sepal width in cm,petal length in cm,petal width in cm,class

5.1,3.5,1.4,0.2,Iris-setosa

4.9,3.0,1.4,0.2,Iris-setosa

4.7,3.2,1.3,0.2,Iris-setosa

4.6,3.1,1.5,0.2,Iris-setosa

5.0,3.6,1.4,0.2,Iris-setosa

（中略）

6.7,3.0,5.2,2.3,Iris-virginica

6.3,2.5,5.0,1.9,Iris-virginica

6.5,3.0,5.2,2.0,Iris-virginica

6.2,3.4,5.4,2.3,Iris-virginica

5.9,3.0,5.1,1.8,Iris-virginica

※1：アヤメのデータをサンプルとするのは何故か？
→アヤメのデータでなければならない理由はありませんが、次の三点からこのデータを選びました。

・オープンデータであること　→この記事をご覧になった方が、データ作成の手間無くすぐに、同じデータで、同じことが出来る
・データ量が小さい　→ダウンロードや処理に時間がかからない
・CSV形式　→AWS Glueで扱えるデータ形式の中で恐らく最も広く知られている

※2：アヤメのデータで何をするのか？
→この構築では、AWS Glueを動かすこと自体を目的として、なるべく簡単に試すことにしました。従って、データの変換・加工も、『列の順番を変える』『特定の列を削除する』など、ごく簡単な内容にとどめました（第2回で実行します）。勿論、AWS Glueでは、Jobのスクリプト次第で、データの結合などのより高度な処理も実現出来ます。