ETLツール「Talend Open Studio」を使ってみる データ結合編

こんにちは!Narimasaです!

前回は「ETLツール「Talend Open Studio」を使ってみる デモ編」と題して、Talend Open Studio for Data Integretionのチュートリアル操作を2回に分けて紹介しました。
今回は「ETLツール「Talend Open Studio」を使ってみる データ結合編」と題して、Talend Open Studio for Data Integretionでデータの結合を行う方法を紹介します。

Talend Open Studio for Data Integretionのチュートリアルはこちらの記事を御覧下さい。
ETLツール「Talend Open Studio」を使ってみる デモ編①
ETLツール「Talend Open Studio」を使ってみる デモ編②

Talend Open Studio for Data Integretionでのデータの結合

今回は、前回の記事で使った顧客サンプルファイルから一部情報を抜き出し、別ファイルの地理情報と結合させて出力を行います。

今回使うサンプルファイルは以下のページからダウンロード出来ます。
http://www.talendforge.org/tutorials/data/tuto002/002.zip

結合させるファイルの選択

ジョブを作成したら、まずパレットビューから「tFileInputDelimited」を2つ展開します。
FileInput

まずは1つ目のコンポーネントの設定を行います。こちらでは顧客サンプルファイルの入力をします。
以下の画像を参考に設定します。
customer

スキーマの編集のアイコンをクリックするとオプションの選択画面が表示されます。
今回は「view schema」を選択します。
schema

OKを押すとスキーマが表示されます。
customer schema

今回は特に編集しませんので、そのままOKをクリックします。

続いて2つ目のコンポーネントの設定を行います。こちらでは地理情報ファイルの入力をします。
以下の画像を参考に設定します。
state

こちらのスキーマは以下の通りとなっています。
state schema

こちらも今回は編集しませんので、OKをクリックします。

結合コンポーネントと出力コンポーネントの設置

パレットビューからファイルを結合させるコンポーネント「tMap」を設置します。
tMap

続いて、結合させたファイルを出力するコンポーネント「tFileOutputDelimited」を設置します。
File Output

先に設定した「tFileInputDelimited」のアイコンを右クリックして、それぞれ「tMap」へリンクを繋ぎます。
また、「tMap」から「tFileOutputDelimited」へリンクを繋ぎます。
link

ここから「tMap」の設定を行います。
「tMap」のアイコンをクリックして設定画面を開き、マップエディタのアイコンをクリックします。
tMap

するとマップエディタ画面が表示されます。先ほどリンクを繋いだ通りにスキーマが表示されています。
以下の画面の通りにカラムの操作を行います。
Map Edit
ここでは顧客サンプルファイルからはID・顧客名・住所を抜き出し、地理情報ファイルからはIDに紐付いた形で州名を抜き出して結合させています。
設定が終了したらOKをクリックします。

最後に「tFileOutputDelimited」のアイコンをクリックし、結合ファイルの出力先を指定し、「ヘッダーを含む」にチェックを入れます。
Output Setting

設定が完了したらジョブを実行します。

結合されたファイルは以下の内容となっています。
join file

いかがでしたでしょうか。

次回は、今回使った「tMap」のマップエディタの操作方法について詳しく紹介します。
お楽しみに!!

この記事を書いた人

aws-recipe-user