ETLツール「Talend Open Studio」を使ってみる デモ編①

こんにちは!Narimasaです!

前回は「ETLツール「Talend Open Studio」を使ってみる 紹介編」と題してTalend Open Studioの紹介とインストール手順を紹介しました。
今回は「ETLツール「Talend Open Studio」を使ってみる デモ編①」と題してTalend Open Studio for Data Integretionのチュートリアル操作を2回に分けて紹介します。

Talend Open Studio for Data Integretionのチュートリアル

800以上のコネクタコンポーネントがあり、多種多様なデータソースに対応可能な「Talend Open Studio for Data Integretion」ですが、チュートリアルに日本語紹介がないこともあって、扱えるようになるまでは慣れが必要です。

そこで、今回と次回でTalend Forgeに掲載されているチュートリアルを元に操作してみます。
http://www.talendforge.org/tutorials/menu.php

チュートリアル用のサンプルファイルも以下からダウンロード出来ます。
http://www.talendforge.org/tutorials/data/tuto001/001.zip

サンプルファイルのデータは以下のようにID順に並んでおりますが、Talendを使ってCustomerName順に並べるのが今回のチュートリアル内容です。
before sort

チュートリアルの流れは以下の通りです。
tutorial

①ジョブの作成
②csvファイルからデータをインプットするコンポーネントの設定
③csvファイルにデータをアウトプットするコンポーネントの設定
④インプットしたデータを整列させるコンポーネントの設定
⑤変換後ファイルのコピーを取るコンポーネントの設定
⑥ジョブの実行・ドキュメント化

今回の記事では①~③までを行います。

①ジョブの作成

まずは画面左上のリポジトリビューから「ジョブ」を右クリックし、「ジョブの作成」を選択します。
Create job

ジョブの詳細を記入します。今回はチュートリアルですのでNameのみの記入で構いません。
Job detail

記入が終了すると画面中央のデザインエリアにジョブが表示されます。
このジョブにこれからコンポーネントを設置していきます。

②csvファイルからデータをインプットするコンポーネントの設定

各コンポーネントは画面右上のパレットビューから使用するものを選択します。
まずは「ファイル」フォルダから「tFileInputDelimited」をクリックします。
Input
※画面の表示が小さく、見難いのでパレットを拡大するのが良いでしょう。

「tFileInputDelimited」がアクティブになったら、デザインエリアにクリックするとコンポーネントが設置されます。ドラッグアンドドロップでも可です。
Design area

コンポーネントの中心にあるアイコンをダブルクリックすると画面下部で設定ができるようになります。
ここでは、ファイルの入力元を指定し、スキーマの編集を行います。
Input setting

サンプルファイルのカラムは9列なので「+」アイコンを9回クリックします。
schema

続いて「COLUMN」と「長さ」の欄を図の通りに記入します。
column

入力し終わったら、「tFileInputDelimited」の設定は終了です。

③csvファイルにデータをアウトプットするコンポーネントの設定

続いて「ファイル」フォルダから「tFileOutputDelimited」をクリックします。
Output

②と同様にデザインエリアにコンポーネントを配置し、設定を行います。
ファイルの出力先を指定し、「ヘッダーを含む」にチェックを入れます。
Output Setting

「tFileOutputDelimited」の設定は以上となります。

続きは次回のレシピで紹介致します。
お楽しみに!!

この記事を書いた人

aws-recipe-user