ETLツール「Talend Open Studio」を使ってみる デモ編②

こんにちは!Narimasaです!

今回は、前回の『ETLツール「Talend Open Studio」を使ってみる デモ編①』の続きとなります。
前回はチュートリアルの①~③まで行いましたので、今回は④~⑥まで行います。

tutorial
①ジョブの作成
②csvファイルからデータをインプットするコンポーネントの設定
③csvファイルにデータをアウトプットするコンポーネントの設定
④インプットしたデータを整列させるコンポーネントの設定
⑤変換後ファイルのコピーを取るコンポーネントの設定
⑥ジョブの実行・ドキュメント化

④インプットしたデータを整列させるコンポーネントの設定

画面右のパレットビューの「変換処理」フォルダから「tSortRow」コンポーネントをデザインエリアに設置します。
tSortRow

配置した「tSortRow」コンポーネントを他コンポーネントと紐付けます。
まずは「tFileInputDelimited」のアイコンを右クリックし、「Row」→「メイン」の順にクリックします。
Row
するとコンポーネントを繋ぐリンクを操作できるので、「tSortRow」に繋げます。

同様に「tSortRow」からも「tFileOutputDelimited」へリンクを繋げます。
components link

続いて、「tSortRow」の設定をします。
アイコンをダブルクリックし、画面下部に設定画面を表示させます。
Sort setting
設定画面ではスキーマの編集を行います。
「+」アイコンをクリックして、カラムを表示させます。
スキーマカラム名に「CustomerName」を記入し、文字でソートするよう設定します。

これで「tSortRow」の設定は完了です。

csvファイルのデータ変換作業のフローは以上で終了となります。
ここからはファイルのコピーやジョブのドキュメント化について説明していきます。

⑤変換後ファイルのコピーを取るコンポーネントの設定

画面右のパレットビューから「tFileCopy」のコンポーネントをデザインエリアに展開します。
FileCopy

「tFileInputDelimited」のアイコンを右クリックし、今度は「トリガ」→「サブジョブがOKな場合」の順にクリックします。
trigger
先ほどと同様にリンクを操作できるので「tFileCopy」に繋げます。

続いて「tFileCopy」アイコンをダブルクリックし設定画面を開きます。
ファイル名、コピー先ディレクトリを指定し、コピー後の名前を設定します。
Copy setting

これで「tFileCopy」の設定は完了です。

⑥ジョブの実行・ドキュメント化

いよいよ作成したジョブの実行を行います。
ジョブの実行は画面下部から行います。
Run job

実行アイコンをクリックするとジョブが実行されます。
※ジョブ作成にミスがある場合は赤字でエラーの表示がなされ、【終了コード=1】となります。
以下の表示がされればジョブが正常に実行されています。
not error

データ変換後出力されたcsvファイルは以下のようにID順からCustomerName順になっております。
after sort

最後に、作成したジョブですが、サブジョブにタイトルを付けることが出来ます。
サブジョブ内の空白をクリックすると画面下部に設定画面が表示されます。
Title
タイトルを付けることでジョブ作成者以外のユーザーでもジョブの概要が分かるようになります。

いかがでしたでしょうか。

次回からはより実用的なTalendの使い方を紹介します。
お楽しみに!!

この記事を書いた人

aws-recipe-user