こんにちは!Narimasaです!
前回は「ETLツール「Talend Open Studio」を使ってみる 紹介編」と題してTalend Open Studioの紹介とインストール手順を紹介しました。
今回は「ETLツール「Talend Open Studio」を使ってみる デモ編①」と題してTalend Open Studio for Data Integretionのチュートリアル操作を2回に分けて紹介します。
Talend Open Studio for Data Integretionのチュートリアル
800以上のコネクタコンポーネントがあり、多種多様なデータソースに対応可能な「Talend Open Studio for Data Integretion」ですが、チュートリアルに日本語紹介がないこともあって、扱えるようになるまでは慣れが必要です。
そこで、今回と次回でTalend Forgeに掲載されているチュートリアルを元に操作してみます。
http://www.talendforge.org/tutorials/menu.php
チュートリアル用のサンプルファイルも以下からダウンロード出来ます。
http://www.talendforge.org/tutorials/data/tuto001/001.zip
サンプルファイルのデータは以下のようにID順に並んでおりますが、Talendを使ってCustomerName順に並べるのが今回のチュートリアル内容です。
①ジョブの作成
②csvファイルからデータをインプットするコンポーネントの設定
③csvファイルにデータをアウトプットするコンポーネントの設定
④インプットしたデータを整列させるコンポーネントの設定
⑤変換後ファイルのコピーを取るコンポーネントの設定
⑥ジョブの実行・ドキュメント化
今回の記事では①~③までを行います。
①ジョブの作成
まずは画面左上のリポジトリビューから「ジョブ」を右クリックし、「ジョブの作成」を選択します。
ジョブの詳細を記入します。今回はチュートリアルですのでNameのみの記入で構いません。
記入が終了すると画面中央のデザインエリアにジョブが表示されます。
このジョブにこれからコンポーネントを設置していきます。
②csvファイルからデータをインプットするコンポーネントの設定
各コンポーネントは画面右上のパレットビューから使用するものを選択します。
まずは「ファイル」フォルダから「tFileInputDelimited」をクリックします。
※画面の表示が小さく、見難いのでパレットを拡大するのが良いでしょう。
「tFileInputDelimited」がアクティブになったら、デザインエリアにクリックするとコンポーネントが設置されます。ドラッグアンドドロップでも可です。
コンポーネントの中心にあるアイコンをダブルクリックすると画面下部で設定ができるようになります。
ここでは、ファイルの入力元を指定し、スキーマの編集を行います。
サンプルファイルのカラムは9列なので「+」アイコンを9回クリックします。
続いて「COLUMN」と「長さ」の欄を図の通りに記入します。
入力し終わったら、「tFileInputDelimited」の設定は終了です。
③csvファイルにデータをアウトプットするコンポーネントの設定
続いて「ファイル」フォルダから「tFileOutputDelimited」をクリックします。
②と同様にデザインエリアにコンポーネントを配置し、設定を行います。
ファイルの出力先を指定し、「ヘッダーを含む」にチェックを入れます。
「tFileOutputDelimited」の設定は以上となります。
続きは次回のレシピで紹介致します。
お楽しみに!!