ETLツール「Talend Open Studio」を使ってみる AWSとの接続編

こんにちは!Narimasaです!

前回は「ETLツール「Talend Open Studio」を使ってみる マップエディタ編」と題してTalend Open Studio for Data Integretionでデータの結合を行うマップエディタの操作方法を紹介しました。

今回は「ETLツール「Talend Open Studio」を使ってみる AWSサービスとの接続編」と題してTalend Open Studio for Data IntegretionでAWSの各種サービスと接続するコンポーネントを紹介します。

Talend Open Studio for Data Integretionのチュートリアルはこちらの記事を御覧下さい。
ETLツール「Talend Open Studio」を使ってみる デモ編①
ETLツール「Talend Open Studio」を使ってみる デモ編②

AWSサービスとの接続

Talend Open Studio for Data Integretionは800以上のコネクタコンポーネントがあり、多種多様なデータソースに対応しています。
その中にはRDSやRedshiftといったAWSのサービスも含まれており、Talend側を操作するだけでそれらサービスのデータを抽出することができます。

AWSのサービスと接続する方法はいくつかありますが、今回はパレットビューに用意されているAWS用のコンポーネントを紹介します。

AWS用コンポーネント

画面右のパレットビューには多くのディレクトリがあり、AWS関連のディレクトリは「Cloud」と「データベース」の2つに用意されています。
palette

しかし、この状態では見えづらい為、パレットビューを右クリックして「フォルダの非表示」を選択します。
すると下記のように各種コンポーネントがアルファベット順に表示されます。
component

RDSコンポーネント

RDS
MySQLとOracleのコンポーネントが用意されています。

各コンポーネントの機能は以下の通りとなっています。
Close
…RDSとの接続を終了するコンポーネントです。

Commit
…処理されたトランザクションを確定させます。

Connection
…RDSとの接続を開始するコンポーネントです。

Input
…RDS内のデータベースを読み取り、クエリに基づいて抽出します。

Output
…Talendで加工したデータをRDSに送り込みます。

Rollback
…処理されたトランザクションを取り消します。

Row
…指定されたデータベースに記載されているSQLクエリを実行します。

Redshiftコンポーネント

Redshift
RDSと同様のコンポーネントが用意されています。

S3コンポーネント

S3
以下のコンポーネントが用意されています。

BucketCreate
…Talend側からの操作でS3バケットを作成します。

BucketDelete
…Talend側からの操作でS3バケットを削除します。

BucketExist
…指定したS3バケットが存在するかを確認します。

BucketList
…S3バケットの一覧を取得します。

Close
…S3バケットとの接続を終了します。

Connection
…S3バケットとの接続を開始します。

Delete
…S3バケット内の指定したファイルを削除します。

Get
…S3バケット内のファイルを取得します。

List
…接頭辞設定に基づいて、S3バケット内のファイルを一覧表示します。

Put
…S3バケット内にファイルを送り込みます。

以上ここまでが用意されているAWS関連のコンポーネントとなります。

その他AWSサービスとのコンポーネント自体は用意されていませんが、リポジトリビューから接続コンポーネントを自作することもできます。

次回もお楽しみに!!