データ加工ツールTalend

こんにちは!HALです。

AmazonKinesisやRedShiftなど大量のデータを処理する時にデータの統合や加工って必要になりますよね?
今回は高機能なのに、オープンソースでフリーなETLツール[Talend(タレンド)]の紹介をさせてただきます。
まず、Talendはフランスの企業でTalendが提供するソフトウェアも色々あり、その中で代表的なデータ統合ができるオープンスソースの「Talend Open Studio」についてご紹介致します。

今回は第1回ということで、Talend Open Studioの特徴的な部分をざっくりとご紹介したいと思います。

■Talend Open Studioでできること

データの抽出・変換・ロードができます。いわゆるETLってやつですね!
ビッグデータ等のデータを収集してデータウェアハウスに蓄積する時に異なるデータフォーマットから集める場合、同じフォマートにして蓄積する必要があります。
そのデータの加工や書き出し等の一連の処理を行うものがETLになります。

■Talend Open Studioのいいところ

このデータの処理とかジョブフローとかをGUIベースで定義できることです。
なので、専門の方ではなくても設定することができますし、(ただしJAVAの知見が必要)さらにGUIベースなので、他人と共有するときもわかりやすいです。GUIで作成したものは、JAVAコードといて自動生成されます。
高いスペックがないマシンでも実行することが可能です。
開発工数、運用工数の削減が可能です。

■オープンソース

従来のETLツールはとても高価なものが多かったのがオープンソースです。無償です!
なので、サポートは基本的にありません。サポートありの有償版もあります。

■ライセンス費用もやすい

有償版のライセンスは、「開発者・運用管理者」の人数おみが課金対象となってます。
従来データ統合製品では、CPUコア数/サーバ数/接続アプリケーション単位等での課金となっていたため、大幅なコスト削減が可能になります。

■どれぐらい使われているか

ダウンロード数:1500万件、有償版の顧客数が2500社以上が採用しています。

どのような企業が利用しているかは、公式サイトに記載があります。

いかがでしたでしょうか。
今回は非常に端的にまとめてみました。次回また掘り下げたいと思います。

次回もお楽しみに!!

この記事を書いた人

aws-recipe-user