こんにちは!HALです。
AmazonKinesisやRedShiftなど大量のデータを処理する時にデータの統合や加工って必要になりますよね?
今回は高機能なのに、オープンソースでフリーなETLツール[Talend(タレンド)]の紹介をさせてただきます。
まず、Talendはフランスの企業でTalendが提供するソフトウェアも色々あり、その中で代表的なデータ統合ができるオープンスソースの「Talend Open Studio」についてご紹介致します。
今回は第1回ということで、Talend Open Studioの特徴的な部分をざっくりとご紹介したいと思います。
■Talend Open Studioでできること
データの抽出・変換・ロードができます。いわゆるETLってやつですね!
ビッグデータ等のデータを収集してデータウェアハウスに蓄積する時に異なるデータフォーマットから集める場合、同じフォマートにして蓄積する必要があります。
そのデータの加工や書き出し等の一連の処理を行うものがETLになります。
■Talend Open Studioのいいところ
このデータの処理とかジョブフローとかをGUIベースで定義できることです。
なので、専門の方ではなくても設定することができますし、(ただしJAVAの知見が必要)さらにGUIベースなので、他人と共有するときもわかりやすいです。GUIで作成したものは、JAVAコードといて自動生成されます。
高いスペックがないマシンでも実行することが可能です。
開発工数、運用工数の削減が可能です。
■オープンソース
従来のETLツールはとても高価なものが多かったのがオープンソースです。無償です!
なので、サポートは基本的にありません。サポートありの有償版もあります。
■ライセンス費用もやすい
有償版のライセンスは、「開発者・運用管理者」の人数おみが課金対象となってます。
従来データ統合製品では、CPUコア数/サーバ数/接続アプリケーション単位等での課金となっていたため、大幅なコスト削減が可能になります。
■どれぐらい使われているか
ダウンロード数:1500万件、有償版の顧客数が2500社以上が採用しています。
どのような企業が利用しているかは、公式サイトに記載があります。
いかがでしたでしょうか。
今回は非常に端的にまとめてみました。次回また掘り下げたいと思います。
次回もお楽しみに!!