こんにちは!HEROです。
また新しいAWSサービスがでましたね、その名も「AWS Glue」。
これは完全マネージド型のETLサービスでより一層AWS上でのデータ分析が便利になりました。
ちなみにGlueは糊とか接着剤って意味みたいです。
早速調べてみましょう。
◯ETLツールとは
そもそもETLとはどういったものか見ていきます。
ETLツールは、Extract Transform Loadツールの略で企業の基幹系システムなどのデータを抽出(extract)し、データウェアハウスなどで利用しやすい形に加工(transform)し、対象となるデータベースに書き出す(load)ことを指し、それを可能とするソフトウェアのことを指します。
基本的な操作はGUIでできるものが多く、主な機能として「データベースからの抽出」「ネットワークなどの連携」「柔軟なファイル入出力」や「不正なデータの削除」、一定の形式にデータを修正する「データクレンジング機能」を持つものもあります。
既存のサービスでは下記が有名ですね。
・Talend(https://jp.talend.com/)
・DataSpider(https://www.appresso.com/dataspidercloud/)
◯AWS Glueについて
さてETLツールについてもわかったところでAWS Glueについて調べてみます。
AWS Glue は冒頭にもご紹介したとおり、完全マネージド型のETLサービスで手間のかかる ETL ジョブの構築、管理、実行を自動で行ってくれます。
その最大の特長はサーバーレスであることです。
例のごとくAWSのフルマネージドサービスなのでユーザのインフラ管理は不要です。AWS Glue 側で、ETL ジョブの実行に必要なリソースのプロビジョニング、設定、スケーリングが処理されます。
またETLコードの生成にはPython や Spark を使用しているため、開発者が容易に扱うことができますし、カスタマイズ性、再利用性も非常に高いと言えるでしょう。
参考画像(公式HPより)
またサポートしているデータソースは下記です。
Amazon Aurora
Amazon RDS MySQL
Amazon RDS PostreSQL
Amazon Redshift、Amazon S3
また、Amazon EC2 で実行されている Virtual Private Cloud (Amazon VPC) 内の MySQL データベースや PostgreSQL データベースもサポート対象です。
AWS Glue データカタログ(Glueのメタデータ保存先)に保存されたメタデータは、Amazon AthenaやAmazon EMR、Amazon Redshift Spectrum から簡単にアクセスできます。
またジョブスケジューラ機能もあるのでAWS Lambdaと組み合わせて、活用するのも面白そうです。
AWS Glue登場により、AWS上でのデータ収集、分析がより盤石になりましたね。
日々の売上データなどをAWS Glue で加工し、Redshiftで集計したり、EMRを利用してデータを処理後BIツールに表示させたり、様々な利用シーンがありそうですね。
いかがでしたでしょうか?
次回もお楽しみに!