こんにちは!HEROです。
前回はEMR導入編として、Hadoopについてご説明しました。
今回はいよいよ、EMRの特徴や料金体系についてみていきましょう。
▼ 前回の記事はこちら
AWSデータベース紹介編~AWSの様々なDBサービス編⑤~
◯EMRの特徴
まずはEMRの特徴からです。
・伸縮自在!!
AWSといったらまずはこれですね!
EMRのイメージは大量のPCを処理の間だけ並べる、といったようなイメージですが、その数たるや数百、数千まで対応可能ととんでもない規模となってます。
もちろん、これだけのインスタンスの立ち上げても従量課金なので処理が終了次第インスタンスを停止してしまえば余計なコストはかかりません。
・多様なデータストア!!
-S3……いわずと知れたAWSのストレージサービスですね。低価格かつ、安全にデータを保存できます。
-HDFS……こちらは前回の記事でもご紹介しましたね。EMRではローカルのエフェメラルストアを使用します。
-DynamoDB……DynamoDBはEMRと直接統合しているため、保管されたデータをすばやく処理でき、EMRでDynamoDB,S3,HDFS間のデータを移行できます。
-その他・・・RDS,Glacier,Redshiftなども使用できます。
◯EMRの料金体系
EMRの料金の考え方は非常にシンプルです。
基本的にはEC2のようにどれだけの時間処理を行なうか、と処理にどのインスタンスタイプを使うか、だけです。
使用するインスタンスタイプ(スタンダード、高 CPU、ハイメモリ、ハイストレージなど)に応じて時間単価が大きく異なるので注意しましょう。(まぁそれでもコストはかなり安いです!)
◯EC2との比較
では同じHadoopを利用するにあたり、EC2と使ったほうがいいのか、EMRを使ったほうがいいのか?当然思いますよね。
EC2を使う場合、Hadoopの実行環境を構築し、各ノードを設定する必要があります。同じ構成のAMIを作成し展開していく必要があります。
一方、EMRはEC2で必要だった大きな設定は当然ありません。気軽にMapReduceを使うことが出来ます。
その代わりEC2の利用料金以外にインスタンスサイズに応じたAmazon Elastic MapReduce料金が発生しますが、 かかっても$0.270/1時間程度なので非常に低コストです。
詳細なHadoop環境の設定をユーザー自身がしたい、という場合でばければEMRを使うべきですね!
いかがでしたでしょうか?
次回もお楽しみに!