Amazon EMR編~ElasticMapReduceの使い方パート②~


こんにちは! JQです。

前回は『Amazon EMR編~ElasticMapReduceの使い方パート①~』ということで、EMRを利用する準備までをお話しました。 
今回も『Amazon EMR編~ElasticMapReduceの使い方パート②~』と題して、引き続きEMRの使い方に関してお話していきたいと思います。

前回のパート①でS3バケットやスクリプトの準備が完了している為、今回はJobFlowの立ち上げから試していきます。

Job Flowの作成

1. EMRの画面に移動します。
「Create New Job Flow」をクリックして作成していきます。

20130508_01_01

JobFlowの設定

2.「Job Flow Name」にはそのまま「My Job Flow」で「Hadoop Version」はデフォルトを指定します。

3.「Create a Job Flow」では「Run your own application.」で「JobType」を「Streaming」に指定します。

20130508_01_02

データとプログラムの設定

今回は以下を入力していきます。

4. Input Location: 作成したS3バケットのInputフォルダを指定します。

5. Output Location: 作成したS3バケットのOutputフォルダを指定します。

6.Mapper: アップロードしたwordSplitter.pyのパスを指定します。

7. Reducer: Hadoopの「aggregate」クラスを指定します

8. Extra Args: 空白にします。

20130508_01_03

インスタンス設定

9. インスタンス数やインスタンスタイプ等はデフォルトのままにします。

20130508_01_04

デバッグ設定

10. 今回はサンプルスクリプトを動かすだけなので、
デバッグとログファイルの指定場所だけを変更して進みます。

20130508_01_05

Bootstrap設定

11. 実行開始時の動作に関してもデフォルトで進みます。

20130508_01_06

12. 確認後、問題なければ起動してみましょう!

20130508_01_07

20130508_01_08

いかがでしたでしょうか?

次回も『Amazon EMR編~ElasticMapReduceの使い方パート③~』と題して、実際に出力された結果の確認を行いたいと思います。
お楽しみに!