リアルタイム分析を実現する強力なツールシリーズ～Spark～

投稿日 2014年8月28日
著者 aws-recipe-user
カテゴリーデータベース

こんにちは！HALです。

今回は、リアルタイム分析を実現する強力なツールシリーズとして、前回紹介した「Storm」に加え、Hadoopよりも強力に高速に解析処理が実現可能な「Spark」というSWをご紹介したいと思います。

▼前回の記事はこちら
リアルタイム分析を実現する強力なツールシリーズ～storm～

■Sparkとは？

ビッグデータを分散処理で高速に処理が可能な[Hadoop]は聞いたことがある人も多いかと思います。AWSでもHsdoopが実行可能なEMRというサービスもありますしね。

Sparkは、Hadoopに比べ、インメモリー処理を主体とするため、より高速(10倍～100倍ぐらい)で低遅延の分析が可能となります。
次世代のビッグデータ処理基盤として期待が集まっているフレームワークです。

Sparkは、以下の構成要素となっています。

Spark：Hadoopと同じくバッチ処理を実行する、他のフレームワークの基盤
Shark/Spark SQL/BlinkDB：DWHのようなインタラクティブでSQLの処理を実行
Spark Streaming：リアルタイム・ストリーミング処理を実行
MLlib：機械学習のライブラリ
GraphX：グラフ計算ライブラリ

■SparkとAWS

上述のHadoopが実行できるAWSのAmazon EMR(Elastic MapReduce)でSparkも実行することが可能です。
Run Spark and Shark on Amazon Elastic MapReduce
http://aws.amazon.com/articles/Elastic-MapReduce/4926593393724923

そして、AWSのブログでもSparkに最適なインスタンスは、i2.8xlargeインスタンスタイプと紹介されております。
http://aws.typepad.com/aws_japan/2014/04/new-instance-types-for-amazon-elastic-mapreduce.html

いかがでしたでしょうか。
今回は概要のみでしたが、別の機会にSparkについて、もっと掘り下げてご紹介したいと思います！

お楽しみに！！

この記事を書いた人

aws-recipe-user

記事一覧

リアルタイム分析を実現する強力なツールシリーズ～Spark～

■Sparkとは？

■SparkとAWS

この記事を書いた人

aws-recipe-user

リアルタイム分析を実現する強力なツールシリーズ～Jubatus～

Amazon Kinesis/Redshift編～アクセスログをkinesisで…

Amazon Kinesis編～PythonのThreadを使ったパフォーマンス…

Amazon Kinesis編～Pythonを使ったパフォーマンス検証～