Amazon SageMakerのビルトインアルゴリズムについて

Pocket

こんにちは、ハルです。この記事は株式会社ナレッジコミュニケーションが運営する 
Amazon AI by ナレコムAdvent Calrendar 2018 の2日目の記事になります。

先日開催されたre:Invent 2018では、多くの新機能、サービスの発表がされましたが、特にSageMakerをはじめとした機械学習の分野ではアップデートが多かったですね。
SageMakerのアップデートの中で、「IP Insights」というアルゴリズムがSageMakerのビルトインアルゴリズムに追加されたと発表がありましたが、この記事では改めてSageMakerのビルトインアルゴリズムについて、どんなアルゴリズムが利用できるのか、各アルゴリズムはどんな場面で利用できるかといったことを書きたいと思います。

ビルトインアルゴリズムとは

SageMakerを使ったアルゴリズムの開発は、以下の3通りあります。


選択する手法によって、どこまで準備する必要があるのかが異なります。

引用元:https://www.slideshare.net/AmazonWebServicesJapan/amazon-sagemaker-20180725

ビルトインアルゴリズムは予めSageMaker側で用意されているアルゴリズムであり、利用者は、学習データ用意するだけで機械学習のアルゴリズムを開発することが可能になります

ビルトインアルゴリズムの種類

現在以下のアルゴリズムが用意されています。

各アルゴリズムのユースケース

■Linear Learner
・広告のクリック予測
・売上予測
・受信メールの不正か正常かの分類
・ローン審査の融資判断OKかNGかの分類

■Factorization Machines
・ECサイトのレコメンデーション

■XGBoost
・自動車メーカーのキャンペーンからの購買予測等

■Image Classification
・商品の画像から型番の予測
・倉庫内の画像から在庫数の予測
・故障品か正常品かの予測

■seq2seq
・機械翻訳
・文書からサマリ、タイトルの抽出
・コールセンターへの質問内容から適した回答の予測

■k-means
・行動ログからの顧客セグメントの分類(セグメント毎に適した施策を実行する)

■kNN
・ECサイトのレコメンデーション
・クレジットカード利用の異常検知

■PCA
・ノイズ除去および特徴抽出
・属性の絞り込み

■LDA
・文書のカテゴリ分けや、音声データの認識
・ニュースサイトの各ニュースの記事内容からのトピック抽出、分類

■Neural Topic Model
・大量の文書の分類

■DeepAR Forecasting
・新商品の販売予測
・倉庫のキャパシティの予測

■BlazingText
・コールセンターの問い合わせ内容の感情分析
・コミュニケーションサイトにより不正書き込みの発見

■Random Cut Forest
・特定地域の交通量から地域イベントの発見
・ネットワークのトラフィック量からのDDoS 攻撃の発見
・ATMの利用状況から不正利用の発見

■Object Detection
・数十種類の害虫のなかから適した対応方法を判別するための画像内の害虫判別

■IP Insights
・ウェブアプリケーションへの不審ログインの検出

まとめ

SageMakerのビルトインアルゴリズムを利用することで、自前でアルゴリズムを用意する必要なく、機械学習のモデル開発の速度を早めることができます。また、更新頻度は非常に早いので、どんどん新しいアルゴリズムが利用できるようになってきます。
これを使って、どのようにビジネス課題を解決していくか?が重要になってくるので、各アルゴリズムの特徴を理解しながら、適した課題、データに対して、アプローチをとっていければと思います。

次回以降は、これらの検証記事やさらに具体的なユースケースをご紹介できればと思います。