Amazon.comのエンジニアが機械学習に関する技術を学ぶ際に利用している映像コンテンツが「 AWS ML University 」として無料で公開されています。
今回の記事は、Amazon SageMaker Ground Truth の動画についてざっくりと訳してご紹介していこうと思います。ここで提供されている機能は機械学習においてとても重要なサービスなので、本編の動画もぜひ観てください。
コンテンツへのアクセス方法はこちらに記載しています。
Amazon SageMaker Ground Truthとは
Ground Truth は、Amazon SageMaker 上で機械学習を行う上で必須となるデータセットを素早く正確にラベルリングすることが可能になる新機能です。データセットのラベル化の一部を自動的に行い、AWSが提供するアルゴリズムを駆使することでより正確なデータに変換して提供します。
学習データを用意するための課題
一般的に、検証データセットの作成には多大な労力とミスが伴います。なぜなら、検証データの作成には沢山の人員が必要になるため、結果的にコストとミスの増加に繋がります。それでいて検証データは複雑な代物であるため、完成させるのにも数ヶ月はかかります。
Ground Truth による解決
しかし、Ground Truthはそういった問題を解決することができる機能を備えています。
■S3にあるデータを活用して、より高精度なデータのラベル化を簡単に行うことが可能
■数クリックでデータのラベル化を完成させることが可能
■類似したラベルのタスクにはテンプレートが用意されるので、作成がより簡単に
■3つあるworkforceの中から1つを選択することで、作業スピードが短縮可能
こうしてデータのラベル化の作業が一通り完了すると、S3にデータを再び移します。そうすることで前回よりも高精度なデータを保存することが可能となり、次回は更に制度高いデータに換えて保存ができるのです。
3つのworkforceオプションについて説明すると、手動でラベル化を行う場合は図の3つのworkforceの中からどれか1つを選ぶことができるようになっており、彼らの力を借りて手動でラベル化が可能となっています。
・Amazon Mechanical Turkに登録されているworkforce
・AWS Marketplaceに登録されているサードパーティベンダー
・独自で保有している労働力(社員)
Ground Truthがより高精度なデータラベル化が可能なのは、UX技術の進化とビルトインアルゴリズムという2つの技術のおかげです。
このUX技術は全てのテンプレートに搭載されており、どのようなデータのラベル化にも対応しております。そして、ビルトインアルゴリズムのおかげでより高精度なラベル化が可能となっております。
Ground Truthがより高精度なデータラベル化を可能としているのは、この自動ラベル化という機能のおかげです。この機能を搭載しているからこそ、高精度なデータのラベル化が可能となっています。
自動ラベル化の仕組みについて、もう少し詳しく見てみましょう。この機能の特徴はGround Truthが実際に検証データセットを調べ、データの理解度によって自動でラベル化するのか、それとも手動でラベル化を行うのかを選別できるとこです。このようにデータを選別することで、より効率的に高精度なデータのラベル化が可能となります。
以上のことから、Ground Truthを利用することで3つのメリットが得られます。
■データのラベル化にかかるコストを70%以上も削減
■データセットの管理をセキュアにすることが可能
■検証データセットをより高精度なものにすることが可能
まとめ
以上が Amazon SageMaker Ground Truth の動画内容のまとめとなります。SageMakerを使って機械学習を行う際に必要な機能なので、ぜひこの機会に活用してみてください。また、この動画以外にも様々な動画がAWS ML Universityには無料で公開されています。
今後も機械学習関連の動画を翻訳していきますので、どうぞよろしくお願いします。