【2018年版】Amazon AI 紹介 -Polly編-

こんにちはシュガーです。

今回はAWSが提供している機械学習サービスのうちの1つ、Amazon Polly についてご紹介をしたいと思います。

Amazon AI とは

Amazon AI とはAWSが提供しているAIソリューションの総称です。
前回の記事でもご紹介させていただいたように、現在AWSが提供しているMLサービススタックは以下のようになります。
AWS re:Invent 2017 で追加された MLサービススタックまとめ


今回ご紹介するAmazon PollyはServicesに区分されます。
ServicesはAWSが提供している深層学習モデルをAPIで簡単に使うことができるマネージドのサービス群になります。

Amazon Polly 概要

Amazon Polly とはテキストから音声へと変換してくれるText-to-Speechサービスで、
25の言語、52のボイスに対応しております。(2018年2月時点)
日本語にも対応しており、現在はMizuki(女性)とTakumi(男性)の2つのボイスがあります。
低レイテンシで高速なため、ほぼリアルタイムに変換してくれます。
Amazon Pollyを利用することで、グローバルな音声対応アプリケーションを構築することができます。

内部処理

Amazon Pollyがテキストを読み上げるまでの処理を調べてみました。

・数字、記号等をテキストに変換
※例:「>」はmore thanとテキスト変換されます。
・発話する単位に分割
・発音記号の割り当て
・韻律曲線(イントネーションやリズム)を生成

発音記号の割り当てと韻律曲線の生成で深層学習モデルが使われているそうです。

利用方法

マネジメントコンソール、CLI、SDKから利用ができます。
マネジメントコンソールから利用する場合は読ませたいテキストを入力、言語及びボイスの指定をします。
指定後「音声を聴く」をクリックするだけで文章を読み上げてくれます。
ファイル形式を選択してダウンロードすることも可能です。

またSSMLやレキシコンを利用することでより柔軟な音声合成ができます。

【 SSMLとは 】
タグで指定することにより発音、ボリューム、話すスピードなど音声の様々な要素をカスタマイズ可能

【 レキシコンとは 】
単語とフレーズの対応関係やボイスの言語と異なる発音を定義し発音のカスタマイズが可能
※専門用語、略称などを正式名称で読み上げることができる

制限事項

・入力テキストのサイズは最大1500文字(SSMLタグを含めると最大3000文字。SSMLは課金対象外)
こちらは日本語も同様です。
・入力テキストに適用するレキシコンは5個まで
・出力オーディオストリームは5分まで(超過した音声は切り取られます)

料金と提供リージョン

【料金】
従量課金制で100万文字あたり4ドルになります。
Pollyが生成したファイルを保存し再利用した場合、追加料金はかかりません。

【提供リージョン】
2018年2月現在、15のリージョンで利用が可能です。
昨年末に追加されたばかりのパリリージョンでも利用ができるようです。
(バージニア北部、オハイオ、オレゴン、北カルフォルニア、モントリオール、サンパウロ、アイルランド、フランクフルト、ロンドン、パリ、シンガポール、東京、シドニー、ソウル、ムンバイ)

最後に

弊社では実験的にBacklogなどのツールの通知メールをPollyで読み上げるなど活用に向けて色々と取り組んでおります。Pollyに文章を読み上げてもらうことでメールへの緊急度や意識を高めることが出来ています、Polly自体の調整をそこまでしなくても自然な音声になっているので日々驚きです!

次回は実際にAmazon Pollyについて触って紹介していこうと思います。お楽しみに!

この記事を書いた人

aws-recipe-user