こんにちは!Narimasaです!
今年のre:Inventで発表された人工知能系サービスの一つである「Amazon Polly」をコンソール画面から操作してみます。
Amazon Pollyの概要については別記事にてご紹介予定です。
Amazon Pollyの始め方
AWSコンソールにログインすると既にサービス一覧に表示されております。
※Amazon PollyはUS(ノースバージニア、オレゴン、オハイオ)、EU(アイルランド)のリージョンで利用可能です。
現時点で海外リージョン用のサービスですが、日本語化された画面となっております。
「今すぐ始める」をクリックします。
これだけでもうサービスを利用することができます。
とりあえず触ってみる
プレーンテキストで操作してみます。
デフォルトでテキストが表示されているので「音声を聴く」をクリックすれば、文章を読み込んで読み上げてくれます。
また、音声を保存することもできます。
聴いてみた所感としては、思っていたよりも自然な発音・抑揚だったように思います。
ただ、一部用語のイントネーションに違和感があったり、英単語が混じった際に意図した読み方をしてくれなかったりなどの課題はあります。
※AWSブログのPolly紹介記事冒頭を読み上げさせてみました。
https://aws.amazon.com/jp/blogs/news/polly-text-to-speech-in-47-voices-and-24-languages/#more-13387
こういった部分はプレーンテキストではなく、SSML(Speech Synthesis Markup Language)を使うことで調整をしていくことが可能なようです。
また、レキシコン(語彙目録)を登録することで、単語固有の発音を覚えさせることもできます。
SSML及びレキシコンについては今後の記事で紹介できればと思います。
ちなみに音声のファイル形式を変更して保存することも可能です。
言語と音声
12月1日時点で、言語は24種類(アメリカ英語・イギリス英語・インド英語といった訛りを含む)、音声は47種類(男声・女声、声色、老若等)となっております。
言語毎に所定の音声があり、アメリカ英語では7種類の音声が選べます。
余談ですが、先ほどのPolly紹介記事冒頭(日本語版)を「言語設定:英語」で読ませようとしたところ、アルファベット及び英単語の箇所だけ認識して読み上げました。
Amazon Pollyの使い道
クラウドファーストが当たり前になりつつある現在、アプリやシステムの開発もクラウドで行うケースが増えていますが、テキスト読み上げの機能もPollyを使ってAWSで一貫できるようになったことでビジネスの幅がかなり広がるのではないかと思われます。
例えば、AWS上でモバイルアプリを作成する時にテキストを読み上げる為の外部ソフトウェアを使ったり、わざわざ音声収録したりしなくてもPollyで対応することができます。
最後に
同時に発表されたAmazon LexやAmazon Rekognitionと合わせて、
クラウドで人工知能技術を活用できるようになってきており、クラウドファーストからクラウドで未来を作り出すという
フェイズに移行したのだと言えるのではないでしょうか。
弊社でもどんどん新サービスを活用し、皆様にご紹介していければと思います。
お楽しみに!!