Amazon Polly編～コンソール画面から操作してみる～

こんにちは！Narimasaです！

今年のre:Inventで発表された人工知能系サービスの一つである「Amazon Polly」をコンソール画面から操作してみます。
Amazon Pollyの概要については別記事にてご紹介予定です。

Amazon Pollyの始め方

AWSコンソールにログインすると既にサービス一覧に表示されております。
※Amazon PollyはUS(ノースバージニア、オレゴン、オハイオ)、EU(アイルランド)のリージョンで利用可能です。

現時点で海外リージョン用のサービスですが、日本語化された画面となっております。
「今すぐ始める」をクリックします。

これだけでもうサービスを利用することができます。

プレーンテキストで操作してみます。

デフォルトでテキストが表示されているので「音声を聴く」をクリックすれば、文章を読み込んで読み上げてくれます。
また、音声を保存することもできます。

聴いてみた所感としては、思っていたよりも自然な発音・抑揚だったように思います。

ただ、一部用語のイントネーションに違和感があったり、英単語が混じった際に意図した読み方をしてくれなかったりなどの課題はあります。

こういった部分はプレーンテキストではなく、SSML(Speech Synthesis Markup Language)を使うことで調整をしていくことが可能なようです。

また、レキシコン(語彙目録)を登録することで、単語固有の発音を覚えさせることもできます。
SSML及びレキシコンについては今後の記事で紹介できればと思います。

ちなみに音声のファイル形式を変更して保存することも可能です。

12月1日時点で、言語は24種類(アメリカ英語・イギリス英語・インド英語といった訛りを含む)、音声は47種類(男声・女声、声色、老若等)となっております。
言語毎に所定の音声があり、アメリカ英語では7種類の音声が選べます。

余談ですが、先ほどのPolly紹介記事冒頭(日本語版)を「言語設定：英語」で読ませようとしたところ、アルファベット及び英単語の箇所だけ認識して読み上げました。

クラウドファーストが当たり前になりつつある現在、アプリやシステムの開発もクラウドで行うケースが増えていますが、テキスト読み上げの機能もPollyを使ってAWSで一貫できるようになったことでビジネスの幅がかなり広がるのではないかと思われます。

例えば、AWS上でモバイルアプリを作成する時にテキストを読み上げる為の外部ソフトウェアを使ったり、わざわざ音声収録したりしなくてもPollyで対応することができます。

同時に発表されたAmazon LexやAmazon Rekognitionと合わせて、
クラウドで人工知能技術を活用できるようになってきており、クラウドファーストからクラウドで未来を作り出すという
フェイズに移行したのだと言えるのではないでしょうか。

弊社でもどんどん新サービスを活用し、皆様にご紹介していければと思います。

お楽しみに！！

記事一覧