Amazon Polly編~SSMLで音声を調整する~

Pocket

こんにちは!Narimasaです!

re:Inventで発表された人工知能系サービスの一つである「Amazon Polly」でSSMLを使って合成音声の調整を試してみます。

前回の記事はこちら
Amazon Polly編~コンソール画面から操作してみる~

SSMLとは?

SSMLは「Speech Synthesis Markup Language」の略で、日本語では「音声合成記述言語」や「音声合成マークアップ言語」と呼ばれます。
テキストを読み上げる際の声量や発音、音の高低をXML形式で設定することができ、Amazon PollyではこのSSMLを使って合成音声を調整することができます。

SSMLの使い方

AWSコンソールで使う場合は、前回同様Pollyのテキスト読み上げ機能ページを開いた後で、「SSML」のタブを開きます。

polly-01

プレーンテキストとは違い、タグで挟まれた範囲が読み上げの対象となります。
ここからは代表的な要素を挙げていきます。


は休息の意味の通り、読み上げを一時停止するというものです。

と指定すると1秒間読み上げを休止します。

また、を使うことで時間指定ではない方法で、休息の強弱(長さ)を表現することもできます。

使い分け例としては、長文を読み上げる際に一文が終わったら で短く停止し、段落の区切りの箇所ではで長めに停止するということで自然な読み上げを表現することが挙げられます。

は韻律を意味しており、音声の声量・高低・速度を制御する為に使用します。

・声量(volume) 文章で、文章部分を大きい声量で発音することができます。
“loud”,”soft”,”silent”という形式で指定する他に、”+20dB”というようにデフォルトの声量からどれくらい変更するかを数値で指定することもできます。

・高低(pitch) 文章で、文章部分を高いピッチで発音することができます。


・速度(rate) 文章で、文章部分を早く発音することができます。

また各種要素は複合して利用することができます。

その他のタグや要素についてはW3C(World Wide Web Consortium) が定義しているものがおおよそ使用可能とのことですが、以下の制約があります。

いかがでしたでしょうか。
前回の紹介記事でプレーンテキストを試した際もそれなりには自然に聞こえましたが、今回紹介したSSMLを使えばより詳細・正確に音声の作成ができます。

次回もお楽しみに!!