Amazon Polly編～SSMLで音声を調整する～

投稿日 2016年12月29日
著者 aws-recipe-user
カテゴリー人工知能

こんにちは！Narimasaです！

re:Inventで発表された人工知能系サービスの一つである「Amazon Polly」でSSMLを使って合成音声の調整を試してみます。

前回の記事はこちら
Amazon Polly編～コンソール画面から操作してみる～

SSMLとは？

SSMLは「Speech Synthesis Markup Language」の略で、日本語では「音声合成記述言語」や「音声合成マークアップ言語」と呼ばれます。
テキストを読み上げる際の声量や発音、音の高低をXML形式で設定することができ、Amazon PollyではこのSSMLを使って合成音声を調整することができます。

SSMLの使い方

AWSコンソールで使う場合は、前回同様Pollyのテキスト読み上げ機能ページを開いた後で、「SSML」のタブを開きます。

プレーンテキストとは違い、タグで挟まれた範囲が読み上げの対象となります。
ここからは代表的な要素を挙げていきます。

■
は休息の意味の通り、読み上げを一時停止するというものです。

と指定すると1秒間読み上げを休止します。

例

<speak>Now Loading.<break time="1s"/> Complete.</speak>

1	<speak>Now Loading.<break time="1s"/> Complete.</speak>

また、を使うことで時間指定ではない方法で、休息の強弱(長さ)を表現することもできます。

使い分け例としては、長文を読み上げる際に一文が終わったらで短く停止し、段落の区切りの箇所ではで長めに停止するということで自然な読み上げを表現することが挙げられます。

■ は韻律を意味しており、音声の声量・高低・速度を制御する為に使用します。

・声量(volume) 文章で、文章部分を大きい声量で発音することができます。
“loud”,”soft”,”silent”という形式で指定する他に、”+20dB”というようにデフォルトの声量からどれくらい変更するかを数値で指定することもできます。

例

<speak><prosody volume="-20dB">Now Loading. </prosody> <break time="1s"/> <prosody volume="loud">Error!</prosody></speak>

1	<speak><prosody volume="-20dB">Now Loading. </prosody> <break time="1s"/> <prosody volume="loud">Error!</prosody></speak>

・高低(pitch) 文章で、文章部分を高いピッチで発音することができます。

例

<speak> <prosody pitch="x-low">Warning! </prosody><prosody pitch="medium">Warning! </prosody><prosody pitch="x-high">Warning! </prosody></speak>

1	<speak> <prosody pitch="x-low">Warning! </prosody><prosody pitch="medium">Warning! </prosody><prosody pitch="x-high">Warning! </prosody></speak>

・速度(rate) 文章で、文章部分を早く発音することができます。

例

<speak> <prosody pitch="slow">Warning! </prosody><prosody pitch="medium">Warning! </prosody><prosody pitch="x-fast">Warning! </prosody></speak>

1	<speak> <prosody pitch="slow">Warning! </prosody><prosody pitch="medium">Warning! </prosody><prosody pitch="x-fast">Warning! </prosody></speak>

また各種要素は複合して利用することができます。

例

<speak><prosody volume='x-loud' pitch='x-low' rate='x-slow'>ゆっくりしていってね！！！</prosody></speak>

1	<speak><prosody volume='x-loud' pitch='x-low' rate='x-slow'>ゆっくりしていってね！！！</prosody></speak>

その他のタグや要素についてはW3C(World Wide Web Consortium) が定義しているものがおおよそ使用可能とのことですが、以下の制約があります。

・

いかがでしたでしょうか。
前回の紹介記事でプレーンテキストを試した際もそれなりには自然に聞こえましたが、今回紹介したSSMLを使えばより詳細・正確に音声の作成ができます。

次回もお楽しみに！！

この記事を書いた人

aws-recipe-user

記事一覧