こんにちは!Narimasaです!
re:Inventで発表された人工知能系サービスの一つである「Amazon Polly」でSSMLを使って合成音声の調整を試してみます。
前回の記事はこちら
Amazon Polly編~コンソール画面から操作してみる~
SSMLとは?
SSMLは「Speech Synthesis Markup Language」の略で、日本語では「音声合成記述言語」や「音声合成マークアップ言語」と呼ばれます。
テキストを読み上げる際の声量や発音、音の高低をXML形式で設定することができ、Amazon PollyではこのSSMLを使って合成音声を調整することができます。
SSMLの使い方
AWSコンソールで使う場合は、前回同様Pollyのテキスト読み上げ機能ページを開いた後で、「SSML」のタブを開きます。
プレーンテキストとは違い、タグ
ここからは代表的な要素を挙げていきます。
■
例
1 |
<speak>Now Loading.<break time="1s"/> Complete.</speak> |
また、
使い分け例としては、長文を読み上げる際に一文が終わったら
■
・声量(volume)
“loud”,”soft”,”silent”という形式で指定する他に、”+20dB”というようにデフォルトの声量からどれくらい変更するかを数値で指定することもできます。
例
1 |
<speak><prosody volume="-20dB">Now Loading. </prosody> <break time="1s"/> <prosody volume="loud">Error!</prosody></speak> |
・高低(pitch)
例
1 |
<speak> <prosody pitch="x-low">Warning! </prosody><prosody pitch="medium">Warning! </prosody><prosody pitch="x-high">Warning! </prosody></speak> |
・速度(rate)
例
1 |
<speak> <prosody pitch="slow">Warning! </prosody><prosody pitch="medium">Warning! </prosody><prosody pitch="x-fast">Warning! </prosody></speak> |
また各種
例
1 |
<speak><prosody volume='x-loud' pitch='x-low' rate='x-slow'>ゆっくりしていってね!!!</prosody></speak> |
その他のタグや要素についてはW3C(World Wide Web Consortium) が定義しているものがおおよそ使用可能とのことですが、以下の制約があります。
・
いかがでしたでしょうか。
前回の紹介記事でプレーンテキストを試した際もそれなりには自然に聞こえましたが、今回紹介したSSMLを使えばより詳細・正確に音声の作成ができます。
次回もお楽しみに!!