WEB EGG

docomoの音声合成APIを利用して無料でVOICEROIDっぽい声を生成してみる

August 08, 2017 · 15 min read

こんにちは。
とある案件で docomo の音声合成 API を利用することが合ったのですが、
エーアイ版の API のデモを試していたら「これゆかりんの声やんけ！と思ったら葵ちゃんもいる！」とテンションが上ってしまいました。
本来VOICEROID は有償（それも安くはないお値段）なのに、docomo の API を介せば無料で使えるというワクワク感。

もはや仕事なんてしている場合じゃない、理解を深めなければ。ということで試してみました。

まえおき

ボイロの話題に興味が湧いて来てくださった方が多いと信じて、ボイロ自体の説明は割愛します。
ボイロ自体の知識は持っているという前提で記事を書いています。あらかじめご了承下さい。

また、試して見た限りではすべてのボイロが扱えるわけではなく、

結月ゆかり
弦巻マキ
月読アイ

の３名が使えることを確認できました。
残念ながら docomo の API だけでは全ボイロは試せませんでした。
特にエーアイ版 API を提供してらっしゃるAITalk のデモ版には葵ちゃんの声があるので、API で使えないのが残念です。
とても悔やまれますが、使いたければ買えという話なので仕方ない。

利用規約を確認してみる

ガイドラインを確認してみると、

本 API を用いたアプリケーションは無償で提供すること
本 API を用いたアプリケーション内で広告収入を含む収益行為をしないこと

の２つが条件で利用して良いとのことなので、売り物作るわけではないし実験する分には大丈夫だろうという判断です。

作ったもの

題材

今回の記事でお借りする台詞は、
個人的に好きな豚野郎さんの sm30193805の”ここテン”をお借りしました。

今回作る台本・プリセットで音声化したものが以下の音声ファイルです

タグ名	説明
speak	ルート要素。`version="1.1"`が必要
voice	声の種類を指定する。指定可能な値は後述
prosody	日本語だと韻律というそう。ピッチや抑揚、スピードを制御できるので調声するために必須
phoneme	日本語だと音素というそう。その言葉に対する発音の仕方を定義できます。イントネーションを変えたい場合に使用可能

属性名	ボイロ名
sumire	結月ゆかり
maki	弦巻マキ
anzu	月詠アイ

Nodejs 音声合成 ffmpeg

WEB EGG

docomoの音声合成APIを利用して無料でVOICEROIDっぽい声を生成してみる

まえおき

利用規約を確認してみる

作ったもの

題材

デモ

下準備

利用する API

docomo developer に登録して API キーを入手

SSML とはなんぞや

台本を作る

プリセットを作る

VOICEROID っぽい声を生成する

台本を SSML に変換

音声合成 API を叩く

audio/l16(PCM 音源)を wav 形式に変換する

まとめ

結月ゆかりボイスを試してみる

弦巻マキボイスを試してみる

月読アイボイスを試してみる

さいごに