テキストを音声に変換するサービス (Amazon Polly, Azure Cognitive Services)

英語の発表で合成音声を利用するというのはおもしろいなと思いました。

英語で動画コンテンツを作成するために、以前なら英語に堪能な人に依頼しようとするところでしたが、今ならテキストから音声に変換した結果のクオリティもよいだろうと考え、利用できそうなサービスを調べてみました。

Amazon

aws.amazon.com

Amazon PollyはAPIが用意されていて、そちらが本命の使い方なのだろうけど、Webインターフェースも用意されていて、簡単に利用することができました。また、音声のパターンも数種類から選ぶことができました。

f:id:iotaworks:20170831132631p:plain

Microsoft Azure

Cognitive ServicesのBing Speech APIでテキストから音声出力ができました。こちらもAmazonと同様にWeb APIが用意されています。

azure.microsoft.com

Amazon PollyのWebインターフェースを利用するためには、AWSのアカウントでログインする必要がありましたが、こちらはログインの必要なく利用できました。AWSアカウントを持っていない人に作業を依頼するなど、メンバーの構成によってはAmazonよりAzureのほうが手軽かもしれません。

Google

Google Text to Speech (TTS) というサービスがあるようですが、API等の情報を見つけることができませんでした。

Google翻訳は、翻訳結果を読み上げてくれますが、そのファイルは標準的な方法ではダウンロードできないようです。Sound of Textというサイトが内部的にGoogleのサービスを利用しているようで、入力したテキストに対応する音声をダウンロードできました。

scrap.php.xdomain.jp

まとめ

今回の私のケースだと、APIではなくWebインターフェースでサービスを利用したかったので、Amazon PollyかAzure Cognitive ServicesのBing Speech APIのどちらかを利用することになりそうです。プログラミングすることを少し覚悟していたので、Webインターフェースが用意されているのはうれしかったです。