音声合成の多様性向上の取り組み
スポンサーリンク
概要
- 論文の詳細を見る
本稿で言う音声合成の多様性とは,様々な話者や発話スタイルの音声合成システムが簡単に作れる能力を指している.話者の多様性向上のため,収録音声からその話者性を再現する音声合成モデルを自動生成するシステムを開発し,サービスを一般公開した.本サービスにより,有名人の声だけでなく,開発コストがかけられない一般ユーザの声での音声合成が可能となった.音声合成の応用を拡大していくためには,発話スタイルがそれぞれの応用に適していることが必要である.これまでに,音声インターフェース応用で有用な 「対話調」 などを開発してきた.さらに,感情をこめた電子書籍の朗読を実現するために,セリフの感情を自動判別するシステムを試作した.
- 2012-10-19
著者
-
森田 眞弘
(株)東芝 研究開発センター
-
籠嶋 岳彦
東芝・マルチメディアラボラトリー
-
布目 光生
(株)東芝
-
布目 光生
(株)東芝 研究開発センター
-
森田 眞弘
(株)東芝研究開発センター知識メディアラボラトリー
-
籠嶋 岳彦
(株)東芝研究開発センター知識メディアラボラトリー
-
籠嶋 岳彦
(株)東芝
-
布目 光生
(株)東芝研究開発センター
-
橘 健太郎
(株)東芝研究開発センター
関連論文
- FWFモデルを用いた複数素片選択融合方式による音声合成
- オントロジーメンテナンスのための固有名詞抽出技術の検討(オントロジー,「Webインテリジェンス」及び一般)
- 5H-3 投稿情報に基づくビジネスメールの話題分類(自然言語処理,一般セッション,人工知能と認知科学)
- セマンティックWebのツール(セマンティックWeb)
- 閉ループ学習に基づく音声素片および基本周波数制御規則の生成
- スペクトル包絡を制御するためのピッチ波形のモデリング
- 代表パターンコードブックを用いた基本周波数制御法
- 合成辞書作成に用いる音声DBの品質が合成音声に与える影響について
- サブバンド閉ループ学習による音声素片の生成
- TOS-Drive TTS の米・英・独・仏・中国語への応用