Improving Naturalness of HMM-Based TTS Trained with Limited Data by Temporal Decomposition
スポンサーリンク
概要
- 論文の詳細を見る
The most important advantage of HMM-based TTS is its highly intelligible. However, speech synthesized by HMM-based TTS is muffled and far from natural, especially under limited data conditions, which is mainly caused by its over-smoothness. Therefore, the motivation for this paper is to improve the naturalness of HMM-based TTS trained under limited data conditions while preserving its intelligibility. To achieve this motivation, a hybrid TTS between HMM-based TTS and the modified restricted Temporal Decomposition (MRTD), named HTD in this paper, was proposed. Here, TD is an interpolation model of decomposing a spectral or prosodic sequence of speech into sparse event targets and dynamic event functions, and MRTD is one simplified version of TD. With a determination of event functions close to the concept of co-articulation in speech, MRTD can synthesize smooth speech and the smoothness in synthesized speech can be adjusted by manipulating event targets of MRTD. Previous studies have also found that event functions of MRTD can represent linguistic information of speech, which is important to perceive speech intelligibility, while sparse event targets can convey the non-linguistics information, which is important to perceive the naturalness of speech. Therefore, prosodic trajectories and MRTD event functions of the spectral trajectory generated by HMM-based TTS were kept unchanged to preserve the high and stable intelligibility of HMM-based TTS. Whereas MRTD event targets of the spectral trajectory generated by HMM-based TTS were rendered with an original speech database to enhance the naturalness of synthesized speech. Experimental results with small Vietnamese datasets revealed that the proposed HTD was equivalent to HMM-based TTS in terms of intelligibility but was superior to it in terms of naturalness. Further discussions show that HTD had a small footprint. Therefore, the proposed HTD showed its strong efficiency under limited data conditions.
著者
-
Akagi Masato
Japan Advanced Inst. Sci. And Technol. Ishikawa Jpn
-
PHUNG Trung-Nghia
Japan Advanced Institute of Science and Technology
-
VU Thang
Institute of Information Technology, IoIT
-
LUONG Mai
Institute of Information Technology, IoIT
-
PHAN Thanh-Son
Institute of Information Technology, IoIT
関連論文
- 変調伝達関数に基づいた骨導音声ブラインド回復法の検討
- 線形予測に基づいた骨導音声回復法の総合評価
- 音声に含まれる感情情報の認識 : 感情空間をどのように表現するか
- 方向性の手掛かりが雑音環境下での報知音の検知能力に及ぼす影響(聴覚・音声・言語とその障害,一般)
- ヒトの聴覚情報処理過程を考慮した音声認識モデル(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
- 基本周波数包絡が異なる感情音声聴取時の脳活動測定
- 聴覚末梢系の機能モデルの提案 : 聴神経の位相固定性及びスパイク生成機構のモデル化
- EA2010-31 線形予測に基づいた骨導音声回復法の総合評価
- 雑音残響環境下におけるMTFに基づくパワーエンベロープ回復処理の検討
- fMRIを用いた歌声と話声における脳活動の差異の検討
- Influences of real-time auditory feedback on formant perturbations
- On the Application of Temporal Decomposition to VQ-Based Speaker Identification
- Effects of single-channel speech enhancement algorithms on Mandarin speech intelligibility (応用音響)
- 変調伝達関数に基づいた骨導音声ブラインド回復法の検討
- アジアの音
- A Noise Reduction Method Based on a Generalized Subtractive Beamformer
- 聴神経の順応特性の計算機シミュレーション : 順応の音圧レベル依存特性のモデル化
- Improvement of the Restricted Temporal Decomposition Method for LSF Parameters
- Fundamental Frequency Estimation for Noisy Speech Using Entropy-Weighted Periodic and Harmonic Features
- Evaluations of TS-BASE for speech enhancement and binaural benefits preservation (応用音響)
- Adaptive β-order Generalized Spectral Subtraction for Speech Enhancement
- A Two-Microphone Noise Reduction Method in Highly Non-stationary Multiple-Noise-Source Environments
- Comparison of Emotion Perception among Different Cultures
- 残響環境下におけるTS-BASE/WFの性能評価--TS-BASE/WFの改良手法についての検討
- 聴取印象に着目した音声の個人性知覚に関する基礎研究
- 会長就任にあたって : 新たな四半世紀に向けて計画から実行へ
- 雑音残響環境下での変調伝達関数に基づくパワーエンベロープ回復処理と音声認識への応用(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音残響環境下での変調伝達関数に基づくパワーエンベロープ回復処理と音声認識への応用(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音残響環境下での変調伝達関数に基づくパワーエンベロープ回復処理と音声認識への応用(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 招待講演 聴覚と音研究
- 変調伝達関数の概念に基づいた音声伝達指標のブラインド推定法の検討(音場計測・解析,アクティブ・コントロール,一般)
- 電子音響透かし法のための蝸牛遅延フィルタの最適構成に関する検討(音響信号処理,聴覚,一般)
- EEGによる基本周波数の時間変化に応じた脳活動の計測
- 音情景理解を応用した音声プライバシー保護(異種メディア融合,コンテンツ処理,メディア検索,電子透かし,一般)
- 音情景理解を応用した音声プライバシー保護(招待講演,異種メディア融合,コンテンツ処理,メディア検索,電子透かし,一般)
- 変調伝達関数に基づいたパワーエンベロープ回復処理における音声区間検出の検討(一般,音声・音響信号処理,音声及び一般)
- 変調伝達関数に基づいたパワーエンベロープ回復処理における音声区間検出の検討(一般,音声・音響信号処理,音声及び一般)
- 変調伝達関数に基づいたパワーエンベロープ回復処理における音声区間検出の検討(一般,音声・音響信号処理,音声及び一般)
- 2周波数混合波形による瞬時周波数計測の精度評価 : FFTを使用しない瞬時周波数計測(一般,音声・音響信号処理,音声及び一般)
- A low-cost concatenative TTS for monosyllabic languages (音声)
- Improving Naturalness of HMM-Based TTS Trained with Limited Data by Temporal Decomposition
- フーリエ変換を使用しない基本周波数測定による楽器音F0推定 : 時間・周波数分界能の考察
- 残響音声からの音声伝達指標のブラインド推定法の検討