汎化能力を持ったニューラルネットワークによる音声生成
スポンサーリンク
概要
- 論文の詳細を見る
パーセプトロン型と呼ばれる(人工)層状ニューラルネットワークを用いて教師あり学習を行う.誤差逆伝播法を用いて学習すると汎化能力が得られるという報告もある.しかし,結果として得られる能力であり,同じ課題でも学習パターン集合が替わるとその能力があるかどうかは保証されない.本論文では,音声生成という課題に対して汎化能力を持つような学習方式を提案する.この方式は音声の性質を学習方式に取り入れたものである.音声は前後の音素によって影響を受ける.これを調音結合という.この性質を実現するため,時間情報をもった音素系列を入力とし,音声パラメータ(ここではPARCOR係数)を出力とする層状ニューラルネットワークについて検討する.実際,入力層の音素系列の中心から周辺へと順に入力音素系列を拡張しながらネットワークの重み係数を学習する実験を行った.種々の発話速度の音素系列について音声生成実験をすると,学習パターンの発話速度と異なった音素系列に対しても自然な音声を生成し,汎化能力のあることが確認できた.
- 東海大学の論文
- 2004-03-30