日本語文音声認識システムを利用した音声圧縮・編集方法の提案

概要

論文の詳細を見る
近年,音声認識の分野では,音素HMMのようなサブワードを認識単位とした統計的連続音声認識手法の研究が活発である.発声単位等にまだ制約が残るものの,既に英語に対しては,ディクテーションシステムが実用化されるに至っている.一方,テキスト音声合成の分野でも,ピッチ同期波形重畳法(PSOLA)による音声合成手法が開発され,合成音の音質を,大幅に改善出来ることが示された.ただ,韻律については,まだ不自然な部分も多く,テキスト解析の精度向上とともに,今後の課題として残っている.もし,音声認識システムを用いて発声内容のテキスト(読み),ならびに韻律情報を自動抽出し,これを既存のテキスト音声合成システムの言語解析部の出力と置き換えることが出来れば,情報圧縮の観点からは非常に効率のよい分析合成系を構築できる.ただ,これを一般的な音声の符号化法として用いるには,まだ,認識率が不十分であるが,ユーザーが入力内容の確認・修正を行う,ディクテーションシステムの利用を前提とした場合には,音声付きの文書データを効率良く作成でき,さらに,テキスト上で,音声の編集が可能になるという利点がある.また,同様にして,個人用の音声合成素片辞書を自動生成することも可能になるだろう.逆に,他人の素片辞書を用いることで,声質変換としての応用も期待出来る.本論文では,このような音声認識を前提とする分析合成システムの構成について述べるとともに,文音声の韻律(音素継続長と,基本周波数)の自動抽出に関して基本的な検討を行ったので報告する.
一般社団法人情報処理学会の論文
1994-09-20

日本語文音声認識システムを利用した音声圧縮・編集方法の提案

スポンサーリンク

概要

著者

関連論文

スポンサーリンク