3ステージMLNと抑制/強調処理に基づく調音特徴抽出(ポスターセッション,第10回音声言語シンポジウム)

スポンサーリンク

概要

論文の詳細を見る
高精度音素認識を目的とした調音特徴抽出器について述べる。提案方式は3ステージから成る。第一ステージは三つの多層ニューラルネットワーク(MLN),すなわち時間-スペクトルパターン空間の局所特徴を調音特徴空間に写像するMLN_<LF-DPF>,主に音素境界で生じる誤識別を低減するMLN_<cntxt>,およびMLN_<Dyn>を組込んでいる。次に第二ステージでは,抑制/強調処理を導入して,DPFが示す調音運動から凸パターンを強調し凹パターンを抑制することにより,各DPFパターンをカテゴリカルなものとする。最後に第三ステージで連続するDPF系列に対して,Gram-Schmidt変換を適用して相関成分を除き,HMMに基づく音素分類器に入力する。JNAS音声データを用いた音素認識実験では,提案する調音特徴抽出器は,少ないHMM混合数で高い音素認識精度を示した。
2008-12-02

著者

関連論文

もっと見る

スポンサーリンク