セグメント特徴量を用いた実用向けの不特定話者音声認識

概要

論文の詳細を見る
高精度かつ耐ノイズ性能に優れた不特定話者大語彙(い)音声認識を少ない計算量で実現する実用向けの方法について報告する.本方法の第1の特徴は,複数のフレームの分析パラメータから形成されるセグメント特徴量を入力とした音響モデルにより高精度な認識を実現していることである.第2の特徴は音響モデル内の各状態の出力確率に対応するゆう度値の計算を,入力パラメータベクトルを変数とする1次式で行っていることである.この1次式は等共分散仮定から導き出される.この1次式化により,認識性能を低下させることなくセグメント特徴量化に伴う計算量及びメモリ量の増大を抑えている.第3の特徴はゆう度計算に事後確率化の考え方を反映させることにより,ノイズ区間から正解候補を検出する安定したワードスポッティング機能を実現していることである.このワードスポッティング機能によりノイズに対して頑健な音声認識が実現できる.走行車両の車室内騒音を付加した認識実験により本方式の有効性を示す.
社団法人電子情報通信学会の論文
2002-03-01