WFST駆動音声認識デコーダの最近の評価結果(デコーダ,第11回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では、東京工業大学で開発されているトランスデューサ駆動音声認識デコーダ(T^3)に対する最近の評価結果を報告する。二つのASRタスクによって評価を行った。一つ目のタスクは、JNASコーパスによる大語彙連続音声認識のトランスクリプションであり、二つ目は、乗換案内情報における音声検索のタスクである。まず、WFSTネットワーク構築方法の徹底比較によって、高速かつ高精度のネットワークの効率の良い構築方法について報告する。さらに、音声検索のタスクで、HTKとSphinxTrainの音響モデルを、T^3で比較し、その結果を報告する。実験の結果から、WFSTネットワークの構築において、logセミリングを使用した方が総合的に良く、T^3の柔軟性と高速性を新しいタスクによって確認することができた。
- 2009-12-14
著者
-
古井 貞熙
東京工業大学大学院情報理工学研究科計算工学専攻
-
大西 翼
東京工業大学大学院情報理工学研究科計算工学専攻
-
ディクソン ポール
東京工業大学大学院情報理工学研究科計算工学専攻
-
Dixon Paul
東京工大 大学院情報理工学研究科
-
古井 貞熙
東京工業大学大学院情報理工学研究科:国立国語研究所
-
ノヴァク ジョセフ
東京工業大学大学院情報理工学研究科計算工学専攻
-
ノバック ジョセフ
東京工業大学大学院情報理工学研究科計算工学専攻
-
古井 貞熙
東京工業大学
-
大西 翼
東京工業大学
関連論文
- 年齢推定のための音声特徴量および推定器の検討 (音声)
- 局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出 (医用画像)
- 音声認識実用化技術の展開(総合報告)
- SIFT混合ガウス分布と音響特徴を用いた映像からの高次特徴検出(テーマセッション関連,一般物体認識・画像特徴量)
- WFST音声認識デコーダにおけるon-the-fly合成の最適化処理(音声,聴覚)
- 携帯端末上でのプロキシ編集(映像理論・映像システム,画像処理・符号化及び一般)
- 頑健な区間検出とモデル適応に基づく雑音下音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
- プロダクト・オブ・エキスパートを用いた話者識別
- F_0パターン生成モデルのための数量化I類の平均値置換による話者適応法の検討(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
- CHLAC特徴と隠れマルコフモデルを用いたGait認識(一般セッション2,複合現実感のためのパターン認識・理解)