単語適合率最大基準に基づく複数システムの統合
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,複数の認識結果の統合方法について提案する.近年,複数の認識結果を統合することによって,単独の認識結果よりも高い認識率が得られることが報告されている.複数の認識結果の統合にあたっては次のような問題点がある.(1)各認識結果の各単語に対してどのようなスコアを与えればよいか.(2)異なる認識結果をいかにして統合し,単語グラフを生成するか.(3)単語グラフの中からどのような基準で最良パスを選択するか。本稿では,最初の問題に対しては単語に対する事後確率値を,二番目の問題に対しては,編集距離最小の基準に基づくN次元のDPマッチングを,最後の問題に対しては,単語適合率に対する期待値が最大となるようなパスを選択するものとする.本手法に対し,二種類の実験で有効性の確認を行った.一番目の実験では,三種類の異なる音響特徴量を用いた認識結果を統合し,単独の認識結果の最良値よりも2.2ポイント低い単語誤認識率が得られた.また,二番目の実験では,三種類の異なるフレームシフトを用いた認識結果を統合し,単独の認識結果の最良値よりも0.6ポイント低い単語誤認識率が得られ,有効性が確認できた.
- 社団法人電子情報通信学会の論文
- 2002-06-21
著者
-
山本 博史
Atr音声言語コミュニケーション研究所
-
マルコフ コンスタンチン
ATR音声言語コミニュケーション研究所
-
奥田 浩三
ATR音声言語コミニュケーション研究所
-
マルコフ コンスタンチン
Atr音声言語コミュニケーション研究所
-
奥田 浩三
Atr音声言語コミニュケーション研究所:(現)三洋電機株式会社技術開発本部デジタルシステム研究所ヒューマンインタフェース研究部
-
山本 博司
Atr 音声言語コミュニケーション研究所
関連論文
- 複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識(音声、聴覚)
- 連続音声認識システムにおけるfactoringテーブルのコンパクト化と不要単語仮説のガーベジコレクション
- 機械翻訳によって生成された追加テキストを使った統計的言語モデルの適応
- 文認識率の向上に向けたFSAとNGRAMの併用モデルによる大語彙連続音声認識
- ROVER法を用いた音声認識結果の統合と誤認識文のリジェクション
- 文クラスタリングによる複数言語モデルを用いた誤認識文の推定
- 話題と文型の違いを同時に考慮した言語モデル適応
- サブワードモデルを用いた未登録語認識の効率的探索手法(音声言語情報処理とその応用)
- 構造化言語モデルとその実装
- 後続仮説数の管理機能を用いた単語グラフの仮説数削減
- 対話者の前発話を利用した統計的言語モデル
- 音声認識過程での発話分割のための統計的言語モデル(21世紀のグループウェア)
- 2つの単語クラスから生じた未登録語のサブワードモデルによる音声認識
- サブワードモデルを用いた未登録語認識における効率的探索手法
- サブワードネットワークに基づく未登録語処理を搭載したデコーダの構築
- 大語彙連続音声認識における未知語のsub-wordモデリング手法
- 編集距離を使った用例翻訳の高速検索方式と翻訳性能評価(自然言語)
- 大規模用例を用いた音声認識誤り訂正の検討
- 旅行会話基本表現コーパスを用いた認識誤り訂正の検討
- 旅行会話基本表現コーパスを用いた認識誤り訂正の検討
- 旅行会話基本表現コーパスを用いた認識誤り訂正の検討
- 中国語形態素コーパスと言語モデルの評価 : パラレルコーパスにおける日英両言語との比較
- 音声翻訳のための中国語対話コーパスの整備とその評価(マルチモーダル, コーパス・言語モデル)
- 音声翻訳のための中国語対話コーパスの整備とその評価(マルチモーダル, コーパス・言語モデル)
- 異種コーパスの組合せによるトリガー言語モデルの構築
- 異種コーパスの組合せによるトリガー言語モデルの構築
- 異種コーパスの組合せによるトリガー言語モデルの構築(言語モデル)(第6回音声言語シンポジウム)
- 異種コーパスの組合せによるトリガー言語モデルの構築(言語モデル)(第6回音声言語シンポジウム)
- 異種コーパスの組合せによるトリガー言語モデルの構築(言語モデル)(第6回音声言語シンポジウム)
- 信頼度尺度に基づく音声認識誤りの検出および誤り訂正(合成, 韻律, 生成, 一般)
- 単語適合率最大基準に基づく複数システムの統合
- 用例型構文解析による句構造情報を利用した言語モデル
- 木構造ネットワークサーチにおけるbigram factoringテーブルの削減
- 文クラスタリングによる複数言語モデルを用いた誤認識文の推定
- 大語彙連続音声認識における未知語のsub-wordモデリング手法
- 多様な雑音環境下での頑健な音声認識
- パターンマッチングに基づく発話意図同定のための重要語検出方法
- 講演音声の音響的特徴分析と音響モデル構築方法の検討
- 対話音声を対象とした連続音声認識システムの試作と評価
- 発話分割付実時間音声認識
- 旅行会話タスクにおけるTARSPRECの性能評価
- 異種言語知識の併用による文法的単語グラフ生成法
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- 大語い連続音声認識のための単語仮説数削減
- Delayed decisionビーム探索の検討
- 単語グラフと可変長N-gramを用いた大語彙自然発話音声認識
- 単語グラフを用いた自由発話音声認識
- 単語グラフを用いた自由発話音声認識
- 単語グラフを用いた連続音声認識法
- SPINE2プロジェクトのための単語間ポーズモデルによる耐雑音性に優れた音声認識
- SPINE2プロジェクトのための単語間ポーズモデルによる耐雑音性に優れた音声認識
- DARPA SPINEタスクのためのATR音声認識システム
- DARPA SPINEタスクのためのATR音声認識システム
- DARPA SPINEタクスのためのATR音声認識システム
- 言語情報を用いた教師なしのQuasi-Bayesオンライン話者適応
- 大規模日本語音声データベースの構築と評価
- SPINE2プロジェクトのための耐雑音性に優れたベースライン音響モデルの構築
- 音響特徴パラメータの相関を利用した音素継続時間長の正規化
- 離散HMMを用いた統計的な発音辞書(音声・音響処理)
- 離散HMMを用いた統計的な発音辞書(音声・音響処理)
- 位置依存単語クラスタと頻出単語列を用いた多重クラス複合3-gram言語モデル
- 品詞接続特性と単語接続特性の最大事後確率推定による融合に基づく単語クラス分類
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- 語彙クラスに依存した未登録語モデルに基づく統計的言語モデル
- 対話における相手話者の前発話に対する中間言語表現を利用した言語モデル
- 未登録語のクラス依存サブワードモデルを用いた音声認識
- 母音および無音のHMMを用いた音声始端検出法
- PARALLEL JAPANESE/ENGLISH SPEECH RECOGNITION IN ATRSPREC
- 日英音声翻訳システム「ATR-MATRIX」における音声認識部分の構造と制御方法
- 音節強調発声に頑健な自然発話音声の認識法
- 音節強調発音に頑健な自然発話音声の認識法
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- 接続の方向性を考慮した多重クラス複合N-gram言語モデル(音声情報処理 : 現状と将来技術論文特集)
- ゆう度基準による分析周期・窓長の自動選択手法を用いた発話速度の補正と音響モデルの構築
- 講演音声認識における発話速度の変動を考慮した音声認識手法
- 講演音声認識における発話速度の変動を考慮した音声認識手法
- 講演音声認識における発話速度の変動を考慮した音声認識手法
- スペクトルの時間変化量に基づく可変分析フレームを用いた発話スタイルの変動に頑健な音響モデルの構築
- 音節強調発声に頑健な自然発話音声の認識法
- TO EXPLOIT LONG HISTORY UNIT DEPENDENCIES BY LINKGRAM LANGUAGE MODELING
- 単語の長距離依存関係を表す言語モデル Linkgram
- 品詞クラスN-gramと単語N-gramの融合言語モデル
- 多重クラスN-gramによる効率的言語モデル表現
- 接続の方向性を考慮した多重クラスN-gramモデル