複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定(音声, 聴覚)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,音声認識結果の正解部分と誤り部分を分離することを目的として,複数の音声認識システムによる認識結果のうち複数のシステムの間で共通となっている部分を用いる方法を提案し,その有効性を示す.具体的には,大語彙(い)日本語連続音声認識において,デコーダ,音響モデル,言語モデル,音響/言語スコアの重み,挿入ペナルティなど,様々な設定が少しずつ異なっている二つの大語彙連続音声認識モデルによる認識結果について,その共通部分が正解となっている割合を測定することにより,二つの大語彙連続音声認識モデルによる認識結果の共通部分の信頼度を評価する.新聞読上げ音声及びニュース音声を対象として,2種類のデコーダを用いて行った評価実験の結果では,デコーダ及び音響モデルが異なる二つの大語彙連続音声認識モデルについて,認識結果の共通部分の信頼度を評価したところ,非常に高い性能が達成された.また,同一のデコーダを用いた場合にも,音響モデルの特徴の違いと信頼度との相関を網羅的に評価することにより,デコーダが異なる場合の性能をやや下回るものの,ほぼそれに匹敵する性能を達成した.特に,混合連続分布HMMに基づく音響モデルの場合では,無音モデルの有無,音響モデルの種類(トライフォンや音節モデルなど)の違いといった特徴が高い信頼度に寄与していることがわかった.
- 社団法人電子情報通信学会の論文
- 2003-07-01
著者
-
中川 聖一
豊橋技術科学大学
-
宇津呂 武仁
筑波大 大学院システム情報工学研究科
-
小玉 康広
ソニー株式会社
-
宇津呂 武仁
京都大学大学院情報学研究科
-
西崎 博光
豊橋技術科学大学工学部情報工学系
-
小玉 康広
豊橋技術科学大学
関連論文
- 長時間分析に基づく位相情報を用いた音声認識の検討 (音声)
- SLP音声ドキュメント処理ワーキンググループ活動報告(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 1987年音響・音声・信号処理国際会議(ICASSP 87)
- 文字コードに依存しない情報検索の実現
- 中間言語を用いたインドネシア語-日本語対訳辞書の拡充
- 非頻出語に対して頑健な日本語固有表現の抽出(語彙・固有表現・同義語)
- ワードスポッティング法を用いた文脈自由文法制御フレーム同期型HMM連続音声認識法
- ニュース番組における字幕生成のための文内短縮による要約
- 3W-5 ニュース音声の認識結果を用いた要約による字幕生成
- 連続出力分布型HMMによる日本語音韻認識
- 認識結果の正解確率に基づく信頼度のリジェクション(音声情報処理 : 現状と将来技術論文特集)
- スペクトルサブトラクションと時間方向スムージングを用いた雑音環境下音声認識
- 認識結果の正解確率に基づく信頼度とリジェクション
- スペクトルサブトラクションを用いた雑音環境下音声認識における時間方向スムージングと分析窓長増加の効果
- スペクトルサブトラクションを用いた雑音環境下音声認識における時間方向スムージングの効果
- E-055 VADが音声認識性能に与える影響(E分野:自然言語・音声・音楽)
- 長時間分析に基づく位相情報を用いた音声認識の検討(認識,理解,対話,一般)
- Hidden Conditional Neural Fieldsを用いた音声認識における目的関数と階層的音素事後確率特徴量の検討
- 重要文抽出に基づく講義音声の自動要約
- Hidden Conditional Neural Fieldsを用いた音声認識の検討
- 複数の対話エージェントを扱う音声対話システムの構築と評価
- 距離付きn-gramインデックスによる認識誤りと未知語に頑健な高速検索法
- NTCIR-9 SpokenDoc: 音声検索語検出と音声ドキュメント検索の評価枠組の設計
- 自動車内情報システムインタフェース制御のための運転過負荷状態の検出
- 音声中の検索語検出のためのテストコレクション構築 : 中間報告
- SLP音声ドキュメント処理ワーキンググループ活動報告(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- SLP音声ドキュメント処理ワーキンググループ活動報告(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- Spoken Term Detectionのためのテストコレクション構築とベースライン評価
- 複数の対話エージェントを扱う音声対話システムの開発
- DI-1-1 音声処理技術の新たな展開(DI-1. メディア情報技術の新たな展開:音声・言語・画像技術はどう拡大・発展するのか、どう融合するのか,依頼シンポジウム,ソサイエティ企画)
- 音声に含まれるプライバシ情報の保護(センシングウェブ)
- フィラー予測モデルに基づく話し言葉言語モデルの構築
- 日本語講義音声コンテンツコーパスの作成と分析
- 特集「音声ドキュメント処理」の編集にあたって
- 位相情報を利用した話者識別・照合法の評価(ポスターセッション,第10回音声言語シンポジウム)
- 位相情報を利用した話者識別・照合法の評価(ポスターセッション,第10回音声言語シンポジウム)
- 1992年音声言語処理国際会議
- 非頻出語に対して頑健な日本語固有表現の抽出(語彙・固有表現・同義語)
- フィラーの書き起こしのないコーパスからのフィラー付き言語モデルの構築(話し言葉処理)
- 機械学習を用いた日本語機能表現のチャンキング
- 日本語複合辞用例データベースの作成と分析(自然言語,情報処理技術のフロンティア)
- 誤認識に対処した自然で効率的な音声対話戦略の評価(音声対話・セグメンテーション)
- 誤認識に対処した自然で効率的な音声対話戦略の評価(音声対話・セグメンテーション)
- 講義音声ドキュメントのコンテンツ化と視聴システム(教育システムにおけるプラットホームとコンテンツ開発論文)
- 講義音声自動要約のための重要文手がかり表現の自動抽出(学生セッション II)
- 講義音声自動要約のための重要文手がかり表現の自動抽出(学生セッション II)
- 講義音声認識における収録装置とケプストラム正規化法の検討(第8回音声言語シンポジウム)
- 講義音声認識における収録装置とケプストラム正規化法の検討(Session-6 音声認識,第8回音声言語シンポジウム)
- 講義音声認識における収録装置とケプストラム正規化法の検討(Session-6 音声認識,第8回音声言語シンポジウム)
- 講義音声認識における収録装置とケプストラム正規化法の検討
- 講義音声の認識・要約・インデックス化の検討(要約・分割)
- Trigram・4-gramと文脈依存音響モデルを用いた1パス大語彙連続認識アルゴリズムとその高精度化(認識・理解・対話・一般)
- 誤認識の修復のための自然で効率的な音声対話戦略
- D-14-9 音響特徴を用いた対システム発話と対人間発話の識別(D-14.音声・聴覚,一般講演)
- 発話位置依存CMNとマルチマイクロフォンアレイ処理の併用による遠隔発話の音声認識(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 複数の雑音抑圧手法の統合に基づく雑音下音声認識(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 位相情報を利用した話者識別・照合法の評価(ポスターセッション,第10回音声言語シンポジウム)
- 重要文の連続性を考慮した講義音声の自動要約(チャンキング・要約)
- セグメント単位入力HMMによる雑音環境下での音声認識
- 発話スタイルによる話速・音韻間距離・ゆう度の違いと音声認識性能の関係(音声情報処理 : 現状と将来技術論文特集)
- HMMに基づく音声認識のための音節モデルとtriphoneモデルの比較
- SP2000-18 発話間のVQ歪みを用いたオンライン話者交替識別と話者クラスタリング
- 話速・音韻間距離・尤度と音声認識性能の関係
- 音節モデルによる連続音声認識の性能の検討
- STRAIGHTによるスペクトル包絡特性を用いた連続音節認識
- 雑音重畳音声のフレーム間相関と音声認識性能に関する考察
- 音声知覚実験による音声認識モデル単位の検討
- HMMを用いた英単語音声からの強勢音節の自動検出とそれに基づく発音能力の韻律的評定
- HMMを用いた英単語音声からの強勢音節検出と発音の韻律評価
- ニュース文の音声要約のための韻律情報の利用
- 音素モデルに基づく中国語連続音声認識システムの性能評価
- 日本人の英語発音の評価法
- 文字コードに依存しない情報検索の実現
- 表層的言語情報と韻律情報を用いた講演音声の重要文抽出
- 係り受け関係を用いた重複表現削除
- テレビニュース番組の字幕作成のための重複部削除による要約
- 音声対話に基づく知的情報検索システム
- 音声中の検索語検出のためのテストコレクション構築 -中間報告-
- 日英報道記事からの訳語対応推定 : ターム頻度と訳語対応推定性能の相関の評価(情報抽出・翻訳知識獲得)
- フォーム型Web情報検索サービスのための音声ユーザインタフェースシステムと操作性の評価(ユーザインタフェース)
- 1990年音響・音声・信号処理国際会議(ICASSP 90)報告
- ニューラルネットワークによる確率密度関数・事後確率の推定と母音認識
- 固定長セグメントの統計量を用いたHMMによる音節認識
- 英語CALL構築を目的とした日本人及び米国人による読み上げ英語音声データベースの構築(第二言語学習とその支援に関する教育工学研究)
- 音声言語処理技術を用いた語学学習システム
- 人間の理解手法を用いたロバストな音声対話システム
- 音声対話システムにおけるN-best文認識結果の一利用法
- ロバストな対話システム構築に関する一考察
- 音声対話システムにおける自然発話の頑健な一理解法
- 事前説明によるシステムへの入力発話の変化と誤認識結果の人間による復元
- 事前説明によるシステムへの入力発話の変化と誤認識結果の人間による復元
- 自然発話の意味理解と対話システム
- SPOJUS-SYNOに基づく中国語連続音声認識システム
- 連続出力分布型HMMの話者適応化による日本語音韻・音節認識
- 字幕・副音声付きテレビニュース放送を利用可能な語学学習教材作成システムとリスニング教材プレイヤー(第二言語学習とその支援に関する教育工学研究)
- 日本人英語音声とネイティブ英語音声の強勢等時性の自動評価法
- 表層的言語情報と韻律情報を用いた講演音声の要約と評価
- テレビニュース放送を利用した語学学習システムの評価
- 字幕付きテレビニュース放送を素材とした語学学習教材作成システム
- 表層情報と韻律情報を利用した講演音声の要約