音素弁別特徴を用いた頑健な対話音声認識 : モーラ単位サブワードモデルの検討(認識・理解・対話)
スポンサーリンク
概要
- 論文の詳細を見る
汎用LVCSRエンジンの言語制約を緩め0-gramとすることで,対話音声中のキーワードを高い精度で検出する方式を研究している.これまでに,音素弁別特徴(DPF)を利用したキーワードスポッティングを提案し,道案内タスク対話音声中のキーワード検出実験により,置換・脱落・付加誤りの少ない方式であることを報告した.今回は,(a)DPFが混同行列(CM)に比較して音響環境の変化に頑健であること,(b)LVCSRエンジンの登録辞書は,20k辞書中の3モーラまでの単語(同音異義語含む)で,20k辞書(0-gram)と同等の性能が得られることを実験結果から示す.同時に,3モーラまでの異なり語のみを用いた実験結果(低い性能に留まった)と(b)の比較から,(c)同音異義語の存在が頻度情報として認識時に有効に働いていることを指摘し,3モーラ単語の頻度情報を3モーラのサブワード言語モデル(1-gram)として採用することで,キーワード検出性能が大きく向上することを示す.
- 2003-05-22
著者
-
桂田 浩一
豊橋技科大
-
福田 隆
豊橋技科大
-
山田 博文
豊橋技術科学大学
-
福田 隆
豊橋技術科学大学大学院工学研究科
-
桂田 浩一
豊橋技術科学大学
-
新田 恒雄
豊橋技術科学大学
-
伊勢路 真吾
豊橋技術科学大学 大学院工学研究科
関連論文
- マルチモーダル情報処理の研究動向(マルチモーダル)
- 幼児エージェントにおけるバイアスの形成と言語の構造化
- Suffix Arrayを用いた音声文書の高速検索
- ウェブブラウザ上で動作可能なマルチモーダル対話システム(プラットフォーム)
- 音声対話技術コンソーシアム(ISTC)の活動成果報告(SIG-SLP内組織の活動報告)
- 2ZJ-6 動画視聴時の注目点を考慮した動画推薦方法の提案(人間行動,障害等支援,学生セッション,コンピュータと人間社会)
- 3ZA-7 デフォルメ地図の地上座標系へのマッピングを利用した現地情報提供システム(ITSネットワーク・地図情報,学生セッション,ネットワーク)
- DS-2-5 共有信念に基づく発話場面の推定(DS-2. 共生コンピューティング,シンポジウムセッション)
- DS-1-11 Cellプロセッサを用いた音声検索エンジンの高速化(DS-1. COMP-NHC学生シンポジウム,シンポジウムセッション)
- 音声対話システムと質問応答システムの連携による質問応答対話の実現と対話シナリオの検討
- 生徒の検索情報を利用した講義の重要語抽出
- 幼児の学習バイアスを利用したエージェントによる語意学習の効率化
- 語彙学習エージェントにおけるバイアスの自律調整について
- 因果性に基づく信念形成モデルとN本腕バンディット問題への適用
- マルチモーダル対話システムのための階層的アーキテクチャの提案
- 重要語句に対する関連スライド群抽出法の検討(オープンソースソフトウェアの教育利用/一般)
- 講義情報を用いた自主学習支援システムの構築
- エージェントによる語意学習効率化のための対話戦略獲得
- Agent-Agent 対話により獲得した戦略に対する人間-Agent 対話からの実験評価
- 語意自動獲得における学習バイアスの効果
- 調音運動HMM音声合成における調音特徴--声道パラメータ変換と音源の改良 (音声)
- 調音運動HMM音声合成における調音特徴--声道パラメータ変換と音源の改良 (言語理解とコミュニケーション)
- 調音運動HMM音声合成における調音特徴-声道パラメータ変換と音源の改良
- InfantAgents間相互対話による対話戦略の自動獲得 (テーマ:「e-Learningとインタラクティブ技術--音声言語処理・対話技術の教育への応用と展開」および一般)
- 静的・動的情報を利用したMMIシステムの設計と実装(検索・対話)
- 受講情報を利用した学習支援機能付き講義再現システムの開発(遠隔教育/一般)
- 音素弁別特徴間距離に基づくキーワード検出における音節単位サブワードモデルの検討(ポスターセッション)(第5回音声言語シンポジウム)
- 音素弁別特徴間距離に基づくキーワード検出における音節単位サブワードモデルの検討(第5回音声言語シンポジウム : ポスターセッション)
- 音素弁別特徴間距離に基づくキーワード検出における音節単位サブワードモデルの検討(第5回音声言語シンポジウム : ポスターセッション)
- 音素弁別特徴を用いた頑健な対話音声認識 : モーラ単位サブワードモデルの検討(認識・理解・対話)
- 階層型アーキテクチャに基づいたWebベースMMIシステムの開発(一般セッション,クロスモーダル)
- 階層型アーキテクチャに基づいたWebベースMMIシステムの開発(一般セッション,クロスモーダル)
- 階層型アーキテクチャに基づいたWebベースMMIシステムの開発(一般セッション,クロスモーダル)
- 階層型アーキテクチャに基づいたWebベースMMIシステムの開発(一般セッション,クロスモーダル)
- マルチモーダル対話作成支援ツールGalatea-IBの機能強化
- 大規模音声ドキュメントを対象とした高速キーワード検索システムとその評価
- 1U-10 調音特徴に基づく音素単位での英語発音誤り検出と発音評価(音声分析・強調,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- AAMを利用した表情成分抽出に基づく表情模倣システム(テーマ関連,顔・人物・ジェスチャ・行動)
- AAMを利用した表情成分抽出に基づく表情模倣システム(テーマ関連,顔・人物・ジェスチャ・行動)
- 英語発音学習のための調音特徴抽出と発音評価
- 階層的MMIアーキテクチャに基づくプラットフォーム実装方法の検討
- 調音運動HMMに基づくワンモデル音声認識合成
- Suffix Arrayを用いた高速なキーワード検索
- 5U-2 柔軟なモジュール切替が可能なWebベースMMIシステムの開発(音声インタフェース・システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 4Y-5 AAMを利用した表情の模倣(顔・人物画像処理(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 形容詞/名詞の分化と典型的事例の自己組織化に関する構成論的モデル
- 幼児エージェントにおけるバイアスの形成と言語の構造化(セッション4)
- 非言語情報および言語情報を利用した講義スライドの重要度自動判定
- E-039 MMI6階層モデルに準拠したWebベースMMIシステムの開発(自然言語・音声・音楽,一般論文)
- Online-EMによる語意学習機構と学習バイアスの適用(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- Online-EMによる語意学習機構と学習バイアスの適用(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- Online-EMによる語意学習機構と学習バイアスの適用(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- 人間とロボットが混在する対話空間の構築を目指して : 共通概念獲得方法の検討(テーマセッション(2), ロボットとの相互作用のための言語処理・パターン認識・メディア理解)
- 人間とロボットが混在する対話空間の構築を目指して : 共通概念獲得方法の検討(テーマセッション(2), ロボットとの相互作用のための言語処理・パターン認識・メディア理解)
- 生得的学習バイアスを適用したInfant Agentによる概念獲得([特別セッション]音声言語獲得・学習技術(1))
- 幼児エージェントによるバイアスの形成と言語獲得過程におけるその効果(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 幼児エージェントによるバイアスの形成と言語獲得過程におけるその効果(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 幼児エージェントによるバイアスの形成と言語獲得過程におけるその効果(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- キーワード検出に基づく対話音声認識用言語モデルの比較
- 異なる端末環境から利用可能なMMIアプリケーション開発における記述負担の軽減(対話(1))(第6回音声言語シンポジウム)
- 意味属性を利用したクラスN-gram言語モデルの評価(言語モデル)(第6回音声言語シンポジウム)
- 異なる端末環境から利用可能なMMIアプリケーション開発における記述負担の軽減(対話(1))(第6回音声言語シンポジウム)
- 異なる端末環境から利用可能なMMIアプリケーション開発における記述負担の軽減(対話(1))(第6回音声言語シンポジウム)
- 意味属性を利用したクラスN-gram言語モデルの評価(言語モデル)(第6回音声言語シンポジウム)
- 意味属性を利用したクラスN-gram言語モデルの評価(言語モデル)(第6回音声言語シンポジウム)
- G-001 同一アプリケーションを異なる端末から利用する際のMMI記述における再利用性の向上(G.音声・音楽)
- E-004 Webページに対するRDFメタデータ付与支援ツール開発(E.自然言語・文書・ゲーム)
- MMIシステムにおける意味解釈と統合に関する記述方法の提案
- 音素弁別特徴間距離に基づくキーワード検出における音節単位サブワードモデルの検討
- MMI記述言語XISLの提案(マルチモーダル)(「インタラクション:理論,技術,応用,評価」)
- マルチモーダル対話作成支援ツール Galatea-IB の機能強化
- 多様な端末からのアクセスが可能なOLSシステムの実装
- マルチモーダル対話のためのプロトタイピングツールの検討
- InfantAgents間相互対話による対話戦略の自動獲得 (テーマ:「e-Learningとインタラクティブ技術--音声言語処理・対話技術の教育への応用と展開」および一般)
- Infant Agents 間の対話による概念獲得と対話戦略が与える影響
- 階層型アーキテクチャに基づいた Web ベースMMIシステムの開発
- CS-9-1 スマートクラスルーム : インテリジェントヒューマンセンシングによる(CS-9. センサネット: エレクトロニクスと情報技術の融合, エレクトロニクス2)
- マルチモーダル対話システムにおけるユーザ環境情報の利用(マルチモーダル, コーパス・言語モデル)
- マルチモーダル対話システムにおけるユーザ環境情報の利用(マルチモーダル, コーパス・言語モデル)
- 概念学習を効率化するための対話戦略とその獲得([特別セッション]音声言語獲得・学習技術(1))
- 音素弁別特徴ベクトルを利用した自由発話音声認識における距離補正の役割
- 汎用LVCSRを用いた対話音声の認識について
- MMI記述言語の標準化動向とXISLの対応について
- Winkler,I.,Denham,S.L.and Nelken,I.:Modeling the auditory scene:predictive regularity representations and perceptual objects(聴覚情景のモデル化:予測規則性の表現と知覚オブジェクト),Trends in Cognitive Sciences,Vol.13,No.12,pp.532-540(2009)
- 調音運動に基づくワンモデル音声認識合成方式(合成,認識,理解,対話,一般)
- 調音特徴抽出に基づくIPAチャートへの英語発音リアルタイム表示
- 調音特徴抽出に基づくIPAチャートへの英語発音リアルタイム表示 (音声)
- 4-3 マルチモーダル対話システム基盤技術とその応用(4.人間の活動を支援する応用技術,人間を理解するためのICT技術-人間を対象としたセンシング・情報処理からその応用まで-)
- Suffix Arrayを用いた高速STDにおけるキーワード分割に関する理論的検討(ポスターセッション,第13回音声言語シンポジウム)
- Suffix Arrayを用いた高速STDにおけるキーワード分割に関する理論的検討(ポスターセッション,第13回音声言語シンポジウム)
- 発音訓練のための調音特徴に基づくIPA母音図へのリアルタイム表示(ポスターセッション,第13回音声言語シンポジウム)
- 発音訓練のための調音特徴に基づくIPA母音図へのリアルタイム表示(ポスターセッション,第13回音声言語シンポジウム)
- 最適な状態構造における調音運動に基づいた高精度な音素認識(ポスターセッション,第13回音声言語シンポジウム)
- 最適な状態構造における調音運動に基づいた高精度な音素認識(ポスターセッション,第13回音声言語シンポジウム)
- Active Appearance Modelsを用いた表情合成におけるパラメータ探索法の改良(一般セッション,時系列パターン認識)
- Active Appearance Modelsを用いた表情合成におけるパラメータ探索法の改良(一般セッション,時系列パターン認識)
- 顔領域の違いが読話性能に与える影響について (音声)
- 顔領域の違いが読話性能に与える影響について (パターン認識・メディア理解)
- 顔領域の違いによる読話認識性能比較(ポスターセッション,第13回音声言語シンポジウム)
- 顔領域の違いによる読話認識性能比較(ポスターセッション,第13回音声言語シンポジウム)