擬似単語モデルによる非言語音声の認識(言語の統計モデル)
スポンサーリンク
概要
- 論文の詳細を見る
従来の音声認識では、咳やくしゃみ、あくびのような非言語音または非音声音は、誤認識を引き起こす雑音として扱われて来た。しかし、自然な音声対話を実現する場合、このような音情報も積極的に利用すべきである。このような非言語音声を検出する方法としては、対象音の音響信号的な特徴を用いた信号処理的アプローチや、対象音から学習したHMMを用いる音声認識的アプローチなどがあるが、対象音の多様性に対処するためには、いずれも多量のデータが必要となる。そこで本研究では、対象となる非言語音声を音素系列で近似表現した疑似単語モデルを提案する。このモデルは、音素認識の結果得られる音素系列をクラスタリングし、上位クラスターの中心となる音素列パターンを非言語音声の近似的な発音とするというものである。提案手法の有効性を確認するために、咳及び咳払いを対象として、音声認識実験を行い、咳/咳払いの波形を学習データとしたHMMを用いる手法と比較して、認識正解率、認識精度が改善されることを示した。
- 社団法人電子情報通信学会の論文
- 2005-07-16
著者
関連論文
- FSA言語モデルの自動構築と動的代替パスサーチによる音声認識(音声認識技術)
- 4B-5 類似音素行列を用いた音声認識結果とキャプション文字列との自動対応付けに関する検討(Webデザイン技術,一般セッション,データベースとメディア)
- スペクトラルクラスタリングに基づくニューストピック適応言語モデルの構築
- ロバストな顔検出のための肌色正規化
- ロバストな顔検出のための肌色正規化(高精細画像の処理・表示,及び一般)
- Web上の類似記事自動収集による音声認識用言語モデルの適応と学習用ニュース記事コーパスの分析
- Spectral Clusteringを用いた企業アンケートからのモデルコースの抽出
- N_030 Spectral Clusteringを用いた企業アンケートからのモデルコースの抽出(N分野:教育・人文科学)
- G_014 中規模語彙を対象とした音声認識システム用のFSA言語モデルの自動獲得(G分野:音声・音楽)
- G_013 Web上の類似記事自動収集によるニューストピック適応言語モデル(G分野:音声・音楽)
- クラスタリングとDPマッチングによるネットワーク文法の自動生成
- 音源方向と顔画像による話者検出
- ニュース映像検索システムのための索引語の自動抽出
- 擬似単語モデルによる非言語音声の認識(言語の統計モデル)
- 擬似単語モデルによる非言語音声の認識(言語の統計モデル)
- D-14-20 発話中からの咳払いの検出(D-14. 音声・聴覚, 情報・システム1)
- 旅行会話文対訳コーパスからの音声翻訳用言語モデルの自動抽出
- 音声対話処理のための素性構造単一化処理
- 健康管理支援対話システムのための咳検出方法の検討
- 在宅健康管理システムのための対話システム
- 電子情報工学科における企業アンケートの実施について
- 8C42 在宅健康管理システムとそのヒューマンインターフェース
- 高齢者のための在宅健康管理支援システム
- 在宅健康管理のための音声対話システム
- 定型文音声翻訳実験システム
- 文脈自由文法モデルを用いた複数の軌跡の同時検出
- 文脈自由文法モデルに基づく複数の軌跡を同時検出するアルゴリズムの検討
- 未知の遅延・位相差を伴う軌跡群の同時検出
- 位相のずれを伴う軌跡群の同時検出
- 雑音画像中の多元信号軌跡の解析
- Rubber Stringマッチングを用いた雑音画像中の輪郭線の検出
- 雑音画像中の多元時間信号軌跡解析言語システム
- 雑音画像中の多元時間信号軌跡解析言語システム
- 表層表現パターンを用いた対話構造の認識
- 対話構造を考慮した次発話予測手法の検討
- 対話構造の定量的評価
- 対話のインタラクション構造と話題の認識
- 情報科学から活火山データベースを考える (総特集 九州の活火山データベースを考える)
- 深さ優先探索とスタックの利用を学習するCSアンプラグド教材の試作
- 漸次的に単語部分木を出力する音声認識システム
- K-036 人の動線情報収集システムを題材としたソフトウェア・ハードウェア同時設計による研究開発型PBLの評価(教育工学(1),K分野:教育工学・福祉工学・マルチメディア応用)
- P26 火山地質情報データベースの構築とその応用(ポスターセッション)
- E-022 字幕文字列自動対応付けのための連語Ngram音声認識に関する検討(音声言語処理,E分野:自然言語・音声・音楽)
- D-5-7 Web日本語Nグラムを用いた連語表現の選定方法の検討(D-5.言語理解とコミュニケーション)
- E-034 漸次的な発話理解のための単語部分木を出力する音声認識システム(E分野:自然言語・音声・音楽)