音声と騒音の密度比推定を用いた音声区間検出法(音声入力・区間検出,認識,理解,対話,一般)
スポンサーリンク
概要
- 論文の詳細を見る
本報では,密度比モデルを用いた頑健な音声区間検出法を提案する.高騒音下での音声区間検出には,尤度比を用いる手法(Likelihood ratio test, LRT)が有効である.従来のLRTでは,音声と騒音のモデルを構築し,それぞれの尤度を計算したのちに,それらのモデルの尤度の比を計算し音声区間を検出する.ここには2点の課題がある.1点目は,LRTにおいては,音声と騒音のモデルの尤度比が必要とされているのであり,それぞれの尤度は必要ないことが考慮されていない点てある.提案法では音声と騒音の尤度を算出することなく,得られた密度比モデルにより直接尤度比を計算する.2点目は,閾値の決定の問題である.閾値は音声・非音声の判断に使われ,音声区間検出の性能に大きな影響を与える.われわれはクラスタリング分析の手法を用いて,閾値を自動決定する手法を提案する.実験の結果,提案法は従来法に比べて,特に非定常性の騒音下で有効であることが示された.また,騒音の特徴に応じて自動的に閾値が定められることを示した.
- 一般社団法人電子情報通信学会の論文
- 2012-07-12
著者
-
花沢 利行
三菱電機(株)情報技術総合研究所
-
太刀岡 勇気
三菱電機株式会社情報技術総合研究所
-
花沢 利行
三菱電機株式会社情報技術総合研究所
-
成田 知宏
三菱電機株式会社情報技術総合研究所
-
石井 純
三菱電機株式会社情報技術総合研究所
関連論文
- カーナビゲーション向け音声認識の新たな展開 (特集 次世代の車づくりに貢献する先進技術)
- 拡散音場理論に基づく残響環境下音声認識 (信号処理)
- 拡散音場理論に基づく残響環境下音声認識 (応用音響)
- D-14-16 音素脱落を許す単語モデルを用いた日本人英語の認識
- VQ写像を用いた2入力SSによる非定常騒音下の音声認識
- HMMと一般化LR構文解析を用いた実時間大語彙連続音声認識装置の実現
- 40121 局所作用を仮定した垂直入射吸音率と残響室法吸音率の関係 : FDTD法による残響室の数値解析(音場解析(2),環境工学I)
- 拡散音場理論に基づく残響環境下音声認識(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 拡散音場理論に基づく残響環境下音声認識(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 拡散音場理論に基づく残響環境下音声認識(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- HMM-LR音声認識システムの性能評価
- Hidden Markov モデルによる日本語有声破裂音の認識
- CIP法による時間領域音場解析に関する研究(優秀修士論文賞推薦理由,2008年日本建築学会優秀卒業論文賞・日本建築学会優秀修士論文賞)
- D-14-8 車室内における音声認識向け騒音抑圧手法の比較(D-14. 音声,一般セッション)
- D-14-13 音響モデルの正規化パワーを考慮した騒音下音声認識の検討(D-14. 音声・聴覚, 情報・システム1)
- D-14-13 学習データ量の年代別偏りを考慮した音響モデル構築方式の検討(D-14. 音声・聴覚)
- D-14-12 車室内で発生する規則性非定常騒音下での音声認識
- VQ写像を用いた2入力SSによる非定常騒音下音声認識の検討 - 自動車内走行騒音への適用 -
- D-14-21 音声認識における特徴ベクトルの補間及びフレーム間引き手法の検討
- 音声認識技術の変遷
- D-14-10 N-gram言語モデルを用いた音声対話システムにおける冗長語処理の検討
- タスクの例文を用いた自由発話音声認識のための言語モデルの構築
- SD-3-3 N-gramモデルを用いた音声対話システムのための音声認識の検討
- D-14-20 音声対話システムにおける少量テキストを用いた言語モデルのタスク適応に関する検討
- 自由発話音声認識のためのトライ音節モデルの検討
- 音声対話システムにおける教師なし話者適応の検討
- 音声対話システムにおける湧き出し誤りのリジェクト方式の検討
- 認識結果の信頼度を考慮した教師無し話者適応方式の検討
- D-14-7 符号化データを用いた音声認識方式の検討
- D-14-4 連続音声認識における音節継続時間情報を用いた演算量削減(D-14.音声・聴覚,一般講演)
- D-14-6 統計言語モデルを用いた連続音声認識における単語グループ間バイグラムの削減(D-14.音声・聴覚,一般講演)
- 音声認識技術
- 音声認識技術とその応用 (特集 IT時代のヒューマンインタフェース技術)
- ピッチパタンの統計モデルに基づく句境界情報を利用した文節スポッティング
- 単語リジェクト方式のキーワードスポッティングによる評価
- D-14-7 必須形態素の検証によるテキスト検索の改善(D-14.音声,一般セッション)
- 拡散音場理論に基づく残響環境下音声認識
- 拡散音場理論に基づく残響環境下音声認識
- 小規模マイクロホンアレーを用いた音声認識のための雑音除去(オーガナイズドセッション,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 文節スポッティングにおける未知語検出方式の改良
- 自由発話音声における音韻の変形傾向を考慮した音響モデル構成法の検討
- 文節スポッティングにおける未知語処理方式の検討
- 意味主導型音声理解システムのための文節スポッティングの改良
- ベクトル量子化話者適応のHMM音韻認識への適用
- 音声検索技術とその応用 (特集 ヒューマンインタフェースを支える先端技術 : 新たな価値創造に向けて)
- 音声と騒音の密度比推定を用いた音声区間検出法 (音声)
- D-9-34 単語間の連接情報を用いた階層入力方式(D-9.ライフインテリジェンスとオフィス情報システム,一般セッション)
- A-11-1 超音波センサの指向性と強度比を利用した開口合成画像からの虚像除去(A-11.超音波,一般セッション)
- 音声と騒音の密度比推定を用いた音声区間検出法(音声入力・区間検出,認識,理解,対話,一般)
- 小規模マイクロホンアレーを用いた車室内音声認識のための雑音除去(音声,聴覚)
- D-12-1 領域内の最適化に基づく文字列抽出手法(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成))
- D-12-2 文字認識処理におけるガベージデータを考慮した特徴次元圧縮法(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成))
- D-14-6 発話スイッチレス音声認識のためのサブワード言語モデルによる尤度検証(D-14.音声)
- 騒音環境下音声認識に対する識別的アプローチの有効性 : 第2回CHiMEチャレンジ(雑音対策,認識,理解,対話,一般)
- D-14-5 外耳道孔装着マイクを用いた音声認識(D-14.音声)
- A-10-1 騒音中の異音検出におけるスペクトログラム統計量の比較(A-10.応用音響)
- 音声と騒音の密度比推定を用いた音声区間検出法
- A-4-6 2値マスクと独立ベクトル分析を併用したセミブラインド音源分離(A-4.信号処理,一般セッション)