音声GMMと雑音重み推定を用いた雑音除去(雑音・VAD,第9回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では突発性の雑音除去について述べる.突発性の雑音は短時間しか起こらないため推定しにくいが,音声に混入することで音声認識率が下がることは多い.以前,我々はそれらの突発性雑音の検出と識別手法を提案した.本稿ではより多くの雑音を識別できるように拡張し,さらに音声GMMを用いた雑音の除去手法についても述べる.Seguraらによって提案されたGMMを利用した雑音除去法は加法性の雑音を精度よく除去できる.本稿においてもこの手法を利用するが,我々のタスクにおいては,識別された段階ではSNR(信号対雑音比)は未知であるため,除去時に使用する雑音のデータと実際に重畳している雑音はミスマッチを引き起こすことが多い.そこで我々はSeguraらのGMMによる雑音除去法にこのSNRの推定を雑音の重みという形で加え除去を行う.重み推定にはGMMの尤度が最も大きくなるようにEMアルゴリズムを用いる方法,GMMの混合ごとに尤度が最大になるように決める方法の2つを用いる.実験結果より比較的低SNRである5dB以下の雑音に対して認識率の改善が見られ,また重みの推定の効果も確認できた.
- 社団法人電子情報通信学会の論文
- 2007-12-13
著者
関連論文
- D-11-57 ウェーブレット変換を用いた学習型の超解像(D-11.画像工学,一般セッション)
- D-12-91 3次元パーティクルフィルタとEMDを用いた選手の追跡(D-12.パターン認識・メディア理解,一般セッション)
- 音声・映像認識連携への取り組み : 0.編集にあたって
- 階層的強化学習を適用したPOMDPによるカーナビゲーションシステムの音声対話制御(認識,理解,対話,一般)
- バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出(音声・言語・音響教育,一般)
- 音声・映像認識連携への取り組み : 3.画像と音声情報を統合した発話認識
- 基底の反復生成と教師ありNMFを用いた信号解析 (音声)
- 確率スペクトル包絡に基づくNMF基底生成モデルを用いた混合楽音解析
- 2-102 プログラミング相談室 : 全員の基礎スキルレベルアップのために((2)専門科目の講義・演習-I,口頭発表論文)
- D-12-70 階層的領域分割法に基づく木構造条件付確率場による一般物体認識(D-12.パターン認識・メディア理解,一般セッション)
- 階層的強化学習を適用したPOMDPによる音声対話制御 (音声)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- 音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討 (音声)
- 制約付き非負行列因子分解を用いた音声特徴抽出の検討(音声認識・音響モデル,第10回音声言語シンポジウム)
- 制約付き非負行列因子分解を用いた音声特徴抽出の検討(音声認識・音響モデル,第10回音声言語シンポジウム)
- 制約付き非負行列因子分解を用いた音声特徴抽出の検討(音声認識・音響モデル,第10回音声言語シンポジウム)
- 編集にあたって (小特集 音声・映像認識連携への取り組み)
- H-011 人物の顔画像情報に基づくコンテンツの解析(画像認識・メディア理解,一般論文)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- D-12-40 自動映像生成のためのパーティクルフィルタによるボールの追跡(D-12.パターン認識・メディア理解,一般講演)
- 単語出現順序を考慮したトピックモデルによる言語モデル適応(ポスターセッション,第10回音声言語シンポジウム)
- 韻律及び話者交代情報を用いたシステム要求検出(システム,第9回音声言語シンポジウム)
- 韻律及び話者交代情報を用いたシステム要求検出(システム,第9回音声言語シンポジウム)
- 韻律及び話者交代情報を用いたシステム要求検出(システム,第9回音声言語シンポジウム)
- D-14-17 固定カメラ映像からの音声情報を用いた映像コンテンツ生成(D-14.音声・聴覚,一般講演)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定 (信号処理)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定 (音声)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定 (応用音響)
- 音声認識との統合によるシステム要求検出(一般(ポスターセッション),第9回音声言語シンポジウム)
- 音声認識との統合によるシステム要求検出(一般(ポスターセッション),第9回音声言語シンポジウム)
- 音声認識との統合によるシステム要求検出(一般(ポスターセッション),第9回音声言語シンポジウム)
- 音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討(音声・音響一般,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 階層的強化学習を適用したPOMDPによる音声対話制御(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 階層的強化学習を適用したPOMDPによる音声対話制御(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 基底の反復生成と教師ありNMFを用いた信号解析(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 基底の反復生成と教師ありNMFを用いた信号解析(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 音声の動的特徴のモデルを使った突発性雑音の除去(ポスターセッション,第10回音声言語シンポジウム)
- 音声の動的特徴のモデルを使った突発性雑音の除去(ポスターセッション,第10回音声言語シンポジウム)
- 音声の動的特徴のモデルを使った突発性雑音の除去(ポスターセッション,第10回音声言語シンポジウム)
- 音声GMMと雑音重み推定を用いた雑音除去(雑音・VAD,第9回音声言語シンポジウム)
- 音声GMMと雑音重み推定を用いた雑音除去(雑音・VAD,第9回音声言語シンポジウム)
- 音声GMMと雑音重み推定を用いた雑音除去(雑音・VAD,第9回音声言語シンポジウム)
- Multi-class AdaBoostを用いた雑音検出(第8回音声言語シンポジウム)
- Multi-class AdaBoostを用いた雑音検出(Session-1 検出,第8回音声言語シンポジウム)
- Multi-class AdaBoostを用いた雑音検出(Session-1 検出,第8回音声言語シンポジウム)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定(情報アクセス(オーガナイズドセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定(情報アクセス(オーガナイズドセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定(一般,音声・音響信号処理,音声及び一般)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定(一般,音声・音響信号処理,音声及び一般)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定(一般,音声・音響信号処理,音声及び一般)
- Bag of Grammarを用いたドメイン依存性の少ないWhyテキストセグメント識別器の自動構築法(データ工学,Web情報システム)
- CSP係数の識別に基づく話者の頭部方向推定の検討(アプリケーション,認識,理解,対話,一般)
- 確率スペクトル包絡を用いた混合音解析における制約付きスペクトル生成法の検討(ロバスト音声認識,認識,理解,対話,一般)
- 未知語とその周辺単語の音声認識誤りを考慮したCRFによる音声認識誤り訂正(話者照合・音声認識,第13回音声言語シンポジウム)
- グラフ構造表現による一般物体認識(テーマセッション,実世界文字認識と理解)
- 未知語とその周辺単語の音声認識誤りを考慮したCRFによる音声認識誤り訂正(話者照合・音声認識,第13回音声言語シンポジウム)
- マルチモーダル情報を用いた未知物体検知手法(一般セッション,人の視聴覚情報処理とPRMUの接点)
- マルチモーダル情報を用いた未知物体検知手法(一般セッション,人の視聴覚情報処理とPRMUの接点)
- 音響モデル合成を用いた単一マイクによる2話者位置推定(音声,聴覚,学生論文)
- H-013 3次元特徴量を用いた構造表現による一般物体認識(一般物体認識,H分野:画像認識・メディア理解)
- 辞書選択型非負値行列因子分解による構音障害者の声質変換
- 単眼サッカー映像における時間状況グラフを用いた選手追跡(画像・映像解析,画像の認識・理解論文)
- Sparse Codingを用いた唇情報からの音声変換(ポスターセッション)
- 音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間(音声分析)
- マルチモーダル情報を用いた未知物体検知手法
- マルチモーダル情報を用いた未知物体検知手法
- 音響モデル合成を用いた単一マイクによる2話者位置推定