GMMに基づく音声信号推定法と時間領域SVDに基づく音声強調法の併用による雑音下音声認識(音声, 聴覚<小特集>情報論的学習理論論文)
スポンサーリンク
概要
- 論文の詳細を見る
本研究では, GMMに基づく音声信号推定法と, 時間領域SVDに基づく音声強調法を併用した雑音に頑健な音声認識手法を提案する.従来のGMMに基づく音声信号推定法には, 雑音の時間変動を考慮していないという問題と, 低SNR環境での性能劣化という問題があった.1点目の問題に関して本研究では, 雑音の時間変動に追随して, 雑音の平均ベクトルを逐次更新することについて検討した.また, 2点目の問題に関しては, 時間領域SVDに基づく音声強調法を用いて, 事前にSNRを改善させることにより性能を改善させることを試みた.更に, 時間領域SVDに基づく音声強調法において, 雑音の影響をより多く取り除くために, 雑音成分の減算制御係数を導入し, この値を適応的に決定することについても検討した.提案手法をAURORA2データベースを用いて評価した結果, 従来のGMMに基づく音声信号推定法と比較して音声認識精度の改善が得られた.
- 社団法人電子情報通信学会の論文
- 2005-02-01
著者
-
藤本 雅清
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
有木 康雄
神戸大学工学部
-
藤本 雅清
ATR音声言語コミュニケーション研究所
-
藤本 雅清
龍谷大学理工学部
-
有木 康雄
神戸大学工学研究科
関連論文
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマ関連セッション2)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- Net Tv : Net Newsとテレビ放送のクロスプラットフォームにおける動画インデキシングと音声検索(セッション2:放送とネットワーク技術)
- NetTv : NetNews とテレビ放送のクロスプラットフォームにおける動画インデキシングと音声検索
- 音響・言語モデルの適応処理によるスポーツ実況中継の音声認識(音声,聴覚)
- 音響・言語適応処理を用いたスポーツ実況中継音声の認識 : ハイライトシーン検出への応用
- メタモデルと音響モデルの統合による構音障害者の音声認識(福祉と音声処理,一般)
- 情報家電操作における脳性麻痺構音障害者の音声認識評価(福祉情報工学一般)
- マルチモーダルインタラクションによるニュース映像中の人物認識(システム論文特集号)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討(ポスターセッション,第10回音声言語シンポジウム)
- 音声区間検出の基礎と最近の研究動向(音声・言語・音響教育,一般)
- メタモデルと音響モデルの統合による構音障害者の音声認識(福祉と音声処理,一般)
- Dirichlet事前分布を用いた音声区間検出の検討
- 音声区間検出技術の最近の研究動向
- D-14-7 AdaBoostと音声・唇GMMによる発話区間検出(D-14.音声・聴覚,一般講演)
- 構音障害者の音声認識における動的特徴量の考察(福祉と音声処理,一般)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- Dirichlet事前分布を用いた音声区間検出の検討(韻律・VAD,第11回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- AAMを用いた顔方位にロバストな唇領域特徴抽出と音声特徴による構音障害者の音声認識(一般(ポスターセッション),第11回音声言語シンポジウム)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- 構音障害者の音声認識の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 構音障害者の音声認識の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 構音障害者の音声認識の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 音声情報と画像情報の併用による商品紹介映像のセグメンテーション(音声,聴覚)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性ひずみの抑圧(音声, 聴覚)
- GMMに基づく音声信号推定法と時間領域SVDに基づく音声強調法の併用による雑音下音声認識(音声, 聴覚情報論的学習理論論文)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(耐雑音)(第5回音声言語シンポジウム)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(第5回音声言語シンポジウム : 耐雑音)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(第5回音声言語シンポジウム : 耐雑音)
- GMMに基づく音声信号推定法の改良と実走行車内音声による評価
- 野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
- 野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
- 野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
- 音声認識を用いたスポーツ実況中継におけるハイライトシーン検出
- 雑音に頑健な音声認識のための時間領域SVDとGMMに基づく音声信号推定法の統合
- 時間領域SVDとGMMに基づく音声信号推定法の統合による雑音下音声認識
- GMMに基づく音声信号推定法を用いた雑音下音声認識
- GMMに基づく音声信号推定法を用いた雑音下音声認識
- GMMに基づく音声信号推定法を用いた雑音下音声認識
- 音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別(音響信号処理/一般)
- AAMを用いた顔方位にロバストな唇領域特徴抽出と音声特徴による構音障害者の音声認識(一般(ポスターセッション),第11回音声言語シンポジウム)
- 構音障害者の音声認識の検討
- ボールと選手に着目したディジタルカメラワークの実現法 : ディジタルシューティングによるサッカー解説映像生成システムに向けて(放送現業・コンテンツ制作)
- 野球中継のハイライトシーン実時間配信を目的とした特徴のマイニングによるPCシーンの自動検出(デジタル放送・伝送方式)
- 映像文法に基づいた実時間使用可能ショット識別による撮影ナビゲーションシステム(マルチメディアとパターン認識理解,一般)
- D-12-170 選手とボールに着目したディジタルカメラワーク実現法の検討 : HD映像からのサッカー映像自動生成に向けて(D-12. パターン認識・メディア理解B)
- J-012 個人適応型サッカー映像の自動生成技術(J分野:グラフィクス・画像)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討(ポスターセッション,第10回音声言語シンポジウム)
- スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討(ポスターセッション,第10回音声言語シンポジウム)
- D-12-18 マルチ識別器を用いた花画像検索システムの構築(D-12.パターン認識・メディア理解,一般講演)
- 音声認識のフロントエンド(自動音声認識研究の動向と展望)
- 知識を用いた音声認識による野球実況中継の構造化(音声言語応用)(第6回音声言語シンポジウム)
- 知識を用いた音声認識による野球実況中継の構造化(音声言語応用)(第6回音声言語シンポジウム)
- 知識を用いた音声認識による野球実況中継の構造化(音声言語応用)(第6回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 確率モデルに基づく音声区間検出と雑音抑圧の統合法の評価と考察(認識,理解,対話,一般)
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- D-12-80 顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識(D-12.パターン認識・メディア理解,一般講演)
- 画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴量を用いたGraphCuts(一般セッション,パターン認識・メディア理解のための学習理論とその周辺)
- AR-GARCHモデルに基づいた音声区間検出手法の提案(音声,聴覚)
- D-12-88 マルチテンプレート型二次元CSPによる高速目領域検索(D-12.パターン認識・メディア理解,一般講演)
- I_022 二次元CSPによる目領域探索の高速化(I分野:画像認識・メディア理解)
- 複数の音声区間検出法の適応的統合の検討と考察
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- 音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(第8回音声言語シンポジウム)
- 音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(Session-1 検出,第8回音声言語シンポジウム)
- 音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(Session-1 検出,第8回音声言語シンポジウム)
- 弱識別器にSVMを用いたAdaBoostの検討(一般(ポスターセッション),第9回音声言語シンポジウム)
- 弱識別器にSVMを用いたAdaBoostの検討(一般(ポスターセッション),第9回音声言語シンポジウム)
- 弱識別器にSVMを用いたAdaBoostの検討(一般(ポスターセッション),第9回音声言語シンポジウム)
- Net Tv : Net Newsとテレビ放送のクロスプラットフォームにおける動画インデキシングと音声検索(セッション2:放送とネットワーク技術)
- コンテキストアウェアネスに基づく対話型テレビの検討
- Multi-class AdaBoostを用いた雑音検出(第8回音声言語シンポジウム)
- Multi-class AdaBoostを用いた雑音検出(Session-1 検出,第8回音声言語シンポジウム)
- Multi-class AdaBoostを用いた雑音検出(Session-1 検出,第8回音声言語シンポジウム)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定(情報アクセス(オーガナイズドセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定(情報アクセス(オーガナイズドセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 音素部分空間の統合による音声特徴量抽出の検討(特徴量・音響モデル,第9回音声言語シンポジウム)
- 音素部分空間の統合による音声特徴量抽出の検討(特徴量・音響モデル,第9回音声言語シンポジウム)
- 音素部分空間の統合による音声特徴量抽出の検討(特徴量・音響モデル,第9回音声言語シンポジウム)
- 音素PCAを用いた残響下における音声特徴量抽出
- AdaBoostを用いたシステムへの問い合わせと雑談の判別(第8回音声言語シンポジウム)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 音声区間検出の基礎と世界的な研究動向,今後の展開
- 音声の周期・非周期成分分解に基づく話者認識の検討(一般セッション,音声・言語・対話,一般)