音声区間検出の基礎と世界的な研究動向,今後の展開
スポンサーリンク
概要
- 論文の詳細を見る
音声区間検出(VAD:Voice Activity Detection)は,音声信号と音声以外の信号(非音声信号)が含まれる観測信号から音声信号が存在する時間区間を検出する技術である.VADは,様々な音声情報処理技術の入り口に位置することから,それらの性能を大きく左右する極めて重要な技術である.本稿では,VADの基本構成と評価方法,応用先について説明し,音声情報処理技術におけるVADの位置付けを明確にする.また,様々なVAD手法を紹介しつつ,過去10年間の世界的な研究動向を振り返り,今後の研究のあり方について述べる.
- 2012-08-01
著者
-
藤本 雅清
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
藤本 雅清
日本電信電話(株)nttコミュニケーション科学基礎研究所
-
Fujimoto Masakiyo
Ntt Communication Science Laboratories Ntt Corporation
関連論文
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマ関連セッション2)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 音響・言語モデルの適応処理によるスポーツ実況中継の音声認識(音声,聴覚)
- 音響・言語適応処理を用いたスポーツ実況中継音声の認識 : ハイライトシーン検出への応用
- 音声認識における頑健性 : 音響分析・音響モデル,なにが課題か(企画)
- マルチモーダルインタラクションによるニュース映像中の人物認識(システム論文特集号)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声区間検出の基礎と最近の研究動向(音声・言語・音響教育,一般)
- Dirichlet事前分布を用いた音声区間検出の検討
- 音声区間検出技術の最近の研究動向
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討 (音声)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討 (言語理解とコミュニケーション)
- Dirichlet事前分布を用いた音声区間検出の検討(韻律・VAD,第11回音声言語シンポジウム)
- Dirichlet事前分布を用いた音声区間検出の検討 (音声)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- 音声情報と画像情報の併用による商品紹介映像のセグメンテーション(音声,聴覚)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性ひずみの抑圧(音声, 聴覚)
- GMMに基づく音声信号推定法と時間領域SVDに基づく音声強調法の併用による雑音下音声認識(音声, 聴覚情報論的学習理論論文)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(耐雑音)(第5回音声言語シンポジウム)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(第5回音声言語シンポジウム : 耐雑音)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(第5回音声言語シンポジウム : 耐雑音)
- GMMに基づく音声信号推定法の改良と実走行車内音声による評価
- 野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
- 野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
- 野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
- 音声認識を用いたスポーツ実況中継におけるハイライトシーン検出
- 雑音に頑健な音声認識のための時間領域SVDとGMMに基づく音声信号推定法の統合
- 時間領域SVDとGMMに基づく音声信号推定法の統合による雑音下音声認識
- GMMに基づく音声信号推定法を用いた雑音下音声認識
- GMMに基づく音声信号推定法を用いた雑音下音声認識
- GMMに基づく音声信号推定法を用いた雑音下音声認識
- CENSREC-1-C : An evaluation framework for voice activity detection under noisy environments
- 音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別(音響信号処理/一般)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 確率モデルに基づく音声区間検出と雑音抑圧の統合法の評価と考察(認識,理解,対話,一般)
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- AR-GARCHモデルに基づいた音声区間検出手法の提案(音声,聴覚)
- 複数の音声区間検出法の適応的統合の検討と考察
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- Noise Robust Voice Activity Detection Based on Switching Kalman Filter
- 音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(第8回音声言語シンポジウム)
- 音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(Session-1 検出,第8回音声言語シンポジウム)
- 音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(Session-1 検出,第8回音声言語シンポジウム)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討(音響モデル・雑音・分析,第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討(音響モデル・雑音・分析,第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 音声の周期性・非周期性成分比とSwitching Kalman filterに基づく雑音下音声区間検出(音響処理)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 音声区間検出の基礎と世界的な研究動向,今後の展開
- CENSREC-4: An evaluation framework for distant-talking speech recognition in reverberant environments
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧
- 対数スペクトル事前分布を用いたMAPスペクトル推定に基づく劣決定音源分離(ブラインド信号処理,一般)
- 音声の周期・非周期成分分解に基づく話者認識の検討(一般セッション,音声・言語・対話,一般)