音声区間検出の基礎と最近の研究動向(音声・言語・音響教育,一般)

概要

論文の詳細を見る
本稿では音声区間検出(VAD:Voice Activity Detection)の基本的な事柄,及び最近の研究動向について述べる.まず,VADの構成要素と評価方法について述べ,技術の応用先についても言及する.次に,VADの古典的な手法と最新の研究成果を紹介する.その後,過去10年間の世界的な研究動向を振り返り,今後の研究のありかたについて述べる.
2010-06-10

著者

藤本雅清
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
藤本雅清
NTTコミュニケーション科学基礎研究所
藤本雅清
日本電信電話(株)nttコミュニケーション科学基礎研究所
FUJIMOTO Masakiyo
the ATR Spoken Language Communication Research Laboratories
Fujimoto Masakiyo
Ntt Communication Science Laboratories Ntt Corporation
Fujimoto Masakiyo
Department Of Electronics And Informatics Faculty Of Science And Technology Ryukoku University

関連論文

多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマ関連セッション2)
音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
音響・言語モデルの適応処理によるスポーツ実況中継の音声認識(音声,聴覚)
音響・言語適応処理を用いたスポーツ実況中継音声の認識 : ハイライトシーン検出への応用
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
音声認識における頑健性 : 音響分析・音響モデル,なにが課題か(企画)
CENSREC-1-C : 雑音下音声区間検出評価基盤の構築
SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
実走行車内音声認識の評価データベースCENSREC-3とその共通評価ベースライン
実走行車内単語音声データベースCENSREC-3と共通評価環境の構築
CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
AURORA-2Jを用いたETSI STQ Aurora WI008 Advanced DSR Frontendの評価(ポスターセッション)(第5回音声言語シンポジウム)
AURORA-2Jを用いたETSI STQ Aurora WI008 Advanced DSR Frontendの評価(第5回音声言語シンポジウム : ポスターセッション)
マルチモーダルインタラクションによるニュース映像中の人物認識(システム論文特集号)
音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(第8回音声言語シンポジウム)
音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
音声区間検出の基礎と最近の研究動向(音声・言語・音響教育,一般)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
Dirichlet事前分布を用いた音声区間検出の検討
音声区間検出技術の最近の研究動向
雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
Dirichlet事前分布を用いた音声区間検出の検討(韻律・VAD,第11回音声言語シンポジウム)
Dirichlet事前分布を用いた音声区間検出の検討 (音声)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
CENSREC-2 : 実走行車内における連続数字音声データベースと評価環境の構築
自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
音声情報と画像情報の併用による商品紹介映像のセグメンテーション(音声,聴覚)
GMMとEMアルゴリズムを用いた加法性雑音及び乗法性ひずみの抑圧(音声, 聴覚)
GMMに基づく音声信号推定法と時間領域SVDに基づく音声強調法の併用による雑音下音声認識(音声, 聴覚情報論的学習理論論文)
GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(耐雑音)(第5回音声言語シンポジウム)
GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(第5回音声言語シンポジウム : 耐雑音)
GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(第5回音声言語シンポジウム : 耐雑音)
GMMに基づく音声信号推定法の改良と実走行車内音声による評価
野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
音声認識を用いたスポーツ実況中継におけるハイライトシーン検出
雑音に頑健な音声認識のための時間領域SVDとGMMに基づく音声信号推定法の統合
時間領域SVDとGMMに基づく音声信号推定法の統合による雑音下音声認識
GMMに基づく音声信号推定法を用いた雑音下音声認識
GMMに基づく音声信号推定法を用いた雑音下音声認識
GMMに基づく音声信号推定法を用いた雑音下音声認識
CENSREC-1-C : An evaluation framework for voice activity detection under noisy environments
音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別(音響信号処理/一般)
音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
AURORA-2Jを用いたETSI STQ Aurora WI008 Advanced DSR Frontendの評価(第5回音声言語シンポジウム : ポスターセッション)
AURORA-2J/AURORA-3Jデータベースとその評価ベースライン
雑音下音声認識のための複数の前処理手法の統合とそのAURORA-2Jによる評価
音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
確率モデルに基づく音声区間検出と雑音抑圧の統合法の評価と考察(認識,理解,対話,一般)
複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
パーティクルフィルタとPolyak Averagingを用いた非定常雑音の抑圧(耐雑音)
パーティクルフィルタに基づく雑音抑圧法を用いた非定常雑音及び残響環境下での音声認識
SLP雑音下音声認識評価のためのWG : 評価データ収集について
SLP雑音下音声認識評価ワーキンググループ活動報告
AR-GARCHモデルに基づいた音声区間検出手法の提案(音声,聴覚)
CENSREC-3: An Evaluation Framework for Japanese Speech Recognition in Real Car-Driving Environments(Speech and Hearing)
A Non-stationary Noise Suppression Method Based on Particle Filtering and Polyak Averaging(Speech Recognition, Statistical Modeling for Speech Processing)
複数の音声区間検出法の適応的統合の検討と考察
複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
Noise Robust Voice Activity Detection Based on Switching Kalman Filter
音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(第8回音声言語シンポジウム)
音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(Session-1 検出,第8回音声言語シンポジウム)
音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(Session-1 検出,第8回音声言語シンポジウム)
雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討(音響モデル・雑音・分析,第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討(音響モデル・雑音・分析,第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
音声区間検出の基礎と世界的な研究動向,今後の展開
音声の周期・非周期成分分解に基づく話者認識の検討(一般セッション,音声・言語・対話,一般)

音声区間検出の基礎と最近の研究動向(音声・言語・音響教育,一般)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク