話者方位情報とゼロ交差情報に基づくハンズフリー発話区間検出の評価(セッション5 : 音声認識+音声合成)
スポンサーリンク
概要
- 論文の詳細を見る
ハンズフリー音声認識において発話区間検出(Voice Activity Detection : VAD)は必要不可欠である.ゼロ交差情報などの時間特微量に基づいた時間領域VAD法は,雑音によって歪みを受けた遠隔発話に対して十分な性能を得られないという問題がある.また,話者方位情報などの空間特微量に基づいた空間領域VAD法は,指向性雑音環境下で大きく性能が劣化するという問題がある.本稿ではこれらの問題を解決するために,時間領域VAD法と空間領域VAD法を統合することを検討し,話者方位情報とゼロ交差情報に基づいた雑音に頑健な時間-空間領域ハンズフリーVAD法を提案する.提案手法は,音声の到来方向推定に特化したWCSP (Weighted Cross-power Spectrum Phase)法によって空間安定度と空間信頼度を抽出する.そして,抽出した空間特微量に基づく適応型ゼロ交差検出法によって発話区間を頑健に検出する.実オフィス環境における評価実験の結果,提案手法は従来手法よりも高い発話区間検出性能を得られることを確認した.
- 一般社団法人情報処理学会の論文
- 2007-02-09
著者
-
西浦 敬信
立命館大学情報理工学部メディア情報学科
-
山下 洋一
立命館大学情報理工学部
-
中山 雅人
立命館大学総合理工学研究機構:近畿大学生物理工学部電子システム情報工学科
-
傳田 遊亀
村田機械
-
傳田 遊亀
立命館大学
-
田中 貴雅
立命館大学大学院理工学研究科
-
傳田 遊亀
立命館大院(理工)
-
山下 洋一
立命館大学
-
博田 遊亀
立命館大学大学院 理工学研究科
-
西浦 敬信
立命館大学
-
中山 雅人
立命館大学 情報理工学部
-
中山 雅人
立命館大学
関連論文
- 基本波検出に基づく高SNRの音声を対象とした高速なF0推定法(音声,聴覚)
- ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術の総合開発(総合報告)
- 視覚・聴覚を併用した複合現実感システムの開発(5)ヘッドホンとスピーカの併用による音提示法の拡張 (音声)
- 視覚・聴覚を併用した複合現実感システムの開発(5)ヘッドホンとスピーカの併用による音提示法の拡張 (パターン認識・メディア理解)
- SLP音声ドキュメント処理ワーキンググループ活動報告(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 基本周波数モデルとその応用(言語獲得・学習,合成,生成,韻律,一般)
- 残響指標RSR-Dnに基づく残響環境下音声認識の予測性能評価 (信号処理)
- アクセント結合規則を利用した統計的手法に基づく連続音声のアクセント型自動ラベリング
- 基本波検出に基づく高SNRの音声を対象とした高速なF0推定法
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- CRFと統計的F0モデルに基づく連続音声のアクセント型自動推定(合成,生成,韻律,一般)
- 歌唱合成システムの実現を目的とした高品質音声分析合成法の提案 (応用音響)
- 近接音源位置推定のための2D-CSP法の評価 (音声)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減 (音声)
- ロンバード特徴量変換に基づく音声認識性能の改善 (音声)
- 近接音源位置推定のための2D-CSP法の評価 (信号処理)
- ロンバード特徴量変換に基づく音声認識性能の改善 (応用音響)
- 母音/子音特徴量に基づく適応形マイクロホンアレーを用いた雑音下音声認識(音声,聴覚)
- 話者方位推定を利用した動的時間領域処理に基づく遠隔発話区間検出(音声,聴覚)
- 11.人にやさしい音声インタフェース(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- 話者方位情報とゼロ交差情報に基づくハンズフリー発話区間検出の評価(セッション5 : 音声認識+音声合成)
- CENSREC-1-C : 雑音下音声区間検出評価基盤の構築
- マイクロホンアレーを用いた時間/空間情報に基づくハンズフリー発話区間検出の検討(認識・検出)
- フィルタ加算に基づく適応形ビームフォーマの指向性制御に関する検討
- 櫛形フィルタと確率モデルに基づいた音高認識
- 音声対話技術コンソーシアム(ISTC)の活動成果報告(SIG-SLP内組織の活動報告)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 実走行車内単語音声データベースCENSREC-3と共通評価環境の構築
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- 視覚・聴覚を併用した複合現実感システムのための頭部伝達関数の個人化
- 4L-2 空間的サブトラクションアレーに基づくハンズフリー音声認識システムの開発(リーディングプロジェクト e-society:自然な音声対話処理技術(2),一般セッション,リーディングプロジェクト e-society)
- LE-006 音響信頼度に基づく動的特徴量統合を用いた全方位マルチモーダル話者方位推定の検討(自然言語・音声・音楽)
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討
- 音声の平均スペクトルを用いた帯域分割型CSP法に基づく話者位置推定法に関する検討
- 帯域分割型CSP法に基づく話者位置推定法の検討(ポスターセッション)(第6回音声言語シンポジウム)
- 音声ドキュメント検索評価のためのテストコレクションの試作(第8回音声言語シンポジウム)
- 音声ドキュメント検索評価のためのテストコレクションの試作(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 視覚・聴覚を併用した複合現実感システムのための頭部伝達関数の個人化
- マルチモーダルコミュニケーションのための音声合成プラットホーム
- マルチモーダルコミュニケーションのための音声合成プラットホーム
- EA2010-37 歌唱合成システムの実現を目的とした高品質音声分析合成法の提案
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 室内音響指標に基づく残響下音声認識性能の計測,評価,保証
- 実時間歌唱力補正に基づく新たなカラオケエンタテインメントの創出
- 話者方位情報とゼロ交差情報に基づくハンズフリー発話区間検出の評価(セッション5 : 音声認識+音声合成)
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 分散マイクロホンシステムを用いた音源位置同定(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 近接音源位置推定のための2D-CSP法の評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 近接音源位置推定のための2D-CSP法の評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 近接音源位置推定のための2D-CSP法の評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 残響指標RSR-Dnに基づく残響環境下音声認識の予測性能評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 残響指標RSR-D_nに基づく残響環境下音声認識の予測性能評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 残響指標RSR-D_nに基づく残響環境下音声認識の予測性能評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 擬音語HMMに基づく音場ディクテーションの検討(音声,応用音響,一般,音声,応用/電気音響,信号処理,及び一般)
- 擬音語HMMに基づく音場ディクテーションの検討(音声,応用音響,一般,音声,応用/電気音響,信号処理,及び一般)
- ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 擬音語HMMに基づく音場ディクテーションの検討(音声,応用音響,一般,音声,応用/電気音響,信号処理,及び一般)
- ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 分散マイクロホンシステムを用いた音源位置同定(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 分散マイクロホンシステムを用いた音源位置同定(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張(テーマセッション,クロスモーダル)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張(テーマセッション,クロスモーダル)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張(テーマセッション,クロスモーダル)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張(テーマセッション,クロスモーダル)
- A-16-7 視聴覚併用型複合現実空間での仮想物体による実音の反射と遮音(A-16. マルチメディア・仮想環境基礎,一般セッション)
- 複合現実空間との新しいマルチモーダル・インタラクション方法の提案と実現
- A-16-30 現実空間での音検出とその複合現実空間へのイベント入力利用(A-16.マルチメディア・仮想環境基礎,一般講演)
- 実時間歌唱力補正に基づく新たなカラオケエンタテインメントの創出
- E-002 高フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減の検討(E分野:自然言語・音声・音楽,一般論文)
- 3U-8 室内音響指標に基づく残響下音声認識性能の推定と評価(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5U-3 音響防犯システムのためのSVMを用いた叫び声の検出と音声認識(音声インタフェース・システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- A-16-6 視覚・聴覚を併用した複合現実感システムの開発(3) : 頭部伝達関数の選択と接合法の改良(A-16. マルチメディア・仮想環境基礎,一般セッション)
- A-16-29 視覚・聴覚融合型複合現実感システムの開発(A-16.マルチメディア・仮想環境基礎,一般講演)
- E-003 擬音語HMMに基づく音場ディクテーションシステムの評価(E分野:自然言語・音声・音楽,一般論文)
- 視覚・聴覚の現実と仮想を融合する2×2方式複合現実感システムの実現
- A-16-15 視聴覚併用複合現実空間のスケール感に関する実験と考察(A-16.マルチメディア・仮想環境基礎,一般講演)
- 歌唱データベースを用いたヴィブラートの個人性の制御に有効な特徴量の検討
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討
- A-16-7 超音波スピーカによる移動音源の実現と視覚補助による定位性能の向上(A-16.マルチメディア・仮想環境基礎,一般セッション)
- 室内音響指標を用いた残響指標RSR-D_nに基づく残響下音声認識性能の予測(音声,聴覚)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張