Dirichlet事前分布を用いた音声区間検出の検討(韻律・VAD,第11回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
本研究では,確率モデルに基づく音声区間検出法にDirichlet事前分布を導入して音声区間検出の性能改善が得られることを述べる.確率モデルに基づく音声区間検出法では,Switchingカルマンフィルタを用いて観測信号の環境に適応した音声/非音声GMMを逐次生成し,各GMMの確率比に基づき音声/非音声の識別を行っている.生成されるGMMには不要な分布と重要な分布が混在しており,不要な分布を取り除き,重要な分布のみを用いることによりVADの性能改善が得られる.分布の削減を行うと,削減前の混合分布とは分布全体の形状が大きく異なり,分布の事前確率も大きく異なる.このため,本研究では,事前分布をDirichlet分布で定義し,分布選択後の混合重みを最適化することについて検討を行った.
- 社団法人電子情報通信学会の論文
- 2009-12-14
著者
-
藤本 雅清
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
渡部 晋治
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
中谷 智広
NTTコミュニケーション科学基礎研究所
-
中谷 智広
日本電信電話(株)基礎研究所 情報科学研究部
-
藤本 雅清
NTTコミュニケーション科学基礎研究所
-
藤本 雅清
日本電信電話(株)nttコミュニケーション科学基礎研究所
-
中谷 智広
日本電信電話(株)nttコミュニケーション科学基礎研究所
-
FUJIMOTO Masakiyo
the ATR Spoken Language Communication Research Laboratories
-
中谷 智広
Nttコミュニケーション科学基礎研究所日本電信電話株式会社
-
中谷 智広
日本電信電話(株)
-
Fujimoto Masakiyo
Ntt Communication Science Laboratories Ntt Corporation
-
Fujimoto Masakiyo
Department Of Electronics And Informatics Faculty Of Science And Technology Ryukoku University
-
渡部 晋治
Mitsubishi Electric Research Laboratories:NTTコミュニケーション科学基礎研究所
-
渡部 晋治
日本電信電話(株)NTTコミュニケーション科学基礎研究所
関連論文
- 購買行動解析のためのトピック追跡モデル(人工知能,データマイニング)
- スパース性に基づくブラインド音源分離を用いたステレオ入力音声認識(音声,聴覚)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマ関連セッション2)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- オンライン変分ベイズ学習に基づくモデル比較を用いた音声区間検出(認識)
- 音響・言語モデルの適応処理によるスポーツ実況中継の音声認識(音声,聴覚)
- 音響・言語適応処理を用いたスポーツ実況中継音声の認識 : ハイライトシーン検出への応用
- アンサンブル型最小分類誤り学習法の実装と実験的評価(一般セッション,CV・パターン認識のための学習・最適化)
- アンサンブル型最小分類誤り学習の提案(テーマ関連セッション2,コンピュータビジョンとパターン認識のための学習理論)
- アンサンブル型最小分類誤り学習の提案(テーマ関連セッション2)
- スパース性に基づくブラインド音源分離を用いたステレオ入力音声認識
- スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討(福祉と音声処理,一般)
- マルチモーダルインタラクションによるニュース映像中の人物認識(システム論文特集号)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- ベイズ的基準を用いた状態共有型HMM構造の選択
- 変分ベイズ法の音響モデル適応への応用
- ベイズ的アプローチに基づく状態共有型HMM構造の学習
- 最大幾何マージン最小分類誤り学習法を目指して
- 判別関数の一般形に対する幾何マージンの導出とその制御を伴う最小分類誤り学習(テーマセッション,CV・パターン認識のための学習・最適化)
- 最小分類誤り学習における幾何マージンの制御法について(音響モデル,認識,理解,対話,一般)
- 音声区間検出の基礎と最近の研究動向(音声・言語・音響教育,一般)
- Dirichlet事前分布を用いた音声区間検出の検討
- 音声区間検出技術の最近の研究動向
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価 (音声)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価 (言語理解とコミュニケーション)
- 複数音響環境の発話単位遷移モデルに基づく適応学習法の検討(認識,理解,対話,一般)
- 巨視的な時間発展系に基づく逐次モデル適応 : モデルの逐次更新における学習データの発話数に関する考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 巨視的な時間発展系に基づく逐次モデル適応 : モデルの逐次更新における学習データの発話数に関する考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 巨視的な時間発展系に基づく逐次モデル適応 : モデルの逐次更新における学習データの発話数に関する考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- 最小相対エントロピー識別学習へのラティスによる仮説表現と並列化可能な最適化手法の導入
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討 (音声)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討 (言語理解とコミュニケーション)
- 音声認識における音響モデル(自動音声認識研究の動向と展望)
- Dirichlet事前分布を用いた音声区間検出の検討(韻律・VAD,第11回音声言語シンポジウム)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価(デコーダ,第11回音声言語シンポジウム)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価(デコーダ,第11回音声言語シンポジウム)
- 音響モデルのベイズ学習
- 最小相対エントロピー識別学習に基づくカーネルマシンを利用した音声認識
- Dirichlet事前分布を用いた音声区間検出の検討 (音声)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声情報と画像情報の併用による商品紹介映像のセグメンテーション(音声,聴覚)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性ひずみの抑圧(音声, 聴覚)
- GMMに基づく音声信号推定法と時間領域SVDに基づく音声強調法の併用による雑音下音声認識(音声, 聴覚情報論的学習理論論文)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(耐雑音)(第5回音声言語シンポジウム)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(第5回音声言語シンポジウム : 耐雑音)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(第5回音声言語シンポジウム : 耐雑音)
- GMMに基づく音声信号推定法の改良と実走行車内音声による評価
- 野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
- 野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
- 野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
- 音声認識を用いたスポーツ実況中継におけるハイライトシーン検出
- 雑音に頑健な音声認識のための時間領域SVDとGMMに基づく音声信号推定法の統合
- 時間領域SVDとGMMに基づく音声信号推定法の統合による雑音下音声認識
- GMMに基づく音声信号推定法を用いた雑音下音声認識
- GMMに基づく音声信号推定法を用いた雑音下音声認識
- GMMに基づく音声信号推定法を用いた雑音下音声認識
- 音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別(音響信号処理/一般)
- H-021 ファッション雑誌を用いたコーディネート推薦システム(H分野:画像認識・メディア理解,一般論文)
- ベイズ的基準を用いた状態共有型HMM構造の選択
- ベイズ的基準を用いた状態共有型HMM構造の選択
- ベイズ的アプローチに基づく状態共有型HMM構造の学習
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 確率モデルに基づく音声区間検出と雑音抑圧の統合法の評価と考察(認識,理解,対話,一般)
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
- 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
- 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
- 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討(福祉と音声処理,一般)
- ベイズ法による音声認識
- AR-GARCHモデルに基づいた音声区間検出手法の提案(音声,聴覚)
- ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性
- ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性(ポスターセッション)
- 複数の音声区間検出法の適応的統合の検討と考察
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- 音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(第8回音声言語シンポジウム)
- 音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(Session-1 検出,第8回音声言語シンポジウム)
- 音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(Session-1 検出,第8回音声言語シンポジウム)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 音声区間検出の基礎と世界的な研究動向,今後の展開
- 音声の周期・非周期成分分解に基づく話者認識の検討(一般セッション,音声・言語・対話,一般)