i-vectorに基づく発話類似度を用いた非負値行列分解と話者クラスタリングへの適用
スポンサーリンク
概要
- 論文の詳細を見る
高精度な話者表現とクラスタリングアルゴリズムを統合した新たな話者クラスタリング手法を提案する.従来用いられる話者クラスタリング手法では,データ量が多くなると正確なクラスタリングが困難になるという問題があった.そのような条件下において正確な話者クラスタリングを実現するためには,音響変動に対して頑健なモデルにより話者を表現し,このモデルを用いて各発話を効率的にクラスタリングする手法が必要となる.そこで提案手法では,話者照合の分野で高い精度を達成しているi-vectorを話者の表現として用い,クラスタリング手法として非負値行列分解に基づいた効率的なクラスタリング手法を導入した.本手法の有効性を示すために,CSJデータを用いた話者クラスタリング実験を行い,従来手法と比較して,提案手法が発話データ量の変化に対し頑健に話者クラスタリングが行えることを確認した.
- 2012-07-12
著者
-
小川 哲司
早稲田大学
-
小林 哲則
早稲田大学情報理工学科
-
小林 哲則
早稲田大学理工学部電気電子情報工学科
-
小林 哲則
早稲田大学
-
小川 哲司
早稲田大学高等研究所
-
小林 哲則
早稲田大学理工学術院情報理工学科
-
俵 直弘
早稲田大学
-
福地 佑介
早稲田大学
関連論文
- 音声認識実用化技術の展開(総合報告)
- 複数情報の統合による人物の性別・年齢層の推定法(顔とジェスチャの認識)
- クラス距離を重みとする局所保存射影とその顔画像による年齢推定への応用(テーマ関連セッション2)
- 会話ロボットとその聴覚機能
- 音声シフト : 音高の意図的な変化を利用した音声入力インタフェース(音声, 聴覚)
- 音声シフト : "SHIFT"on Speech
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- シャッタが切り取る世界(ちょっとしたエッセイ,コーヒーブレーク)
- 集合知に基づく語彙情報を用いたトピック依存言語モデリング(理解)
- 音声対話用音声認識システム(対話,第10回音声言語シンポジウム)
- ロボットのためのハンズフリー音声認識システム(音響処理・話者同定,第10回音声言語シンポジウム)
- 集合知を利用した語彙情報の収集・共有・管理システム(音声言語処理)
- Proxy-Agentを用いた音声認識対応ウェブアプリケーション開発フレームワークの提案と実装(音声基盤技術・インタフェース)
- 視線運動の離散性を用いた視線認識(テーマ関連セッション2)
- 視線運動の離散性を用いた視線認識(テーマ関連セッション2,顔・ジェスチャの認識・理解)
- マルチモーダル会話ロボット : ロボットが会話において行う「聴く」行為について
- プロキシエージェントアーキテクチャによる音声認識アプリケーション用ユーザモニタリング機能の効率化(セッション2 : 理解るインタフェース : 音声+ソーシャル+コミュニティ)
- 対話ロボットの動作に頑健な頭部ジェスチャ認識(画像認識,コンピュータビジョン)
- 正方形マイクロホンアレイによる音源分離技術 (特集 音声認識技術の実用化への取り組み)
- カーナビにおける音声インタフェースの評価 : 語彙外発話の状況と対応案に関して(聴覚・音声・言語とその障害,一般)
- 10 サーバ連携に基づく継続的な音声認識応用システム開発(音声認識技術の実用化への取り組み)
- 4 正方形マイクロホンアレイによる音源分離技術(音声認識技術の実用化への取り組み)
- ライブストリーミングのための協調的音声書き起こしシステム
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- マルチカーネル学習を用いた話者認識における最適化の検討
- 第3回 音声対話システム
- グループコミュニケーション活性化ロボット
- 音声対話用音声認識システム(対話,第10回音声言語シンポジウム)
- ロボットのためのハンズフリー音声認識システム(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声対話用音声認識システム(対話,第10回音声言語シンポジウム)
- ロボットのためのハンズフリー音声認識システム(音響処理・話者同定,第10回音声言語シンポジウム)
- 集合知を利用した語彙情報の収集・共有・管理システム(音声言語処理)
- Proxy-Agentを用いた音声認識対応ウェブアプリケーション開発フレームワークの提案と実装(音声基盤技術・インタフェース)
- 視線運動の離散性を用いた視線認識(テーマ関連セッション2,顔・ジェスチャの認識・理解)
- プロキシエージェントアーキテクチャによる音声認識アプリケーション用ユーザモニタリング機能の効率化(セッション2 : 理解るインタフェース : 音声+ソーシャル+コミュニティ)
- 最小相対エントロピー識別学習へのラティスによる仮説表現と並列化可能な最適化手法の導入
- 最小相対エントロピー識別学習に基づくカーネルマシンを利用した音声認識
- HMMの尤度パターンを利用したリスコアリングにおける次元圧縮法の検討(認識,理解,対話,一般)
- マクロな時間構造を持つテンプレート群からの確率的距離を用いた階層型音声認識(認識,理解,対話,一般)
- 特徴抽出過程におけるブースティングの適用による相補的な識別器の生成およびその統合(第8回音声言語シンポジウム)
- 特徴抽出過程におけるブースティングの適用による相補的な識別器の生成およびその統合
- 特徴抽出過程におけるブースティングの適用による相補的な識別器の生成およびその統合(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
- 特徴抽出過程におけるブースティングの適用による相補的な識別器の生成およびその統合(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
- 特徴抽出過程におけるブースティングの適用による相補的な識別器の生成およびその統合
- 特徴抽出過程におけるブースティングの適用による相補的な識別器の生成およびその統合
- 減算型アレイ処理とスペクトラルサブトラクションを用いた音源分離技術とその携帯電話への応用(認識・理解・対話・一般)
- シミュレーションに基づく音声認識システム評価の妥当性の検証(認識・理解・対話・一般)
- マイク間のスペクトル強度比を利用した音源定位におけるHLDA利用の効果(耐雑音, 音源分離, ロボット)
- 参照信号によるパーミュテーション問題解決とSMDPの統合による周波数領域BSSの性能向上(耐雑音, 音源分離, ロボット)
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- 音声認識実用化技術の展開
- コミュニケーション活性化を指向した会話ロボット : 通所介護施設における事例(テーマセッション,福祉と見守りのための画像・音声処理)
- コミュニケーション活性化を指向した会話ロボット : 通所介護施設における事例(テーマセッション,福祉と見守りのための画像・音声処理)
- コミュニケーション活性化を指向した会話ロボット : 通所介護施設における事例(テーマセッション,福祉と見守りのための画像・音声処理)
- 距離感を与える音声の特徴分析と合成(一般(ポスターセッション),第11回音声言語シンポジウム)
- 距離感を与える音声の特徴分析と合成(一般(ポスターセッション),第11回音声言語シンポジウム)
- 5U-8 集合知を利用した語彙情報収集・共有・管理システム(音声インタフェース・システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- Dempster-Shafer理論を用いた音声・画像情報の統合による個人認識システム
- Dempster-Shafer理論を用いた音声・画像情報の統合による個人認識システム
- Dempster-Shafer理論を用いた音声・画像情報の統合による個人認識システム
- 顔画像認識における学習部分空間法を用いた新規利用者のオンライン登録
- ARPAにおける音声認識プロジェクト
- ALICE: 会話環境における言語獲得 : 言語移植のための音声言語システムの弱指導学習
- ウェブベースの分散型音声認識アプリケーション開発プラットフォームに関する一提案
- 4ZG-8 議論構造の共同可視化編集機能を有する会議支援システム(協調基盤と意思決定支援,学生セッション,インタフェース,情報処理学会創立50周年記念)
- M-089 議論構造の視覚化機能を有する参加者支援型議事録作成システムを利用した会議スタイルの提案(ユビキタス・モバイルコンピューティング,一般論文)
- E-040 語彙外発話に着目した音声インタフェースの評価(自然言語・音声・音楽,一般論文)
- クラス距離を重みとする局所保存射影とその顔画像による年齢推定への応用(テーマ関連セッション2,顔・ジェスチャの認識・理解)
- クラス距離を重みとする局所保存射影とその顔画像による年齢推定への応用(テーマ関連セッション2,顔・ジェスチャの認識・理解)
- 識別的基準と遺伝的アルゴリズムに基づく部分隠れマルコフモデルの構造の最適化(多言語, CSJ, 認識・理解・対話・一般)
- 部分隠れマルコフモデルにおける状態・出力間依存関係の拡張と連続音声認識への適用(音声,聴覚)
- マイクロフォンアレーを用いた混合音声認識(認識・理解・対話)
- 部分隠れマルコフモデルによる連続音声認識
- 集合知を利用した語彙情報サービスにおける自動語彙拡張の評価
- 音声認識応用システム開発の新パラダイム(第10回音声言語シンポジウム)
- 音声認識応用システム開発の新パラダイム(第10回音声言語シンポジウム)
- 音声認識応用システム開発の新パラダイム(第10回音声言語シンポジウム)
- 音声スタータ : 有声休止による発話開始の指定が可能な音声入力インタフェース(音声言語)
- 音声スポッタ : 人間同士の会話中に音声認識が利用可能な音声入力インタフェース(マルチモーダルインタフェース,インタラクション技術の原理と応用)
- アプリケーションの機能構造に基づく音声インタフェースの提案と評価(インタフェース)
- 条件付きエントロピー最小化基準に基づくマルチカーネル学習を用いた発話スタイル変動に頑健な話者照合
- 正方形マイクロホンアレイによる音源分離技術
- 発話期待度/意欲度に基づく発話タイミング制御 (第二回対話システムシンポジウム 一般セッションと対話システム)
- 人同士のコミュニケーションに参加し活性化する会話ロボット(対話生成,人とエージェントのインタラクション論文)
- 会話ロボットの多人数会話活性化戦略とその評価(一般セッション,福祉と音声処理,一般)
- 会話ロボットの多人数会話活性化戦略とその評価(一般セッション,福祉と音声処理,一般)
- i-vectorに基づく発話類似度を用いた非負値行列分解と話者クラスタリングへの適用
- クラウド時代の新しい音声研究パラダイム
- 階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング(ベイズ統計モデル,統計推理,データベース,一般)
- 話者認識で用いる機械学習(話者認識に関する研究の動向)
- 終助詞とその音調とによって聞き手に伝わる発話意図の分析(一般セッション,福祉と音声処理,一般)
- 音声言語情報処理研究会の20年-歴代主査による研究レビュー-
- 話者認識技術の現状と課題(オーガナイズドセッション(パネルディスカッション),音声アプリケーション,一般)
- 階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング
- i-vectorを用いた話者認識