特徴量強調における教師なし話者適応に関する検討(ポスターセッション)
スポンサーリンク
概要
- 論文の詳細を見る
近年,音声認識技術は様々なアプリケーションで使用されている.しかし,録音環境に含まれる雑音や残響等の音響的な歪みにより認識性能が大幅に低下する.この問題の解決策として,クリーン音声のGMMを用いて観測音声の特徴量から音響的歪みの影響を取り除く特徴量強調技術が知られている.一方,モバイルデバイスへの音声入力に代表される最近のアプリケーションの多くでは,多様な環境で録られた認識対象個人の音声データを蓄積しておくことが容易にできる.しかしながら,こうした個人データをどのように扱えば特徴量強調を含む認識システム全体の性能を効果的に向上できるかは明らかでない.本研究では,特徴量強調に用いるクリーン音声GMMのMAP適応と音声認識に用いる音響モデルのMLLR適応のいくつかの組み合わせ方について,その効果を実験的に比較検討する.
- 2012-12-13
著者
-
広瀬 啓吉
東大
-
吉岡 拓也
NTTコミュニケーション科学基礎研究所
-
峯松 信明
東京大学情報理工学系研究科
-
広瀬 啓吉
東京大学情報理工学系研究科
-
峯松 信明
東京大学情報理工系研究科
-
広瀬 啓吉
東京大学情報理工系研究科
-
グェン ドゥックズイ
NTTコミュニケーション科学基礎研究所
関連論文
- 3次元母音図の4次元可視化に向けた基礎研究(視聴覚技術,ヒューマンインタフェース)
- 設備監視のための異音検知方式の一検討
- 母語話者と中国語話者の日本語朗読音声の基本周波数パターンの比較
- 英語・中国語・母語話者の日本語朗読音声のF0に現れる特徴(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- 英語・中国語・母語話者の日本語朗読音声のF0に現れる特徴
- 構造不変の定理に基づく音声の構造的表象とその距離尺度
- シャドーイング・音読発音評価を目的とした話者適応の分析と応用(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
- 通訳者支援システム「イズ」とその情報保障支援の可能性(聴覚と福祉情報工学・一般)
- 音声の構造的表象に基づく異言語間・異話者間の音声変換手法(言語獲得・学習,合成,生成,韻律,一般)
- 構造評価関数を用いた構造的表象からの音声合成系の高精度化(言語獲得・学習,合成,生成,韻律,一般)
- 構造表象を用いた音声認識におけるパラメータ共有とその効果(認識,理解,対話,一般)
- 構造的表象からの音声合成とそれに基づく音声模倣に関する検討(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- ケプストラムの声道長依存性に関する幾何学的考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 構造的表象からの音声生成に関する基礎的検討(合成,生成,韻律,一般)
- 基本周波数パターン生成過程モデルに基づくコーパスベース韻律生成における柔軟な焦点制御(言語獲得・学習,合成,生成,韻律,一般)
- 中国語方言の構造分析とその発音評価に向けた実験的検討(発音評価,認識,理解,対話,一般)
- 非言語的な要因に不変な音響的特徴を用いた中国語方言に基づく話者分類(ポスターセッション,第10回音声言語シンポジウム)
- 手の動きを入力としたリアルタイム音声生成系における鼻音の合成とピッチ制御に関する検討(福祉と音声処理,一般)
- 経験的モード分解による主構造抽出を介した雑音環境下における音声信号の基本周波数推定
- スペクトル領域特徴量を用いた音声の構造的表象に関する実験的考察(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- 外国語学習を対象としたシャドーイング音声の自動評定法に関する検討(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- 招待講演 通訳者支援システム「イズ」とその情報保障支援の可能性
- 構造的特徴量に対する多段階の重回帰分析による発音評価(認識,理解,対話,一般)
- 生成過程モデルを用いたHMMに基づく基本周波数パターン生成(音声・言語・音響教育,一般)
- ボトムアップクラスタリングを用いたシャドーイング音声の自動評定(聴覚・音声・言語とその障害,一般)
- ケプストラムの声道長依存性に関する幾何学的考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- ケプストラムの声道長依存性に関する幾何学的考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 話者不変な相対関係特徴を音響単位とする音響モデリングに関する実験的検討(音響モデル,第11回音声言語シンポジウム)
- 話者不変な相対関係特徴を音響単位とする音響モデリングに関する実験的検討(音響モデル,第11回音声言語シンポジウム)
- 女声と聴取された性同一性障害者(MtF)の音声の音響分析
- 音声の構造的表象と判別分析を用いた単語音声認識(ポスターセッション,第10回音声言語シンポジウム)
- アフィン変換不変性を有する局所的特徴量を用いた音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 非言語的な要因に不変な音響的特徴を用いた中国語方言に基づく話者分類(ポスターセッション,第10回音声言語シンポジウム)
- 音声の構造的表象と判別分析を用いた単語音声認識(ポスターセッション,第10回音声言語シンポジウム)
- アフィン変換不変性を有する局所的特徴量を用いた音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 非言語的な要因に不変な音響的特徴を用いた中国語方言に基づく話者分類(ポスターセッション,第10回音声言語シンポジウム)
- 音声の構造的表象と判別分析を用いた単語音声認識(ポスターセッション,第10回音声言語シンポジウム)
- アフィン変換不変性を有する局所的特徴量を用いた音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 空間写像に基づく手の動きを入力とした音声生成系の構築(マルチモーダル)
- 音声の構造的表象を用いた自動発音評定法の改善
- 用法の違いを考慮した類似単語の置換による学習データ生成とそれを用いた主題の違いに頑健な言語モデルの構築
- 用法の違いを考慮した類似単語の置換による学習データ生成とそれを用いた主題の違いに頑健な言語モデルの構築
- 2ZL-6 大規模英語学習者を対象とした音声の構造的表象に基づく発音分類とその応用(情報爆発時代におけるコミュニケーション手法,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(プロジェクト紹介(2))(第5回音声言語シンポジウム)
- 擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(第5回音声言語シンポジウム : プロジェクト紹介(2))
- 擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(第5回音声言語シンポジウム : プロジェクト紹介(2))
- 擬人化音声対話エージェントツールキットGalatea
- 擬人化音声対話エージェント開発プロジェクト
- 擬人化音声対話エージェントツールキットの基本設計
- 1U-9 音声の構造的表象と多段階の重回帰を用いた外国語発音分析(音声分析・強調,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 擬人化音声対話エージェントツールキットの基本設計
- Evaluations of an open source WFST-based phoneticizer (音声)
- 音声の構造的表象に基づく日本語孤立母音系列を対象とした音声認識(音声,聴覚)
- An analysis on the perception of pitch level changes for Japanese words (音声)
- 経験的モード分解による主構造抽出を介した雑音環境下における音声信号の基本周波数推定
- 経験的モード分解による主構造抽出を介した雑音環境下における音声信号の基本周波数推定
- 日本語単語音声におけるピッチレベル変化の知覚に関する定量的検討
- 音声対話システムにおける応答生成手法の検討
- WFST-駆動G2Pシステムの構築と評価
- トピックス9 日本の音声生成研究の発展と欧米での研究(〈特集〉-音響学における20世紀の成果と21世紀に残された課題-)
- 韻律をテーマとした科学研究費補助金の計画
- 音声の構造的表象と多段階の重回帰を用いた外国語発音評価
- 中国語HMM音声合成の音声品質の検討
- 中国語HMM音声合成における音響モデルの考察
- Eigen-SPLICEを用いた雑音環境下における音声認識
- WFST-駆動G2Pシステムの構築と評価(音声一般,聴覚・音声・言語とその障害/一般)
- 日本語単語音声におけるピッチレベル変化の知覚に関する定量的検討(聴覚一般,聴覚・音声・言語とその障害/一般)
- 母語干渉が外国語発声の韻律的自然性に与える影響に関する知覚的検討(オーガナイズドセッション2,聴覚・音声・言語とその障害/一般)
- 手から声のメディア変換モデルと手のジェスチャーモデルの確率的統合に基づく異メディア空間の対応付けの検討(音声一般・障害者支援,聴覚・音声・言語とその障害/一般)
- 音声の構造的表象に基づく学習者分類の検証と発音矯正度推定の高精度化
- B1.日本人学習者のフランス語母音生成特徴の考察 : 音声の構造表象による発音評価の応用(研究発表,音声学会2009年度(第23回)全国大会発表要旨)
- 韻律語境界を利用した連続数字音声認識
- C5. 日本人学習者のフランス語鼻母音のモデル音声模倣時の生成特徴(研究発表,日本音声学会2007年度(第21回)全国大会発表要旨)
- Pitch Level Fall Transition Probability for Bimoraic Units in Japanese Words (音声)
- 空間写像に基づく母音と鼻子音を対象としたジェスチャ-音声変換システム
- 話者空間のテンソル表現に基づく任意話者声質変換(オーガナイズドセッション:Advances in speech decomposition,合成,生成,韻律,音声一般)
- 日本語単語における2モーラ単位でのピッチレベル低下の確率的定式化(一般セッション,合成,生成,韻律,音声一般)
- 韻律と音声言語処理(合成,生成,韻律,一般)
- テンソル表現に基づく任意話者声質変換に対する話者正規化学習の効果 (音声)
- 音声の構造的表象と多段階の重回帰を用いた外国語発音評価
- 規則処理とCRFに基づくアクセント予測の高精度化(音声一般,聴覚・音声・言語とその障害/一般)
- 雑音抑圧とSPLICEを組み合わせた雑音環境下音声認識(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- SPLICEに基づく音声・口唇画像情報を用いた雑音環境下音声認識(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 条件付き確率場を用いた日本語東京方言のアクセント結合自動推定(音声,聴覚,学生論文)
- Eigenvoiceに基づくキャラクター変換とその評価(一般,音声知覚生成/聴覚コミュニケーション,一般)
- 構造的特徴を用いたSVMによる中国語自動発音誤り検出(システム,認識,理解,対話,一般)
- OJADを支える音声合成技術 音声を合成しない音声合成技術の使い方
- テンソル表現に基づく任意話者声質変換に対する話者正規化学習の効果(一般セッション,福祉と音声処理,一般)
- 日本語アクセント・イントネーションの教育・学習を支援するオンラインインフラストラクチャの構築とその評価(音声,聴覚,システム開発論文)
- 特徴量強調における教師なし話者適応に関する検討(ポスターセッション)
- 波形包絡を用いた音節核の自動抽出とそれを用いた構造的表象による単語獲得プロセスのモデル化の初期検討(ポスターセッション)
- 識別モデルを用いた英語文発声からの強勢自動検出(一般セッション,音声アプリケーション,一般)
- 日本語韻律教育の支援を目的としたオンラインアクセント辞書と読み上げチューターの開発(一般セッション,音声アプリケーション,一般)
- 日本語HMM音声合成のコンテキストラベルの改良(一般セッション,音声・言語・対話,一般)
- REDIALを用いた狭帯域音声の帯域復元(スピーチエンハンスメント,電気音響,信号処理,音声一般)
- REDIALを用いた狭帯域音声の帯域復元(スピーチエンハンスメント,電気音響,信号処理,音声一般)
- REDIALを用いた狭帯域音声の帯域復元(スピーチエンハンスメント,電気音響,信号処理,音声一般)
- データ適応型プレフィルタリングによるスペクトル重み法 : 単一チャンネル音声強調に向けて(スピーチエンハンスメント,電気音響,信号処理,音声一般)
- データ適応型プレフィルタリングによるスペクトル重み法 : 単一チャンネル音声強調に向けて(スピーチエンハンスメント,電気音響,信号処理,音声一般)
- データ適応型プレフィルタリングによるスペクトル重み法 : 単一チャンネル音声強調に向けて(スピーチエンハンスメント,電気音響,信号処理,音声一般)