決定木に基づく音素コンテキスト・次元・状態位置の同時クラスタリングによる音響モデリング(音響と音声処理,音声強調,ロバスト音声認識)
スポンサーリンク
概要
- 論文の詳細を見る
近年,連続音声認識システムにおける音響モデルとして,前後の音素環境を考慮した音素コンテキスト依存隠れマルコフモデルが広く利用されている.音素コンテキスト依存隠れマルコフモデルを利用する場合,総モデル数が増加しシステムが非常に多くの自由パラメータを含むため,統計的に信頼できるモデルを推定することが困難になる.このため,様々なパラメータ共有手法が提案されており,音素決定木に基づく状態共有法は,この問題の優れた解決法の一つである.しかし,状態単位の共有構造では特徴ベクトルの全次元に同一の共有構造を構築するため,各特徴量に対し異なる共有構造を構築できない,適切なパラメータ数を割り当てることができない,といった問題点がある.本報告では,記述長最小化基準に基づく次元分割法を導入して音素決定木を拡張し,音素・次元決定木を提案する.さらに,状態位置に関する分割条件を加え,音素コンテキスト・次元・状態位置を決定木に基づき同時にクラスタリングする手法を提案する.不特定話者連続音声認識実験の結果,提案法は従来の状態クラスタリング法と比較して13%-15%誤り率を削減することができた.
- 社団法人電子情報通信学会の論文
- 2003-04-17
著者
関連論文
- 拡張分離型格子HMMに基づく顔画像認識 (ヒューマン情報処理)
- 拡張分離型格子HMMに基づく顔画像認識 (パターン認識・メディア理解)
- ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術の総合開発(総合報告)
- 声質と歌唱スタイルを自動学習可能な歌声合成システム(スペシャルセッション・歌情報処理2)
- 11.人にやさしい音声インタフェース(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- 第1回 HTSを用いた音声合成システムの構築
- 状態継続長を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4,コンピュータビジョンとパターン認識のための学習理論)
- 回転変動を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4,コンピュータビジョンとパターン認識のための学習理論)
- 回転変動を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4)
- 声質変換のためのスペクトル・F_0の同時モデリング(一般(ポスターセッション),第9回音声言語シンポジウム)
- HMM音声合成に基づく音声認識率予測手法
- 音声合成研究も協調と競争の時代に : The Blizzard Challenge
- Blizzard Challenge 2005に向けたHMM音声合成システム((SS)高品質音声分析変換合成法STRAIGHT, 一般, STRAIGHTスペシャルセッション(SS))
- Eurospeech99, IEEE MMSP99会議報告
- HMM音声合成における共分散パラメータの共有に関する検討(ポスターセッション,第10回音声言語シンポジウム)
- 状態継続長を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成 (音声)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成 (言語理解とコミュニケーション)
- 信頼度基準による解探索打ち切りに基づく超早音声認識
- D-12-29 アクティブ画像探索法を用いたHMMジェスチャー認識の特徴量抽出の検討(D-12. パターン認識・メディア理解, 情報・システム2)
- D-12-117 情報量基準に基づいたHMMジェスチャー認識の状態数の検討(D-12. パターン認識・メディア理解B)
- HMMに基づくテキスト音声合成への混合励振源モデルとポストフィルタの導入(音声,聴覚)
- 韻律生成HMMのための学習データ作成ツール
- マルチモーダルコミュニケーションのための音声合成プラットホーム
- マルチモーダルコミュニケーションのための音声合成プラットホーム
- HMM音声合成におけるスペクトル・ピッチへの固有声手法の適用
- HMMに基づく音声合成への混合励振源モデルとポストフィルタの導入
- HMM音声合成におけるスペクトル・ピッチへの固有声手法の適用
- HMMに基づく音声合成への混合励振源モデルとポストフィルタの導入
- HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化(音声情報処理 : 現状と将来技術論文特集)
- A-4-5 基本動作HMMに基づく手話単語認識手法(A-4.信号処理,一般講演)
- 声質変換のためのスペクトル・F_0の同時モデリング(一般(ポスターセッション),第9回音声言語シンポジウム)
- 声質変換のためのスペクトル・F_0の同時モデリング(一般(ポスターセッション),第9回音声言語シンポジウム)
- 拡張分離型格子HMMに基づく顔画像認識(テーマ発表,顔・人物・ジェスチャの認識・理解)
- 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換(音声合成・声質変換,第10回音声言語シンポジウム)
- 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換(音声合成・声質変換,第10回音声言語シンポジウム)
- 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換(音声合成・声質変換,第10回音声言語シンポジウム)
- HMM音声合成システム(HTS)の開発(システム,第9回音声言語シンポジウム)
- HMM音声合成システム(HTS)の開発(システム,第9回音声言語シンポジウム)
- HMM音声合成システム(HTS)の開発(システム,第9回音声言語シンポジウム)
- 変分ベイズ法を用いたGMMに基づく話者認識(ポスターセッション,第10回音声言語シンポジウム)
- 複数の音素決定木構造を含む統計モデルに基づく音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 変分ベイズ法を用いたGMMに基づく話者認識(ポスターセッション,第10回音声言語シンポジウム)
- 複数の音素決定木構造を含む統計モデルに基づく音声認識(ポスターセッション,第10回音声言語シンポジウム)
- HMM音声合成における共分散パラメータの共有に関する検討(ポスターセッション,第10回音声言語シンポジウム)
- 変分ベイズ法を用いたGMMに基づく話者認識(ポスターセッション,第10回音声言語シンポジウム)
- 複数の音素決定木構造を含む統計モデルに基づく音声認識(ポスターセッション,第10回音声言語シンポジウム)
- HMM音声合成における共分散パラメータの共有に関する検討(ポスターセッション,第10回音声言語シンポジウム)
- 1. 隠れマルコフモデルによる音声認識と音声合成(音声情報処理技術の最先端)
- HMM音声合成のためのクロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング(音声合成・声質変換,第10回音声言語シンポジウム)
- HMM音声合成のためのクロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング(音声合成・声質変換,第10回音声言語シンポジウム)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造(ポスターセッション)(第5回音声言語シンポジウム)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造(第5回音声言語シンポジウム : ポスターセッション)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造(第5回音声言語シンポジウム : ポスターセッション)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造
- Sinsy:「あの人に歌ってほしい」をかなえるHMM歌声合成システム
- 座談会 : 音声研究を語る : (小特集:)
- 音声対話システムのためのN-gramに基づくキーワードからの文生成(対話,第11回音声言語シンポジウム)
- 音声対話システムのためのN-gramに基づくキーワードからの文生成(対話,第11回音声言語シンポジウム)
- 声質と歌唱スタイルを自動学習可能な歌声合成システム(スペシャルセッション・歌情報処理2)
- 統計的パラメトリック音声合成技術の動向(音声合成に関する研究の動向)
- HMM音声合成のためのクロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング(音声合成・声質変換,第10回音声言語シンポジウム)
- 変分ベイズ法に基づく声質変換(音声合成・韻律,第9回音声言語シンポジウム)
- 変分ベイズ法に基づく声質変換(音声合成・韻律,第9回音声言語シンポジウム)
- 変分ベイズ法に基づく声質変換(音声合成・韻律,第9回音声言語シンポジウム)
- 音声対話システムにおける発話文の自動クラスタリングに基づく応答選択(話し言葉処理)
- 音素決定木構造のアニーリングに基づく音響モデリング(聴覚・音声/一般)
- 可変固有顔モデルによる顔画像認識(テーマセッション(1),パターン認識・メディア理解のための学習理論とその応用)
- I_010 可変固有顔による顔画像認識(I分野:画像認識・メディア理解)
- フレーム単位の信頼度を用いた並列音声認識におけるデコーダ間枝刈りの検討(音声認識)
- ユーザ生成型音声対話コンテンツを用いた音声情報案内システム(一般(ポスターセッション),第11回音声言語シンポジウム)
- ユーザ生成型音声対話コンテンツを用いた音声情報案内システム(一般(ポスターセッション),第11回音声言語シンポジウム)
- HMM音声合成におけるコンテキストクラスタリング決定木を用いた話者適応の検討(合成, 韻律, 生成, 一般)
- ベイズ的アプローチに基づくHMM音声合成(合成, 韻律, 生成, 一般)
- 拡張分離型格子HMMに基づく顔画像認識(テーマ発表,顔・人物・ジェスチャの認識・理解)
- Sinsy : 「あの人に歌ってほしい」をかなえるHMM歌声合成システム
- フレーム単位のコンテキスト依存構造に基づく音声認識のための音響モデル
- 認識時に非観測な変動要因を考慮可能な音響モデリング(ポスターセッション)(第5回音声言語シンポジウム)
- 認識時に非観測な変動要因を考慮可能な音響モデリング(第5回音声言語シンポジウム : ポスターセッション)
- 認識時に非観測な変動要因を考慮可能な音響モデリング(第5回音声言語シンポジウム : ポスターセッション)
- 認識時に非観測な変動要因を考慮可能な音響モデリング
- 4L-6 隠れマルコフモデルに基づく音声合成システム(リーディングプロジェクト e-society:自然な音声対話処理技術(2),一般セッション,リーディングプロジェクト e-society)
- 決定木に基づく音素コンテクスト・次元・状態位置の同時クラスタリングによる音響モデリング(音声,聴覚)
- D-12-119 手の動作と形状を用いたHMM手話認識(D-12. パターン認識・メディア理解B)
- A-4-23 手座標追跡によるジェスチャー認識
- I-21 ジェスチャーを用いた個人識別におけるPCAの次元数の検討(人物姿勢推定・ジェスチャ認識,I.画像認識・メディア理解)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成(一般(ポスターセッション),第11回音声言語シンポジウム)
- 複数の特徴量による条件付確率場に基づく音声区間検出(韻律・VAD,第11回音声言語シンポジウム)
- 音声認識のための非線形スペクトル変換を用いた話者適応(音響モデル,第11回音声言語シンポジウム)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成(一般(ポスターセッション),第11回音声言語シンポジウム)
- 複数の特徴量による条件付確率場に基づく音声区間検出(韻律・VAD,第11回音声言語シンポジウム)
- 音声認識のための非線形スペクトル変換を用いた話者適応(音響モデル,第11回音声言語シンポジウム)
- HMM に基づく歌声合成のためのビブラートモデル化
- カスタマイズ性を考慮した擬人化音声対話ソフトウェアツールキットの設計(音声言語情報処理とその応用)
- メル一般化ケプストラム分析に基づく広帯域音声のCELP符号化の検討
- メル一般化ケプストラム分析に基づく広帯域音声のCELP符号化の検討
- K-092 隠れマルコフモデルに基づく指文字動画像生成(K分野:ヒューマンコミュニケーション&インタラクション)
- HMM音声合成におけるガンマ分布状態継続長モデルの検討
- HMM音声合成におけるガンマ分布状態継続長モデルの検討
- A-6-4 メル一般化ケプストラム分析に基づくMELP音声符号化