HMM音声合成に基づく音声認識率予測手法
スポンサーリンク
概要
- 論文の詳細を見る
We describe an efficient method that uses a HMM-based speech synthesis technique as a test pattern generator for evaluating the word recognition rate. The recognition rates of each word and speaker can be evaluated by the synthesized speech by using this method. The parameter generation technique can be formulated as an algorithm that can determine the speech parameter vector sequence O by maximizing P(O¦Q,λ) given the model parameter λ and the state sequence Q, under a dynamic acoustic feature constraint. We conducted recognition experiments to illustrate the validity of the method. Approximately 100 speakers were used to train the speaker dependent models for the speech synthesis used in these experiments, and the synthetic speech was generated as the test patterns for the target speech recognizer. As a result, the recognition rate of the HMM-based synthesized speech shows a good correlation with the recognition rate of the actual speech. Furthermore, we find that our method can predict the speaker recognition rate with approximately 2% error on average. Therefore the evaluation of the speaker recognition rate will be performed automatically by using the proposed method.
- 2010-04-01
著者
-
徳田 恵一
名古屋工業大学大学院
-
寺嶌 立太
(株)豊田中央研究所
-
吉村 貴克
(株)豊田中央研究所
-
脇田 敏裕
(株)豊田中央研究所
-
北村 正
名古屋工業大学
-
寺嶌 立太
豊田中研
-
脇田 敏裕
豊田中央研究所
-
徳田 恵一
名古屋工業大学
-
北村 正
名古屋工業大学工学部機械工学科
-
寺嶌 立太
名古屋工業大学
-
北村 正
名古屋工業大学大学院工学研究科
関連論文
- 拡張分離型格子HMMに基づく顔画像認識 (ヒューマン情報処理)
- 拡張分離型格子HMMに基づく顔画像認識 (パターン認識・メディア理解)
- ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術の総合開発(総合報告)
- 声質と歌唱スタイルを自動学習可能な歌声合成システム(スペシャルセッション・歌情報処理2)
- 11.人にやさしい音声インタフェース(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- 第1回 HTSを用いた音声合成システムの構築
- 状態継続長を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4,コンピュータビジョンとパターン認識のための学習理論)
- 回転変動を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4,コンピュータビジョンとパターン認識のための学習理論)
- 回転変動を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4)
- 声質変換のためのスペクトル・F_0の同時モデリング(一般(ポスターセッション),第9回音声言語シンポジウム)
- HMM音声合成に基づく音声認識率予測手法
- 音声合成研究も協調と競争の時代に : The Blizzard Challenge
- Blizzard Challenge 2005に向けたHMM音声合成システム((SS)高品質音声分析変換合成法STRAIGHT, 一般, STRAIGHTスペシャルセッション(SS))
- Eurospeech99, IEEE MMSP99会議報告
- HMM音声合成における共分散パラメータの共有に関する検討(ポスターセッション,第10回音声言語シンポジウム)
- 状態継続長を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成 (音声)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成 (言語理解とコミュニケーション)
- 信頼度基準による解探索打ち切りに基づく超早音声認識
- D-12-29 アクティブ画像探索法を用いたHMMジェスチャー認識の特徴量抽出の検討(D-12. パターン認識・メディア理解, 情報・システム2)
- D-12-117 情報量基準に基づいたHMMジェスチャー認識の状態数の検討(D-12. パターン認識・メディア理解B)
- HMMに基づくテキスト音声合成への混合励振源モデルとポストフィルタの導入(音声,聴覚)
- 韻律生成HMMのための学習データ作成ツール
- マルチモーダルコミュニケーションのための音声合成プラットホーム
- マルチモーダルコミュニケーションのための音声合成プラットホーム
- HMM音声合成におけるスペクトル・ピッチへの固有声手法の適用
- HMMに基づく音声合成への混合励振源モデルとポストフィルタの導入
- HMM音声合成におけるスペクトル・ピッチへの固有声手法の適用
- HMMに基づく音声合成への混合励振源モデルとポストフィルタの導入
- HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化(音声情報処理 : 現状と将来技術論文特集)
- A-4-5 基本動作HMMに基づく手話単語認識手法(A-4.信号処理,一般講演)
- 声質変換のためのスペクトル・F_0の同時モデリング(一般(ポスターセッション),第9回音声言語シンポジウム)
- 声質変換のためのスペクトル・F_0の同時モデリング(一般(ポスターセッション),第9回音声言語シンポジウム)
- 拡張分離型格子HMMに基づく顔画像認識(テーマ発表,顔・人物・ジェスチャの認識・理解)
- 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換(音声合成・声質変換,第10回音声言語シンポジウム)
- 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換(音声合成・声質変換,第10回音声言語シンポジウム)
- 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換(音声合成・声質変換,第10回音声言語シンポジウム)
- HMM音声合成システム(HTS)の開発(システム,第9回音声言語シンポジウム)
- HMM音声合成システム(HTS)の開発(システム,第9回音声言語シンポジウム)
- HMM音声合成システム(HTS)の開発(システム,第9回音声言語シンポジウム)
- 変分ベイズ法を用いたGMMに基づく話者認識(ポスターセッション,第10回音声言語シンポジウム)
- 複数の音素決定木構造を含む統計モデルに基づく音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 変分ベイズ法を用いたGMMに基づく話者認識(ポスターセッション,第10回音声言語シンポジウム)
- 複数の音素決定木構造を含む統計モデルに基づく音声認識(ポスターセッション,第10回音声言語シンポジウム)
- HMM音声合成における共分散パラメータの共有に関する検討(ポスターセッション,第10回音声言語シンポジウム)
- 変分ベイズ法を用いたGMMに基づく話者認識(ポスターセッション,第10回音声言語シンポジウム)
- 複数の音素決定木構造を含む統計モデルに基づく音声認識(ポスターセッション,第10回音声言語シンポジウム)
- HMM音声合成における共分散パラメータの共有に関する検討(ポスターセッション,第10回音声言語シンポジウム)
- 1. 隠れマルコフモデルによる音声認識と音声合成(音声情報処理技術の最先端)
- HMM音声合成のためのクロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング(音声合成・声質変換,第10回音声言語シンポジウム)
- HMM音声合成のためのクロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング(音声合成・声質変換,第10回音声言語シンポジウム)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造(ポスターセッション)(第5回音声言語シンポジウム)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造(第5回音声言語シンポジウム : ポスターセッション)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造(第5回音声言語シンポジウム : ポスターセッション)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造
- Sinsy:「あの人に歌ってほしい」をかなえるHMM歌声合成システム
- 座談会 : 音声研究を語る : (小特集:)
- 音声対話システムのためのN-gramに基づくキーワードからの文生成(対話,第11回音声言語シンポジウム)
- 音声対話システムのためのN-gramに基づくキーワードからの文生成(対話,第11回音声言語シンポジウム)
- 声質と歌唱スタイルを自動学習可能な歌声合成システム(スペシャルセッション・歌情報処理2)
- 統計的パラメトリック音声合成技術の動向(音声合成に関する研究の動向)
- HMM音声合成のためのクロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング(音声合成・声質変換,第10回音声言語シンポジウム)
- 変分ベイズ法に基づく声質変換(音声合成・韻律,第9回音声言語シンポジウム)
- 変分ベイズ法に基づく声質変換(音声合成・韻律,第9回音声言語シンポジウム)
- 変分ベイズ法に基づく声質変換(音声合成・韻律,第9回音声言語シンポジウム)
- 音声対話システムにおける発話文の自動クラスタリングに基づく応答選択(話し言葉処理)
- 音素決定木構造のアニーリングに基づく音響モデリング(聴覚・音声/一般)
- 可変固有顔モデルによる顔画像認識(テーマセッション(1),パターン認識・メディア理解のための学習理論とその応用)
- I_010 可変固有顔による顔画像認識(I分野:画像認識・メディア理解)
- フレーム単位の信頼度を用いた並列音声認識におけるデコーダ間枝刈りの検討(音声認識)
- ユーザ生成型音声対話コンテンツを用いた音声情報案内システム(一般(ポスターセッション),第11回音声言語シンポジウム)
- ユーザ生成型音声対話コンテンツを用いた音声情報案内システム(一般(ポスターセッション),第11回音声言語シンポジウム)
- HMM音声合成におけるコンテキストクラスタリング決定木を用いた話者適応の検討(合成, 韻律, 生成, 一般)
- ベイズ的アプローチに基づくHMM音声合成(合成, 韻律, 生成, 一般)
- 拡張分離型格子HMMに基づく顔画像認識(テーマ発表,顔・人物・ジェスチャの認識・理解)
- Sinsy : 「あの人に歌ってほしい」をかなえるHMM歌声合成システム
- フレーム単位のコンテキスト依存構造に基づく音声認識のための音響モデル
- 認識時に非観測な変動要因を考慮可能な音響モデリング(ポスターセッション)(第5回音声言語シンポジウム)
- 認識時に非観測な変動要因を考慮可能な音響モデリング(第5回音声言語シンポジウム : ポスターセッション)
- 認識時に非観測な変動要因を考慮可能な音響モデリング(第5回音声言語シンポジウム : ポスターセッション)
- 認識時に非観測な変動要因を考慮可能な音響モデリング
- 4L-6 隠れマルコフモデルに基づく音声合成システム(リーディングプロジェクト e-society:自然な音声対話処理技術(2),一般セッション,リーディングプロジェクト e-society)
- 決定木に基づく音素コンテクスト・次元・状態位置の同時クラスタリングによる音響モデリング(音声,聴覚)
- D-12-119 手の動作と形状を用いたHMM手話認識(D-12. パターン認識・メディア理解B)
- A-4-23 手座標追跡によるジェスチャー認識
- I-21 ジェスチャーを用いた個人識別におけるPCAの次元数の検討(人物姿勢推定・ジェスチャ認識,I.画像認識・メディア理解)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成(一般(ポスターセッション),第11回音声言語シンポジウム)
- 複数の特徴量による条件付確率場に基づく音声区間検出(韻律・VAD,第11回音声言語シンポジウム)
- 音声認識のための非線形スペクトル変換を用いた話者適応(音響モデル,第11回音声言語シンポジウム)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成(一般(ポスターセッション),第11回音声言語シンポジウム)
- 複数の特徴量による条件付確率場に基づく音声区間検出(韻律・VAD,第11回音声言語シンポジウム)
- 音声認識のための非線形スペクトル変換を用いた話者適応(音響モデル,第11回音声言語シンポジウム)
- HMM に基づく歌声合成のためのビブラートモデル化
- カスタマイズ性を考慮した擬人化音声対話ソフトウェアツールキットの設計(音声言語情報処理とその応用)
- メル一般化ケプストラム分析に基づく広帯域音声のCELP符号化の検討
- メル一般化ケプストラム分析に基づく広帯域音声のCELP符号化の検討
- K-092 隠れマルコフモデルに基づく指文字動画像生成(K分野:ヒューマンコミュニケーション&インタラクション)
- HMM音声合成におけるガンマ分布状態継続長モデルの検討
- HMM音声合成におけるガンマ分布状態継続長モデルの検討
- A-6-4 メル一般化ケプストラム分析に基づくMELP音声符号化