フレーム単位のコンテキスト依存構造に基づく音声認識のための音響モデル
スポンサーリンク
概要
- 論文の詳細を見る
We propose a novel acoustic model for speech recognition, named FCD (Frame-based Context Dependent) model. It can obtain a probability distribution by using a top-down clustering technique to simultaneously consider the local frame position in phoneme, phoneme duration, and phoneme context. The model topology is derived from connecting left-to-right HMM models without self-loop transition for each phoneme duration. Because the FCD model can change the probability distribution into a sequence corresponding with one phoneme duration, it can has the ability to generate a smooth trajectory of speech feature vector. We also performed an experiment to evaluate the performance of speech recognition for the model. In the experiment, 132 questions for frame position, 66 questions for phoneme duration and 134 questions for phoneme context were used to train the sub-phoneme FCD model. In order to compare the performance, left-to-right HMM and two types of HSMM models with almost same number of states were also trained. As a result, 18% of relative improvement of tri-phone accuracy was achieved by the FCD model.
- 社団法人 電気学会の論文
著者
-
徳田 恵一
名古屋工業大学大学院
-
全 炳河
東芝欧州研究所
-
全 炳河
名古屋工業大学
-
徳田 恵一
名古屋工業大学
-
南角 吉彦
名古屋工業大学大学院 工学研究科
-
南角 吉彦
名古屋工業大学大学院工学研究科創成シミュレーション工学専攻
-
寺嶌 立太
名古屋工業大学
-
南角 吉彦
名古屋工業大学
関連論文
- 拡張分離型格子HMMに基づく顔画像認識 (ヒューマン情報処理)
- 拡張分離型格子HMMに基づく顔画像認識 (パターン認識・メディア理解)
- ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術の総合開発(総合報告)
- 声質と歌唱スタイルを自動学習可能な歌声合成システム(スペシャルセッション・歌情報処理2)
- 11.人にやさしい音声インタフェース(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- 第1回 HTSを用いた音声合成システムの構築
- 状態継続長を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4,コンピュータビジョンとパターン認識のための学習理論)
- 回転変動を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4,コンピュータビジョンとパターン認識のための学習理論)
- 回転変動を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4)
- 声質変換のためのスペクトル・F_0の同時モデリング(一般(ポスターセッション),第9回音声言語シンポジウム)
- HMM音声合成に基づく音声認識率予測手法
- 音声合成研究も協調と競争の時代に : The Blizzard Challenge
- Blizzard Challenge 2005に向けたHMM音声合成システム((SS)高品質音声分析変換合成法STRAIGHT, 一般, STRAIGHTスペシャルセッション(SS))
- Eurospeech99, IEEE MMSP99会議報告
- HMM音声合成における共分散パラメータの共有に関する検討(ポスターセッション,第10回音声言語シンポジウム)
- 状態継続長を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成 (音声)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成 (言語理解とコミュニケーション)
- 信頼度基準による解探索打ち切りに基づく超早音声認識
- D-12-29 アクティブ画像探索法を用いたHMMジェスチャー認識の特徴量抽出の検討(D-12. パターン認識・メディア理解, 情報・システム2)
- D-12-117 情報量基準に基づいたHMMジェスチャー認識の状態数の検討(D-12. パターン認識・メディア理解B)
- HMMに基づくテキスト音声合成への混合励振源モデルとポストフィルタの導入(音声,聴覚)
- 韻律生成HMMのための学習データ作成ツール
- マルチモーダルコミュニケーションのための音声合成プラットホーム
- マルチモーダルコミュニケーションのための音声合成プラットホーム
- HMM音声合成におけるスペクトル・ピッチへの固有声手法の適用
- HMMに基づく音声合成への混合励振源モデルとポストフィルタの導入
- HMM音声合成におけるスペクトル・ピッチへの固有声手法の適用
- HMMに基づく音声合成への混合励振源モデルとポストフィルタの導入
- HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化(音声情報処理 : 現状と将来技術論文特集)
- A-4-5 基本動作HMMに基づく手話単語認識手法(A-4.信号処理,一般講演)
- 声質変換のためのスペクトル・F_0の同時モデリング(一般(ポスターセッション),第9回音声言語シンポジウム)
- 声質変換のためのスペクトル・F_0の同時モデリング(一般(ポスターセッション),第9回音声言語シンポジウム)
- 拡張分離型格子HMMに基づく顔画像認識(テーマ発表,顔・人物・ジェスチャの認識・理解)
- 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換(音声合成・声質変換,第10回音声言語シンポジウム)
- 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換(音声合成・声質変換,第10回音声言語シンポジウム)
- 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換(音声合成・声質変換,第10回音声言語シンポジウム)
- HMM音声合成システム(HTS)の開発(システム,第9回音声言語シンポジウム)
- HMM音声合成システム(HTS)の開発(システム,第9回音声言語シンポジウム)
- HMM音声合成システム(HTS)の開発(システム,第9回音声言語シンポジウム)
- 変分ベイズ法を用いたGMMに基づく話者認識(ポスターセッション,第10回音声言語シンポジウム)
- 複数の音素決定木構造を含む統計モデルに基づく音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 変分ベイズ法を用いたGMMに基づく話者認識(ポスターセッション,第10回音声言語シンポジウム)
- 複数の音素決定木構造を含む統計モデルに基づく音声認識(ポスターセッション,第10回音声言語シンポジウム)
- HMM音声合成における共分散パラメータの共有に関する検討(ポスターセッション,第10回音声言語シンポジウム)
- 変分ベイズ法を用いたGMMに基づく話者認識(ポスターセッション,第10回音声言語シンポジウム)
- 複数の音素決定木構造を含む統計モデルに基づく音声認識(ポスターセッション,第10回音声言語シンポジウム)
- HMM音声合成における共分散パラメータの共有に関する検討(ポスターセッション,第10回音声言語シンポジウム)
- 1. 隠れマルコフモデルによる音声認識と音声合成(音声情報処理技術の最先端)
- HMM音声合成のためのクロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング(音声合成・声質変換,第10回音声言語シンポジウム)
- HMM音声合成のためのクロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング(音声合成・声質変換,第10回音声言語シンポジウム)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造(ポスターセッション)(第5回音声言語シンポジウム)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造(第5回音声言語シンポジウム : ポスターセッション)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造(第5回音声言語シンポジウム : ポスターセッション)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造
- Sinsy:「あの人に歌ってほしい」をかなえるHMM歌声合成システム
- 座談会 : 音声研究を語る : (小特集:)
- 音声対話システムのためのN-gramに基づくキーワードからの文生成(対話,第11回音声言語シンポジウム)
- 音声対話システムのためのN-gramに基づくキーワードからの文生成(対話,第11回音声言語シンポジウム)
- 声質と歌唱スタイルを自動学習可能な歌声合成システム(スペシャルセッション・歌情報処理2)
- 統計的パラメトリック音声合成技術の動向(音声合成に関する研究の動向)
- HMM音声合成のためのクロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング(音声合成・声質変換,第10回音声言語シンポジウム)
- 変分ベイズ法に基づく声質変換(音声合成・韻律,第9回音声言語シンポジウム)
- 変分ベイズ法に基づく声質変換(音声合成・韻律,第9回音声言語シンポジウム)
- 変分ベイズ法に基づく声質変換(音声合成・韻律,第9回音声言語シンポジウム)
- 音声対話システムにおける発話文の自動クラスタリングに基づく応答選択(話し言葉処理)
- 音素決定木構造のアニーリングに基づく音響モデリング(聴覚・音声/一般)
- 可変固有顔モデルによる顔画像認識(テーマセッション(1),パターン認識・メディア理解のための学習理論とその応用)
- I_010 可変固有顔による顔画像認識(I分野:画像認識・メディア理解)
- フレーム単位の信頼度を用いた並列音声認識におけるデコーダ間枝刈りの検討(音声認識)
- ユーザ生成型音声対話コンテンツを用いた音声情報案内システム(一般(ポスターセッション),第11回音声言語シンポジウム)
- ユーザ生成型音声対話コンテンツを用いた音声情報案内システム(一般(ポスターセッション),第11回音声言語シンポジウム)
- HMM音声合成におけるコンテキストクラスタリング決定木を用いた話者適応の検討(合成, 韻律, 生成, 一般)
- ベイズ的アプローチに基づくHMM音声合成(合成, 韻律, 生成, 一般)
- 拡張分離型格子HMMに基づく顔画像認識(テーマ発表,顔・人物・ジェスチャの認識・理解)
- Sinsy : 「あの人に歌ってほしい」をかなえるHMM歌声合成システム
- フレーム単位のコンテキスト依存構造に基づく音声認識のための音響モデル
- 認識時に非観測な変動要因を考慮可能な音響モデリング(ポスターセッション)(第5回音声言語シンポジウム)
- 認識時に非観測な変動要因を考慮可能な音響モデリング(第5回音声言語シンポジウム : ポスターセッション)
- 認識時に非観測な変動要因を考慮可能な音響モデリング(第5回音声言語シンポジウム : ポスターセッション)
- 認識時に非観測な変動要因を考慮可能な音響モデリング
- 4L-6 隠れマルコフモデルに基づく音声合成システム(リーディングプロジェクト e-society:自然な音声対話処理技術(2),一般セッション,リーディングプロジェクト e-society)
- 決定木に基づく音素コンテクスト・次元・状態位置の同時クラスタリングによる音響モデリング(音声,聴覚)
- D-12-119 手の動作と形状を用いたHMM手話認識(D-12. パターン認識・メディア理解B)
- A-4-23 手座標追跡によるジェスチャー認識
- I-21 ジェスチャーを用いた個人識別におけるPCAの次元数の検討(人物姿勢推定・ジェスチャ認識,I.画像認識・メディア理解)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成(一般(ポスターセッション),第11回音声言語シンポジウム)
- 複数の特徴量による条件付確率場に基づく音声区間検出(韻律・VAD,第11回音声言語シンポジウム)
- 音声認識のための非線形スペクトル変換を用いた話者適応(音響モデル,第11回音声言語シンポジウム)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成(一般(ポスターセッション),第11回音声言語シンポジウム)
- 複数の特徴量による条件付確率場に基づく音声区間検出(韻律・VAD,第11回音声言語シンポジウム)
- 音声認識のための非線形スペクトル変換を用いた話者適応(音響モデル,第11回音声言語シンポジウム)
- HMM に基づく歌声合成のためのビブラートモデル化
- カスタマイズ性を考慮した擬人化音声対話ソフトウェアツールキットの設計(音声言語情報処理とその応用)
- メル一般化ケプストラム分析に基づく広帯域音声のCELP符号化の検討
- メル一般化ケプストラム分析に基づく広帯域音声のCELP符号化の検討
- K-092 隠れマルコフモデルに基づく指文字動画像生成(K分野:ヒューマンコミュニケーション&インタラクション)
- HMM音声合成におけるガンマ分布状態継続長モデルの検討
- HMM音声合成におけるガンマ分布状態継続長モデルの検討
- A-6-4 メル一般化ケプストラム分析に基づくMELP音声符号化