HMM歌声合成における音高正規化学習の検討
スポンサーリンク
概要
- 論文の詳細を見る
隠れマルコフモデル (Hidden Markov Model; HMM) に基づく歌声合成システムは HMM テキスト音声合成システムを応用したシステムで,歌声から抽出したスペクトル,基本周波数,ビブラートを HMM でモデル化し,学習した HMM からパラメータを生成することで,任意の歌声が合成できる.しかし,HMM 歌声合成が合成可能な音高は学習データベースに強く依存するため,学習データベースの中に特定の音高が少ない場合や存在しない場合にその音高をうまく合成できない問題があった.この問題を軽減するため,音高をシフトさせたデータを用いて擬似的に学習データを増やす手法や,あらかじめデータを正規化する手法が提案されているが,疑似学習データによる学習時間の増大や,学習アルゴリズムとデータの不一致などの様々な問題があった.そこで本稿では,音符の音高を基準とした対数基本周波数系列の正規化を学習に内包する音高正規化学習手法を提案し,主観評価実験により提案手法の有効性を確認した.
- 一般社団法人情報処理学会の論文
- 2012-01-27
著者
関連論文
- ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術の総合開発(総合報告)
- 声質と歌唱スタイルを自動学習可能な歌声合成システム(スペシャルセッション・歌情報処理2)
- 11.人にやさしい音声インタフェース(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- 第1回 HTSを用いた音声合成システムの構築
- 状態継続長を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4,コンピュータビジョンとパターン認識のための学習理論)
- 回転変動を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4,コンピュータビジョンとパターン認識のための学習理論)
- 回転変動を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4)
- 声質変換のためのスペクトル・F_0の同時モデリング(一般(ポスターセッション),第9回音声言語シンポジウム)
- HMM音声合成に基づく音声認識率予測手法
- 音声合成研究も協調と競争の時代に : The Blizzard Challenge
- Blizzard Challenge 2005に向けたHMM音声合成システム((SS)高品質音声分析変換合成法STRAIGHT, 一般, STRAIGHTスペシャルセッション(SS))
- Eurospeech99, IEEE MMSP99会議報告
- HMM音声合成における共分散パラメータの共有に関する検討(ポスターセッション,第10回音声言語シンポジウム)
- 状態継続長を考慮した分離型2次元格子HMMによる顔画像認識(テーマ関連セッション4)
- 信頼度基準による解探索打ち切りに基づく超早音声認識
- D-12-29 アクティブ画像探索法を用いたHMMジェスチャー認識の特徴量抽出の検討(D-12. パターン認識・メディア理解, 情報・システム2)
- D-12-117 情報量基準に基づいたHMMジェスチャー認識の状態数の検討(D-12. パターン認識・メディア理解B)
- HMMに基づくテキスト音声合成への混合励振源モデルとポストフィルタの導入(音声,聴覚)
- 韻律生成HMMのための学習データ作成ツール
- マルチモーダルコミュニケーションのための音声合成プラットホーム
- マルチモーダルコミュニケーションのための音声合成プラットホーム
- HMM音声合成におけるスペクトル・ピッチへの固有声手法の適用
- HMMに基づく音声合成への混合励振源モデルとポストフィルタの導入
- HMM音声合成におけるスペクトル・ピッチへの固有声手法の適用
- HMMに基づく音声合成への混合励振源モデルとポストフィルタの導入
- HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化(音声情報処理 : 現状と将来技術論文特集)
- A-4-5 基本動作HMMに基づく手話単語認識手法(A-4.信号処理,一般講演)
- 声質変換のためのスペクトル・F_0の同時モデリング(一般(ポスターセッション),第9回音声言語シンポジウム)
- 声質変換のためのスペクトル・F_0の同時モデリング(一般(ポスターセッション),第9回音声言語シンポジウム)
- 拡張分離型格子HMMに基づく顔画像認識(テーマ発表,顔・人物・ジェスチャの認識・理解)
- 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換(音声合成・声質変換,第10回音声言語シンポジウム)
- 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換(音声合成・声質変換,第10回音声言語シンポジウム)
- 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換(音声合成・声質変換,第10回音声言語シンポジウム)
- HMM音声合成システム(HTS)の開発(システム,第9回音声言語シンポジウム)
- HMM音声合成システム(HTS)の開発(システム,第9回音声言語シンポジウム)
- HMM音声合成システム(HTS)の開発(システム,第9回音声言語シンポジウム)
- 変分ベイズ法を用いたGMMに基づく話者認識(ポスターセッション,第10回音声言語シンポジウム)
- 複数の音素決定木構造を含む統計モデルに基づく音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 変分ベイズ法を用いたGMMに基づく話者認識(ポスターセッション,第10回音声言語シンポジウム)
- 複数の音素決定木構造を含む統計モデルに基づく音声認識(ポスターセッション,第10回音声言語シンポジウム)
- HMM音声合成における共分散パラメータの共有に関する検討(ポスターセッション,第10回音声言語シンポジウム)
- 変分ベイズ法を用いたGMMに基づく話者認識(ポスターセッション,第10回音声言語シンポジウム)
- 複数の音素決定木構造を含む統計モデルに基づく音声認識(ポスターセッション,第10回音声言語シンポジウム)
- HMM音声合成における共分散パラメータの共有に関する検討(ポスターセッション,第10回音声言語シンポジウム)
- 1. 隠れマルコフモデルによる音声認識と音声合成(音声情報処理技術の最先端)
- HMM音声合成のためのクロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング(音声合成・声質変換,第10回音声言語シンポジウム)
- HMM音声合成のためのクロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング(音声合成・声質変換,第10回音声言語シンポジウム)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造(ポスターセッション)(第5回音声言語シンポジウム)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造(第5回音声言語シンポジウム : ポスターセッション)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造(第5回音声言語シンポジウム : ポスターセッション)
- 混合因子分析に基づく話者識別モデルのパラメータ共有構造
- Sinsy:「あの人に歌ってほしい」をかなえるHMM歌声合成システム
- 座談会 : 音声研究を語る : (小特集:)
- 音声対話システムのためのN-gramに基づくキーワードからの文生成(対話,第11回音声言語シンポジウム)
- 音声対話システムのためのN-gramに基づくキーワードからの文生成(対話,第11回音声言語シンポジウム)
- 声質と歌唱スタイルを自動学習可能な歌声合成システム(スペシャルセッション・歌情報処理2)
- 統計的パラメトリック音声合成技術の動向(音声合成に関する研究の動向)
- HMM音声合成のためのクロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング(音声合成・声質変換,第10回音声言語シンポジウム)
- 変分ベイズ法に基づく声質変換(音声合成・韻律,第9回音声言語シンポジウム)
- 変分ベイズ法に基づく声質変換(音声合成・韻律,第9回音声言語シンポジウム)
- 変分ベイズ法に基づく声質変換(音声合成・韻律,第9回音声言語シンポジウム)
- 音声対話システムにおける発話文の自動クラスタリングに基づく応答選択(話し言葉処理)
- 音素決定木構造のアニーリングに基づく音響モデリング(聴覚・音声/一般)
- 可変固有顔モデルによる顔画像認識(テーマセッション(1),パターン認識・メディア理解のための学習理論とその応用)
- I_010 可変固有顔による顔画像認識(I分野:画像認識・メディア理解)
- フレーム単位の信頼度を用いた並列音声認識におけるデコーダ間枝刈りの検討(音声認識)
- ユーザ生成型音声対話コンテンツを用いた音声情報案内システム(一般(ポスターセッション),第11回音声言語シンポジウム)
- ユーザ生成型音声対話コンテンツを用いた音声情報案内システム(一般(ポスターセッション),第11回音声言語シンポジウム)
- HMM音声合成におけるコンテキストクラスタリング決定木を用いた話者適応の検討(合成, 韻律, 生成, 一般)
- ベイズ的アプローチに基づくHMM音声合成(合成, 韻律, 生成, 一般)
- 拡張分離型格子HMMに基づく顔画像認識(テーマ発表,顔・人物・ジェスチャの認識・理解)
- Sinsy : 「あの人に歌ってほしい」をかなえるHMM歌声合成システム
- フレーム単位のコンテキスト依存構造に基づく音声認識のための音響モデル
- 認識時に非観測な変動要因を考慮可能な音響モデリング(ポスターセッション)(第5回音声言語シンポジウム)
- 認識時に非観測な変動要因を考慮可能な音響モデリング(第5回音声言語シンポジウム : ポスターセッション)
- 認識時に非観測な変動要因を考慮可能な音響モデリング(第5回音声言語シンポジウム : ポスターセッション)
- 認識時に非観測な変動要因を考慮可能な音響モデリング
- 4L-6 隠れマルコフモデルに基づく音声合成システム(リーディングプロジェクト e-society:自然な音声対話処理技術(2),一般セッション,リーディングプロジェクト e-society)
- 決定木に基づく音素コンテクスト・次元・状態位置の同時クラスタリングによる音響モデリング(音声,聴覚)
- D-12-119 手の動作と形状を用いたHMM手話認識(D-12. パターン認識・メディア理解B)
- A-4-23 手座標追跡によるジェスチャー認識
- I-21 ジェスチャーを用いた個人識別におけるPCAの次元数の検討(人物姿勢推定・ジェスチャ認識,I.画像認識・メディア理解)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成(一般(ポスターセッション),第11回音声言語シンポジウム)
- 複数の特徴量による条件付確率場に基づく音声区間検出(韻律・VAD,第11回音声言語シンポジウム)
- 音声認識のための非線形スペクトル変換を用いた話者適応(音響モデル,第11回音声言語シンポジウム)
- 多様な声質を表現するための因子分析モデルに基づくHMM音声合成(一般(ポスターセッション),第11回音声言語シンポジウム)
- 複数の特徴量による条件付確率場に基づく音声区間検出(韻律・VAD,第11回音声言語シンポジウム)
- 音声認識のための非線形スペクトル変換を用いた話者適応(音響モデル,第11回音声言語シンポジウム)
- HMM に基づく歌声合成のためのビブラートモデル化
- 魅力ある音声インタラクションシステムを構築するためのオープンソースツールキットMMDAgent (言語理解とコミュニケーション)
- 魅力ある音声インタラクションシステムを構築するためのオープンソースツールキットMMDAgent (音声)
- 魅力ある音声インタラクションシステムを構築するためのオープンソースツールキットMMDAgent(オーガナイズドセッション:音声対話,第13回音声言語シンポジウム)
- 魅力ある音声インタラクションシステムを構築するためのオープンソースツールキットMMDAgent(オーガナイズドセッション:音声対話,第13回音声言語シンポジウム)
- 魅力ある音声インタラクションシステムを構築するためのオープンソースツールキット MMDAgent
- キャンパスの公共空間におけるユーザ参加型双方向音声案内デジタルサイネージシステム(音声対話システムの実用化に向けて)
- 2012年度喜安記念業績賞紹介:次世代音声合成方式の研究開発とオープンソース戦略による社会貢献
- 個人性を考慮した異言語音声合成に対する知覚評価(オーガナイズドセッション「音声知覚生成インタラクション・音声認識合成統合技術」,音声知覚生成/聴覚コミュニケーション,一般)
- ラップスタイル歌声合成の検討
- HMM歌声合成における音高正規化学習の検討
- キャンパスの公共空間におけるユーザ参加型双方向音声案内デジタルサイネージシステム