多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討(一般(ポスターセッション),第11回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
これまでに数多くの音声合成技術が提案されているが,我々は,音素信号の調波時間スペクトル形状をモデル関数で近似し,音声合成を行うという新たなフレームワークについて検討する.音素スペクトルの調波成分のみを取り出し,各ハーモニクスのエンベロープをスペクトルモデル関数でモデリングする.モデル関数のパラメータから音素信号を復元し,音声を合成する手法について同時に提案する.近似するモデル関数として,ベータ分布をベースにした多重ベータ混合モデルを考案し,評価実験により我々の提案するモデルの有効性について述べる.
- 社団法人電子情報通信学会の論文
- 2009-12-14
著者
-
西村 雅史
日本IBM株式会社東京基礎研究所
-
滝口 哲也
神戸大学自然科学系先端融合研究環
-
有木 康雄
神戸大学自然科学系先端融合研究環
-
立花 隆輝
日本IBM東京基礎研究所
-
西村 雅史
日本アイ・ビー・エム株式会社東京基礎研究所
-
中鹿 亘
神戸大学大学院工学研究科
-
西村 雅史
日本ibm東京基礎研究所
-
立花 隆輝
日本アイ・ビー・エム株式会社東京基礎研究所
-
西村 雅史
日本ibm
関連論文
- 階層的強化学習を適用したPOMDPによるカーナビゲーションシステムの音声対話制御 (音声)
- 複数の言語情報を用いたCRFによる音声認識誤りの検出
- Buried Markov Modelを用いた構音障害者の音声認識の検討 (福祉情報工学)
- Buried Markov Modelを用いた構音障害者の音声認識の検討 (音声)
- Buried Markov Modelを用いた構音障害者の音声認識の検討 (パターン認識・メディア理解)
- 尤度最大化に基づくエコー推定を用いた車室内マルチスピーカ音響エコーキャンセラの検討
- 電話音声による列車時刻問合せシステムの評価
- LSAにもとづく電話音声情報検索システム
- 子供音声データベース
- 形態素係り受けモデルによる構文解析
- D-11-67 位相限定相関法を用いたマイクロ波レーダからの地表変位推定(D-11.画像工学,一般セッション)
- 位相限定相関法を用いたマイクロ波レーダからの地表変位推定
- D-11-57 ウェーブレット変換を用いた学習型の超解像(D-11.画像工学,一般セッション)
- スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討(ポスターセッション,第10回音声言語シンポジウム)
- D-12-91 3次元パーティクルフィルタとEMDを用いた選手の追跡(D-12.パターン認識・メディア理解,一般セッション)
- 階層的強化学習を適用したPOMDPによるカーナビゲーションシステムの音声対話制御(認識,理解,対話,一般)
- バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出(音声・言語・音響教育,一般)
- 基底の反復生成と教師ありNMFを用いた信号解析 (音声)
- 基底の反復生成と教師ありNMFを用いた信号解析 (言語理解とコミュニケーション)
- 尤度最大化に基づくエコー推定を用いた車室内マルチスピーカ音響エコーキャンセラの検討
- 尤度最大化に基づくエコー推定を用いた車室内マルチスピーカ音響エコーキャンセラの検討
- 確率スペクトル包絡に基づくNMF基底生成モデルを用いた混合楽音解析
- 電話音声による列車時刻問合せシステムの評価
- D-12-70 階層的領域分割法に基づく木構造条件付確率場による一般物体認識(D-12.パターン認識・メディア理解,一般セッション)
- 階層的強化学習を適用したPOMDPによる音声対話制御 (音声)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定 (音声)
- 階層的強化学習を適用したPOMDPによる音声対話制御 (言語理解とコミュニケーション)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定 (言語理解とコミュニケーション)
- 構音障害者の音声認識における動的特徴量の考察(福祉と音声処理,一般)
- ランダムプロジェクションを用いた音声特徴量変換(音響モデル,認識,理解,対話,一般)
- 1ZC-3 多重解像度独立性検定を用いた遺伝子ネットワークの構築(バイオ情報学と医用画像,学生セッション,コンピュータと人間社会)
- D-12-23 AAMのモデル選択による方位に頑健な不特定人物の顔表情認識(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成),一般セッション)
- D-12-76 複数特徴量の重み付け統合による一般物体認識(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- 音声合成を用いたインターネット動画用音声ガイド
- 音声認識読み記号および音声関連ソフトウエアに係わる用語の試行標準案
- 音声言語情報処理に関する情報処理学会の試行標準策定活動
- 音声言語情報処理に関する情報処理学会の試行標準策定活動
- SIG-SLP/SIG-NL合同セッションここまでできるぞ音声/言語処理技術 : 音声編
- ここまでできるぞ音声/言語処理技術 : 音声編
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた顔方位にロバストな唇領域特徴抽出と音声特徴による構音障害者の音声認識(一般(ポスターセッション),第11回音声言語シンポジウム)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- 音声・状況の同時認識に基づくスポーツ実況中継へのメタ情報付与
- D-12-122 Bottom-UpとTop-Downアプローチの統合による単眼画像からの人体3次元姿勢推定(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- D-12-122 SIFTとGraph Cutsを用いた物体認識及びセグメンテーション(D-12. パターン認識・メディア理解,一般セッション)
- 音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討 (音声)
- プロファイル・フィッティング法による音源位置推定
- プロファイルフィッティング法による雑音抑圧処理
- ビーム形状に注目した音声強調処理
- 多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討(一般(ポスターセッション),第11回音声言語シンポジウム)
- 多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討(一般(ポスターセッション),第11回音声言語シンポジウム)
- AAMを用いた顔方位にロバストな唇領域特徴抽出と音声特徴による構音障害者の音声認識(一般(ポスターセッション),第11回音声言語シンポジウム)
- ランダムプロジェクションを用いた音響モデルの線形変換(一般(ポスターセッション),第11回音声言語シンポジウム)
- Buried Markov Modelを用いた音声認識モデルの構築法の検討(一般(ポスターセッション),第11回音声言語シンポジウム)
- 制約付き非負行列因子分解を用いた音声特徴抽出の検討(音声認識・音響モデル,第10回音声言語シンポジウム)
- 制約付き非負行列因子分解を用いた音声特徴抽出の検討(音声認識・音響モデル,第10回音声言語シンポジウム)
- H-011 人物の顔画像情報に基づくコンテンツの解析(画像認識・メディア理解,一般論文)
- スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討(ポスターセッション,第10回音声言語シンポジウム)
- 音声強調手法を用いた構音障害者の音声認識
- H-006 高精度画像マッチングを用いたSAR衛星画像からの地表変位推定(画像認識・メディア理解,一般論文)
- Buried Markov Modelを用いた音声認識モデルの構築法の検討
- Buried Markov Modelを用いた音声認識モデルの構築法の検討 (音声)
- 多重解像度独立性検定を用いた遺伝子ネットワークの構築
- 多重解像度独立性検定を用いた遺伝子ネットワークの構築
- D-12-121 Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション(D-12. パターン認識・メディア理解,一般セッション)
- ランダムプロジェクションを用いた音響モデルの線形変換
- D-12-104 単眼動画像におけるボールと選手の3次元位置推定(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- D-12-112 AAMと回帰分析による視線,顔方向同時推定(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- 単語出現順序を考慮したトピックモデルによる言語モデル適応(ポスターセッション,第10回音声言語シンポジウム)
- 単語出現順序を考慮したトピックモデルによる言語モデル適応(ポスターセッション,第10回音声言語シンポジウム)
- 局所特徴量によるフィッシャー重みマップに基づく音素認識(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
- 局所特徴量によるフィッシャー重みマップに基づく音素認識(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
- 局所特徴量によるフィッシャー重みマップに基づく音素認識
- 局所特徴量によるフィッシャー重みマップに基づく音素認識(第8回音声言語シンポジウム)
- H-015 PCA相関フィルタによる目領域の探索(H分野:画像認識・メディア理解)
- ランダムプロジェクションを用いた音響モデルの線形変換 (音声)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定 (信号処理)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定 (音声)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定 (応用音響)
- 3次キュムラントのBispectrumとMFCCの統合による音声区間検出の検討(第8回音声言語シンポジウム)
- 3次キュムラントのBispectrumとMFCCの統合による音声区間検出の検討(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 3次キュムラントのBispectrumとMFCCの統合による音声区間検出の検討(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 3次キュムラント音声特徴を用いた音声区間検出(信号処理,符号化,知的マルチメディアシステム,一般)
- 3次キュムラント音声特徴を用いた音声区間検出(信号処理,符号化,知的マルチメディアシステム,一般)
- 3次キュムラント音声特徴を用いた音声区間検出(信号処理,符号化,知的マルチメディアシステム,一般)
- 顔表情からの関心度推定に基づく映像コンテンツへのタギング
- 顔表情からの関心度推定に基づく映像コンテンツへのタギング(一般セッション,パターン認識・メディア理解のための学習理論とその周辺)
- J-002 ユーザの表情に基づく映像コンテンツへのタギング(J分野:ヒューマンコミュニケーション&インタラクション)
- CSP係数の識別に基づく話者の頭部方向推定の検討 (音声)
- 多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討
- 確率スペクトル包絡を用いた混合音解析における制約付きスペクトル生成法の検討 (音声)
- 音声・状況の同時認識に基づく野球実況中継へのメタ情報付与
- 音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討(音声・音響一般,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 階層的強化学習を適用したPOMDPによる音声対話制御(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 階層的強化学習を適用したPOMDPによる音声対話制御(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)