波形重畳型音声合成の韻律と音質のためのF0傾きモデルの利用(音声合成・韻律,第9回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
波形重畳型や波形接続型の音声合成では、音声素片の接続部分で基本周波数の一貫性が失われることがある。日本語は高低アクセント言語であるため、これは詑りやアクセント型の誤りとして認識される問題となる。特にデータベースサイズが限られているときや、音声コーパス設計時に考慮していた想定ドメイン以外の文章でそのような問題が顕著になりやすい。本論文では、まずF0傾きモデルを用い音声素片のF0の一貫性を向上する。さらにF0傾きモデルも利用したF0修正量探索により、適切な素片が見つからない場合にも一貫性の回復を行う。これにより入力文章の想定ドメイン内外に関わらず、音声素片の音質を活かしつつ軍しい高低アクセントで合成できるようになる。
- 2007-12-13
著者
-
立花 隆輝
日本アイ・ビー・エム東京基礎研究所
-
長野 徹
日本アイ・ビー・エム東京基礎研究所
-
西村 雅史
日本アイ・ビー・エム東京基礎研究所
-
立花 隆輝
日本IBM東京基礎研究所
-
西村 雅史
日本アイ・ビー・エム株式会社東京基礎研究所
-
西村 雅史
日本アイ・ビー・エム(株)
-
西村 雅史
(株)アイテス 技術事業部 コンポーネント・テクノロジー保証
-
長野 徹
日本アイ・ビー・エム株式会社東京基礎研究所
-
長野 徹
日本アイ・ビー・エム
-
立花 隆輝
日本アイ・ビー・エム(株)
関連論文
- IBMプロフェッショナル論文 作業効率の高いテキスト合成音声チューニング環境
- 音声認識応用に関する学会試行標準
- コーパスベース日本語音声合成フロントエンド (システム開発論文特集)
- 波形重畳型音声合成の韻律と音質のためのF0傾きモデルの利用(音声合成・韻律,第9回音声言語シンポジウム)
- コーパスベース日本語音声合成フロントエンド(音声システム,システム開発論文)
- ユーザの発話傾向分析に基づく車載機器操作のための音声入力手法の検討(音声システム,システム開発論文)
- カーナビの音声インターフェース--理想と現実のギャップ
- 単語クラスタリングによる確率的言語モデルの分野適応
- 電話音声による列車時刻問合せシステムの評価
- LSAにもとづく電話音声情報検索システム
- 子供音声データベース
- 構造を仮定しない文解釈の一手法
- 講義コーパスを用いた自由発話の大語彙連続音声認識(音声情報処理 : 現状と将来技術論文特集)
- 形態素係り受けモデルによる構文解析
- 2000-SLP-32-3 構文構造を反映した確率的言語モデル
- 放送大学コーパスを用いた自由発話の大語彙連続音声認識
- 口語体言語モデルのためのコーパス
- 単語を認識単位とした日本語の大語彙連続音声認識 (音声言語情報処理)
- 音声ワープロ : 過去・現在・未来
- 放送音声の書き起こしに関する検討
- 音声認識・合成によるホームページの閲覧方式
- 単語単位による日本語言語モデルの検討
- ニュース音声書き起こしシステムに関する検討
- 単語を認識単位とした日本語の大語彙連続音声認識
- 合成音声を用いたオンライン動画音声ガイド提供の実現に向けて
- キータームの関連性の視覚化による知識連鎖の発見支援 : TermLinkerシステムの可視化機能(9月14日)(「アクティブマイニング」及び一般)
- キータームの関連性の視覚化による知識連鎖の発見支援 : TermLinkerシステムの可視化機能(「アクティブマイニング」及び一般)
- 7 音声インタフェースの現状とイノベーションの可能性(音声認識技術の実用化への取り組み)
- 音声インタフェースの現状とイノベーションの可能性 (特集 音声認識技術の実用化への取り組み)
- 波形重畳型音声合成の韻律と音質のためのF0傾きモデルの利用(音声合成・韻律,第9回音声言語シンポジウム)
- 波形重畳型音声合成の韻律と音質のためのF0傾きモデルの利用(音声合成・韻律,第9回音声言語シンポジウム)
- 電話音声による列車時刻問合せシステムの評価
- 日本語自由発話電話音声からの固有表現抽出
- 長時間スペクトル変動と調波構造に基づく発話区間検出法の音声認識による評価
- ライフサイエンス向けテキストマイニングツールMedTAKMI(テキストマイニングの応用(2))
- 日本語生コーパスから自動獲得した未知語と言語モデルによる大語彙連続音声認識([特別セッション]音声言語獲得・学習技術(2), 未知語処理)
- 複数文献の重要語を構造化する概念ネットワークの自動生成とインタラクティブな可視化
- 文献からの概念ネットワークの自動生成と問題構造の理解に与える効果
- 電子図書館における発想支援機能の評価方法
- 内省を助け設計にともなう学習を促進する設計支援システム実現にむけて (知的教育システム研究会(第18回)テ-マ:一般)
- ディジタル・ライブラリを活用した概念ネットワークの自動生成と問題構造の可視化支援
- キーワードマイニングと関連性の可視化による文献集合からの知識連鎖の発見支援(言語理解とコミュニケーション一般)
- キーワードマイニングによる文献の組織化と可視化機能の統合 : TermLinkerシステムの開発(情報可視化)
- Key Term Extraction and Visualization for Knowledge Chain Discovery Support--Visual function of TermLinker system (小特集 「アクティブマイニング」および一般)
- 音声合成を用いたインターネット動画用音声ガイド
- 音声言語インタフェースのための情報処理学会試行標準
- 音声とテキストを用いた認識単語辞書の自動構築
- S1-5 テキストからの意図抽出(特別セッション(S1) : テキストマイニング)(第30回日本行動計量学会大会発表一覧)
- 中間累積距離と音節間類似度を用いた単音節音声認識
- フェノニックマルコフモデルに基づく音声認識のための話者適応化法
- ユーザの発話傾向分析に基づく車載機器操作のための音声入力手法の検討
- 長時間スペクトル変動情報と調波構造特徴量を併用した発話区間検出法(音声認識技術)
- 自動車内音声認識のためのスペクトル サブトラクションとエコーキャンセラの同時適応法
- 多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討(一般(ポスターセッション),第11回音声言語シンポジウム)
- 多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討(一般(ポスターセッション),第11回音声言語シンポジウム)
- 講義関連コーパスを利用した音声認識システムの自動適応(音声,聴覚)
- 音声合成のための自動アクセントラベリング(セッション5 : 音声認識+音声合成)
- 音声合成のための自動アクセントラベリング(セッション5 : 音声認識+音声合成)
- N-gramモデルを用いた音声合成のための読みおよびアクセントの同時推定(音声言語,情報処理技術のフロンティア)
- 確率モデルを用いた読み及びアクセント推定(言語解析, 対話)
- 読み上げ韻律との差分を使った強調韻律の学習
- 音声認識ビジネスの現状と将来展望(音声認識のビジネス動向)
- 雑音・残響下音声認識におけるHMM分離・合成法の改良(音響と音声処理,音声強調,ロバスト音声認識)
- 雑音・残響下音声認識におけるHMM分離・合成法の改良(音響と音声処理,音声強調,ロバスト音声認識)
- ハンズフリー音声認識におけるHMM分離法の改良
- 残響下音声認識におけるHMM分離法の改良
- 調波構造と音源方向を利用した音声強調手法の検討
- フレーム単位でのモデル選択による突発性雑音下での音声認識
- 車内音声認識におけるマルチスタイル学習法の効果について
- HMM 合成と遅延和アレーの統合による混合音声の認識
- HMM合成法を用いた混合音声の認識
- IBM電話音声自動応答システム(音声処理技術のデモの紹介)
- 日本語ディクテーションシステムの現状と今後の課題
- 日本語ディクテーションシステムの現状と今後の課題
- 日本語ディクテーションシステムの現状と今後の課題
- 音声認識・理解のための統計的言語処理
- 音声ワープロ最新事情
- 著作権保護のための電子透かしシステム : オーディオ電子透かしにおけるマスクの最適配分と次元について
- 著作権保護のための電子透かしシステム : オーディオ電子透かしにおけるマスクの最適配分と次元について
- テキストマイニングのための情報抽出
- テキストマイニングのための情報抽出
- 大量のテキストからの知識マイニング
- テキストからの意図抽出(テキストマイニング)
- 知識発見のためのテキストマイニング技術
- 4N-7 テキストマイニングのための情報抽出 : 情報レベルの最適化
- 4N-6 知識発見のためのテキストマイニング技術
- 単語を認識単位とした日本語大語彙連続音声認識
- 単語を認識単位とした日本語ディクテーションシステム
- 人の発声単位を考慮した日本語言語モデルの検討 : 日本語における単語とは
- 単語を認識単位とした日本語ディクテーションシステム
- N-gramを用いた日本語テキストの単語単位への分割
- クラスに基づく言語モデルのための単語クラスタリング
- 離散単語発生による日本語ディクテーションシステムについて
- 日本語Dictation Systemのための統計的言語モデルに関する一考察
- 対数振幅を用いた音楽電子透かしの雑音付加に対する通信容量(情報セキュリティ基礎)
- J-48 リアルタイム埋め込みのための音楽電子透かし(電子透かし,J.グラフィクス・画像)
- 多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討
- D-21-9 音響電子透かし技術の評価基準と評価コンテスト(D-21.マルチメディア情報ハイディング・エンリッチメント,一般セッション)
- 音声データの隠れ属性を利用した異種音響モデル群の構築
- 音響信号に対する情報ハイディング及びその評価基準の検討(異種メディア融合,コンテンツ処理,メディア検索,電子透かし,一般)