音声合成を用いたインターネット動画用音声ガイド
スポンサーリンク
概要
- 論文の詳細を見る
筆者らは、音声合成 (TTS) を用いてインターネット動画用の音声ガイド (AD) を作成・流通しやすくする枠組みを開発している。AD を TTS でどのように作成すればどれほど有用になるのかまだ明らかではなかった。AD 作成において、音声合成ならではの新しい表現方法、映画など感情表現を伴う動画での有用性、感情音声合成の効果なども興味深い疑問点である。本論文では、これらの疑問点に関してTTSを用いた AD の予備実験の結果を紹介する。そこでは、特にドラマに対して高品質な TTS の有効性が示唆された。そして、まもなく実施予定の本実験に向け準備中の感情音声合成についても実験結果を紹介する。TTS を利用することによって AD 作成の負担が軽減され、無数のボランティアが作成した多数の AD が利用可能になることが期待される。
- 2010-02-05
著者
-
西村 雅史
日本IBM株式会社東京基礎研究所
-
高木 啓伸
日本アイ・ビー・エム株式会社東京基礎研究所
-
立花 隆輝
日本IBM東京基礎研究所
-
西村 雅史
日本アイ・ビー・エム株式会社東京基礎研究所
-
西村 雅史
(株)アイテス 技術事業部 コンポーネント・テクノロジー保証
-
長野 徹
日本アイ・ビー・エム株式会社東京基礎研究所
-
長野 徹
日本IBM東京基礎研究所
-
高木 啓伸
日本IBM東京基礎研究所
-
西村 雅史
日本ibm
関連論文
- IBMプロフェッショナル論文 作業効率の高いテキスト合成音声チューニング環境
- 波形重畳型音声合成の韻律と音質のためのF0傾きモデルの利用(音声合成・韻律,第9回音声言語シンポジウム)
- コーパスベース日本語音声合成フロントエンド(音声システム,システム開発論文)
- ユーザの発話傾向分析に基づく車載機器操作のための音声入力手法の検討(音声システム,システム開発論文)
- カーナビの音声インターフェース--理想と現実のギャップ
- 音声Webアクセス : 受賞業績 音声ブラウザの開発とWebアクセシビリティ技術普及への貢献(平成20年度喜安記念業績賞紹介)
- Webアクセシビリティ向上支援ツール : aDesigner(インタラクティブソフトウェア)
- K_065 プレゼンテーションドキュメントのアクセシビリティ評価手法(K分野:ヒューマンコミュニケーション&インタラクション)
- 単語クラスタリングによる確率的言語モデルの分野適応
- 電話音声による列車時刻問合せシステムの評価
- LSAにもとづく電話音声情報検索システム
- 子供音声データベース
- 構造を仮定しない文解釈の一手法
- 講義コーパスを用いた自由発話の大語彙連続音声認識(音声情報処理 : 現状と将来技術論文特集)
- 形態素係り受けモデルによる構文解析
- 2000-SLP-32-3 構文構造を反映した確率的言語モデル
- 放送大学コーパスを用いた自由発話の大語彙連続音声認識
- 口語体言語モデルのためのコーパス
- 単語を認識単位とした日本語の大語彙連続音声認識 (音声言語情報処理)
- 音声ワープロ : 過去・現在・未来
- 放送音声の書き起こしに関する検討
- 音声認識・合成によるホームページの閲覧方式
- 単語単位による日本語言語モデルの検討
- ニュース音声書き起こしシステムに関する検討
- 単語を認識単位とした日本語の大語彙連続音声認識
- 合成音声を用いたオンライン動画音声ガイド提供の実現に向けて
- キータームの関連性の視覚化による知識連鎖の発見支援 : TermLinkerシステムの可視化機能(9月14日)(「アクティブマイニング」及び一般)
- キータームの関連性の視覚化による知識連鎖の発見支援 : TermLinkerシステムの可視化機能(「アクティブマイニング」及び一般)
- 7 音声インタフェースの現状とイノベーションの可能性(音声認識技術の実用化への取り組み)
- 波形重畳型音声合成の韻律と音質のためのF0傾きモデルの利用(音声合成・韻律,第9回音声言語シンポジウム)
- 波形重畳型音声合成の韻律と音質のためのF0傾きモデルの利用(音声合成・韻律,第9回音声言語シンポジウム)
- 電話音声による列車時刻問合せシステムの評価
- 日本語自由発話電話音声からの固有表現抽出
- 長時間スペクトル変動と調波構造に基づく発話区間検出法の音声認識による評価
- 日本語生コーパスから自動獲得した未知語と言語モデルによる大語彙連続音声認識([特別セッション]音声言語獲得・学習技術(2), 未知語処理)
- K_064 自動生成されたメタデータに基づく視覚障害者のためのプレゼンテーション文書アクセスインタフェース(K分野:ヒューマンコミュニケーション&インタラクション)
- プレゼンテーション文書の構造化のためのメタ情報の自動付加手法(福祉と音声処理, 一般)
- プレゼンテーション文書の構造化のためのメタ情報の自動付加手法(福祉と音声処理, 一般)
- プレゼンテーション文書の構造化のためのメタ情報の自動付加手法
- 複数文献の重要語を構造化する概念ネットワークの自動生成とインタラクティブな可視化
- 文献からの概念ネットワークの自動生成と問題構造の理解に与える効果
- 電子図書館における発想支援機能の評価方法
- 内省を助け設計にともなう学習を促進する設計支援システム実現にむけて (知的教育システム研究会(第18回)テ-マ:一般)
- ディジタル・ライブラリを活用した概念ネットワークの自動生成と問題構造の可視化支援
- キーワードマイニングと関連性の可視化による文献集合からの知識連鎖の発見支援(言語理解とコミュニケーション一般)
- キーワードマイニングによる文献の組織化と可視化機能の統合 : TermLinkerシステムの開発(情報可視化)
- Key Term Extraction and Visualization for Knowledge Chain Discovery Support--Visual function of TermLinker system (小特集 「アクティブマイニング」および一般)
- 音声合成を用いたインターネット動画用音声ガイド
- 音声認識読み記号および音声関連ソフトウエアに係わる用語の試行標準案
- 音声言語情報処理に関する情報処理学会の試行標準策定活動
- 音声言語情報処理に関する情報処理学会の試行標準策定活動
- SIG-SLP/SIG-NL合同セッションここまでできるぞ音声/言語処理技術 : 音声編
- ここまでできるぞ音声/言語処理技術 : 音声編
- 視覚障害者のための Web ページ構造提示手法
- 表示ベースでウェブページのアクセシビリティを評価するシステム(福祉と音声処理及び一般)(音声)
- 表示ベースでウェブページのアクセシビリティを評価するシステム(福祉と音声処理及び一般)
- ウェブページのダイジェスト手法の評価
- ウェブページのダイジェスト手法の評価
- アクセシビリティ向上のためのWebコンテンツトランスコーディングシステム
- アノテーションに基づくウェブページのダイジェスト手法
- Webコンテンツ間の共通レイアウト自動解析
- 音声とテキストを用いた認識単語辞書の自動構築
- フェノニックマルコフモデルに基づく音声認識のための話者適応化法
- ユーザの発話傾向分析に基づく車載機器操作のための音声入力手法の検討
- 長時間スペクトル変動情報と調波構造特徴量を併用した発話区間検出法(音声認識技術)
- 自動車内音声認識のためのスペクトル サブトラクションとエコーキャンセラの同時適応法
- プロファイル・フィッティング法による音源位置推定
- プロファイルフィッティング法による雑音抑圧処理
- ビーム形状に注目した音声強調処理
- 多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討(一般(ポスターセッション),第11回音声言語シンポジウム)
- 多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討(一般(ポスターセッション),第11回音声言語シンポジウム)
- 講義関連コーパスを利用した音声認識システムの自動適応(音声,聴覚)
- 音声合成のための自動アクセントラベリング(セッション5 : 音声認識+音声合成)
- 音声合成のための自動アクセントラベリング(セッション5 : 音声認識+音声合成)
- N-gramモデルを用いた音声合成のための読みおよびアクセントの同時推定(音声言語,情報処理技術のフロンティア)
- 確率モデルを用いた読み及びアクセント推定(言語解析, 対話)
- 読み上げ韻律との差分を使った強調韻律の学習
- 音声認識ビジネスの現状と将来展望(音声認識のビジネス動向)
- 雑音・残響下音声認識におけるHMM分離・合成法の改良(音響と音声処理,音声強調,ロバスト音声認識)
- 雑音・残響下音声認識におけるHMM分離・合成法の改良(音響と音声処理,音声強調,ロバスト音声認識)
- ハンズフリー音声認識におけるHMM分離法の改良
- 残響下音声認識におけるHMM分離法の改良
- 調波構造と音源方向を利用した音声強調手法の検討
- フレーム単位でのモデル選択による突発性雑音下での音声認識
- 車内音声認識におけるマルチスタイル学習法の効果について
- HMM 合成と遅延和アレーの統合による混合音声の認識
- HMM合成法を用いた混合音声の認識
- IBM電話音声自動応答システム(音声処理技術のデモの紹介)
- 日本語ディクテーションシステムの現状と今後の課題
- 日本語ディクテーションシステムの現状と今後の課題
- 日本語ディクテーションシステムの現状と今後の課題
- 著作権保護のための電子透かしシステム : オーディオ電子透かしにおけるマスクの最適配分と次元について
- 著作権保護のための電子透かしシステム : オーディオ電子透かしにおけるマスクの最適配分と次元について
- (第3回)宣言型コンテンツフォーマット(2) : XHTML/スタイルシート(CSS)(マルチメディアコンテンツフォーマットの実際〜放送・通信サービスを実現させた各種フォーマット〜)
- (第4回)宣言型コンテンツフォーマット(3) : DOM/スクリプト言語(マルチメディアコンテンツフォーマットの実際〜放送・通信サービスを実現させた各種フォーマット〜)
- 紙に埋め込まれたプログラムによる紙インタフェース
- 視覚障害者への音声提示における最適・最高速度
- 多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討
- 高齢者の履歴書からの特徴語抽出によるスキルの発見とマッチング(情報の整理,第2回テキストマイニング・シンポジウム)
- クラウドアクセシビリティ : クラウドソーシングによる障害者支援(ヒューマンコンピュテーションとクラウドソーシング)