基本周波数の転写に基づく実時間歌唱制御システムの実現を目的とした高品質ボコーダSTRAIGHTの高速化(音声,聴覚,<小特集>電子情報通信分野における萌芽的研究論文)
スポンサーリンク
概要
- 論文の詳細を見る
本研究ではカラオケにおいて使用者の歌唱信号に含まれる歌い回しを,あたかもプロ歌手が歌唱しているかのような歌い回しに実時間で変換する実時間歌唱制御システムの構築を目的としている.本研究で提案する実時間歌唱制御システムではプロ歌手の歌唱信号に含まれる基本周波数を事前に分析し,その基本周波数を使用者の歌唱信号に転写することで使用者の歌唱信号における歌い回しの変換を行う.本研究では基本周波数を転写する技術としてボコーダに着目した.ボコーダを用いることで音声信号の基本周波数やスペクトル包絡を独立して制御することができ,特に高品質なボコーダとされるSTRAIGHTは肉声に匹敵する高い品質で音声信号の分析合成を達成している.歌唱制御システムでは歌い回しの制御された歌唱信号を実時間で提示する必要があり,高速な分析合成が要求される.しかしSTRAIGHTはその高品質な分析合成を行うため膨大な演算量を要求し,実時間で歌唱信号を分析合成することは困難とされる.そこで本論文では高品質かつ実時間で歌唱制御を行うためのSTRAIGHTの高速化と実時間歌唱制御システムの提案を行う.評価実験の結果,STRAIGHTの高速化に伴い実時間で使用者の歌唱信号に含まれる歌い回しを変換できることが確認された.また歌唱制御システムは従来のカラオケよりも使用者に好まれることが示された.
- 2012-07-01
著者
-
山下 洋一
立命館大学情報理工学部
-
西浦 敬信
立命館大学情報理工学部
-
中野 皓太
立命館大学大学院理工学研究科
-
山下 洋一
立命館大学
-
森勢将雅
立命館大学
-
西浦 敬信
立命館大学
-
森勢 将雅
立命館大学 情報理工学部
-
中野 皓太
立命館大学
-
森勢 将雅
立命館大学
-
山下 洋一
立命館大学情報理工学科
関連論文
- 基本波検出に基づく高SNRの音声を対象とした高速なF0推定法(音声,聴覚)
- ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術の総合開発(総合報告)
- SLP音声ドキュメント処理ワーキンググループ活動報告(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 基本周波数モデルとその応用(言語獲得・学習,合成,生成,韻律,一般)
- 残響指標RSR-Dnに基づく残響環境下音声認識の予測性能評価 (音声)
- 残響指標RSR-Dnに基づく残響環境下音声認識の予測性能評価 (信号処理)
- 残響指標RSR-Dnに基づく残響環境下音声認識の予測性能評価 (応用音響)
- アクセント結合規則を利用した統計的手法に基づく連続音声のアクセント型自動ラベリング
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- CRFと統計的F0モデルに基づく連続音声のアクセント型自動推定(合成,生成,韻律,一般)
- 歌唱合成システムの実現を目的とした高品質音声分析合成法の提案
- 歌唱合成システムの実現を目的とした高品質音声分析合成法の提案 (応用音響)
- 母音/子音特徴量に基づく適応形マイクロホンアレーを用いた雑音下音声認識(音声,聴覚)
- 話者方位推定を利用した動的時間領域処理に基づく遠隔発話区間検出(音声,聴覚)
- 話者方位情報とゼロ交差情報に基づくハンズフリー発話区間検出の評価(セッション5 : 音声認識+音声合成)
- マイクロホンアレーを用いた時間/空間情報に基づくハンズフリー発話区間検出の検討(認識・検出)
- フィルタ加算に基づく適応形ビームフォーマの指向性制御に関する検討
- 櫛形フィルタと確率モデルに基づいた音高認識
- 音声対話技術コンソーシアム(ISTC)の活動成果報告(SIG-SLP内組織の活動報告)
- LE-006 音響信頼度に基づく動的特徴量統合を用いた全方位マルチモーダル話者方位推定の検討(自然言語・音声・音楽)
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討
- 音声ドキュメント検索評価のためのテストコレクションの試作(第8回音声言語シンポジウム)
- 音声ドキュメント検索評価のためのテストコレクションの試作(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- マルチモーダルコミュニケーションのための音声合成プラットホーム
- マルチモーダルコミュニケーションのための音声合成プラットホーム
- アクセント結合規則を利用した統計的手法に基づく連続音声のアクセント型自動ラベリング
- Spoken Term Detection のためのテストコレクション構築とベースライン評価
- NTCIR-9 SpokenDoc: 音声検索語検出と音声ドキュメント検索の評価枠組の設計
- 英語学習者発話の自動評定における正規化の検討(一般(ポスターセッション),第9回音声言語シンポジウム)
- 英語学習者発話の自動評定における正規化の検討(一般(ポスターセッション),第9回音声言語シンポジウム)
- 英語学習者発話の自動評定における正規化の検討(一般(ポスターセッション),第9回音声言語シンポジウム)
- 音声中の検索語検出のためのテストコレクション構築 : 中間報告
- 4Q-5 音声対話システムにおける韻律修正合成音声の利用(音声対話・音声要約,学生セッション,人工知能と認知科学)
- SLP音声ドキュメント処理ワーキンググループ活動報告(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- SLP音声ドキュメント処理ワーキンググループ活動報告(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 韻律を手作業で変更した合成音声の作成と対話システムでの利用(マルチモーダル)
- 講演音声自動要約のための要約作業結果の分析と重要文予測
- 講演音声自動要約のための重要文抽出実験とその分析
- 話者方位情報とゼロ交差情報に基づくハンズフリー発話区間検出の評価(セッション5 : 音声認識+音声合成)
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 分散マイクロホンシステムを用いた音源位置同定(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- Spoken Term Detectionのためのテストコレクション構築とベースライン評価
- Spoken Term Detectionのためのテストコレクション構築とベースライン評価
- Spoken Term Detection のためのテストコレクション構築とベースライン評価
- カスタマイズ性を考慮した擬人化音声対話ソフトウェアツールキットの設計(音声言語情報処理とその応用)
- 分散マイクロホンシステムを用いた音源位置同定(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 分散マイクロホンシステムを用いた音源位置同定(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 音声ドキュメント検索評価のためのテストコレクションの試作(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(プロジェクト紹介(2))(第5回音声言語シンポジウム)
- 擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(第5回音声言語シンポジウム : プロジェクト紹介(2))
- 擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(第5回音声言語シンポジウム : プロジェクト紹介(2))
- 擬人化音声対話エージェントツールキットGalatea
- 擬人化音声対話エージェント開発プロジェクト
- 擬人化音声対話エージェントツールキットの基本設計
- 擬人化音声対話エージェントツールキットの基本設計
- 言語情報とF0情報を利用したアクセント句境界の自動推定 (音声)
- 音声中の検索語検出のためのテストコレクション構築 -中間報告-
- 音素間の相関を用いた音声認識
- N-best音声認識における認識スコアを利用した候補提示数の決定(音声, 聴覚)
- 話者空間モデルに基づいた音素間相関を用いた音声認識(音声,聴覚)
- N-best音声認識における認識スコアを利用した候補提示数の決定
- 話者空間のモデルに基づいた音声認識
- 連続音声認識による言語情報と韻律情報を利用した講演音声の重要文抽出(言語モデル・要約)(第5回音声言語シンポジウム)
- 連続音声認識による言語情報と韻律情報を利用した講演音声の重要文抽出(第5回音声言語シンポジウム : 言語モデル・要約)
- 連続音声認識による言語情報と韻律情報を利用した講演音声の重要文抽出(第5回音声言語シンポジウム : 言語モデル・要約)
- 連続音声認識による言語情報と韻律情報を利用した講演音声の重要文抽出
- 講演音声の自動要約のための韻律情報の利用
- 要約のための重要文検出におけるF0モデルの利用
- F0モデルを利用した重要文検出の検討
- 音声対話に対する談話セグメントのタグ方式の検討
- 第5回ヨーロッパ音声通信技術会議(EuroSpeech'97)
- E-003 擬音語HMMに基づく音場ディクテーションシステムの評価(E分野:自然言語・音声・音楽,一般論文)
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 話者と音源の位置推定に基づく複数死角制御型ビームフォーマの基礎的検討 (音声)
- 話者と音源の位置推定に基づく複数死角制御型ビームフォーマの基礎的検討 (信号処理)
- 話者と音源の位置推定に基づく複数死角制御型ビームフォーマの基礎的検討 (応用音響)
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討
- ワードスポッティングに基づく話題決定のためのキーワード選択
- 室内音響指標を用いた残響指標RSR-D_nに基づく残響下音声認識性能の予測(音声,聴覚)
- 日本語・英語音素モデルを用いた英単語発音評定方法の検討
- 日本人学習者のための英単語発音評定
- スペクトル減算を用いた音質改善のための減算係数最適化の検討(オーガナイズドセッション,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 言語情報とF0情報を利用したアクセント句境界の自動推定(音声・音響一般,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 帯域分割型スペクトル減算に基づくミュージカルノイズ低減手法の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 帯域分割型スペクトル減算に基づくミュージカルノイズ低減手法の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 帯域分割型スペクトル減算に基づくミュージカルノイズ低減手法の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 話者と音源の位置推定に基づく複数死角制御型ビームフォーマの基礎的検討(一般,音声・音響信号処理,音声及び一般)
- 話者と音源の位置推定に基づく複数死角制御型ビームフォーマの基礎的検討(一般,音声・音響信号処理,音声及び一般)
- 残響環境下音声認識における発話位置・話者依存性の分析評価(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 残響環境下音声認識における発話位置・話者依存性の分析評価(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 話者と音源の位置推定に基づく複数死角制御型ビームフォーマの基礎的検討(一般,音声・音響信号処理,音声及び一般)
- 残響環境下音声認識における発話位置・話者依存性の分析評価(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- モスキート音に基づく電子透かしを用いた歌詞連動型音楽試聴システムの提案
- 基本周波数の転写に基づく実時間歌唱制御システムの実現を目的とした高品質ボコーダSTRAIGHTの高速化(音声,聴覚,電子情報通信分野における萌芽的研究論文)
- 音声合成における声質再現性の分析と評価(一般セッション,合成,生成,韻律,音声一般)
- 音声ドキュメント処理ワーキンググループ活動報告(音声検索,第13回音声言語シンポジウム)
- 音声ドキュメント処理ワーキンググループ活動報告(音声検索,第13回音声言語シンポジウム)
- 基本周波数の転写に基づく実時間歌唱制御システムの実現を目的とした高品質ボコーダSTRAIGHTの高速化
- ブラインドインパルス応答推定を用いた残響下音源位置推定法の提案(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)