声質空間上での変換に基づく歌声らしさの転写に関する検討
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,特定話者の声に存在する歌声らしさを抽出し,任意の話者モデルに付加することで,歌声モデルを構築する手法を提案する.近年の話声の音声合成技術の発展に伴って,歌声合成技術は飛躍的に発展しているが,コーパスベースの手法における歌声合成モデルの個人性は,そのモデルを構築するためのデータベースに大きく依拠する.一方,話者適応技術を応用することで,少量の音声データを用いて対象歌手の歌声モデルを構成することも考えられるが,その音声データのうち不要な情報も含めて適応してしまう可能性がある.本研究では,音声データに含まれる声道特性に起因する情報のうち,「歌声らしさ」 のような部分的情報に着目して,それを適切に転写する手法を検討した.本研究では任意話者声質変換で用いられる重みベクトル/重み行列の特徴量空間を声質空間と捉える.この空間上で同一話者の話声及び歌声が記述され,その変換関係によってこの話者の歌声らしさが表現される.この変換を別話者の話声モデルに適用することで,歌声らしさの転写を実現する.歌声の声質変換実験を通して,提案法による歌声らしさの転写が可能であることを示した.提案法を用いることで話声と歌声のモデル・データを相互に柔軟に利用することが可能となる.
- 2012-08-02
著者
-
嵯峨山 茂樹
東京大学情報理工学系研究科システム情報学専攻
-
亀岡 弘和
NTTコミュニケーション科学基礎研究所
-
嵯峨山 茂樹
東京大学大学院情報理工学系研究科
-
齋藤 大輔
芝浦工業大学工学部電気工学科:東京工芸大学大学院工学研究科ハイパーメディア研究センター
-
嵯峨山 茂樹
NTTヒューマンインタフェース研究所
-
嵯峨山 茂樹
北陸先端科学技術大学院大学情報科学研究科情報処理学専攻
-
亀岡 弘和
東京大学大学院情報理工学系研究科
-
橘 秀幸
東京大学大学院 情報理工学系研究科
-
齋藤 大輔
東京大学
-
齋藤 大輔
東京大学大学院工学系研究科
-
嵯峨山 茂樹
東京大学情報理工学系研究科
-
亀岡 弘和
東京大学大学院情報理工学系研究科|nttコミュニケーション科学基礎研究所
-
石原 達馬
東京大学大学院情報理工学系研究科
関連論文
- スパース性に基づくブラインド音源分離を用いたステレオ入力音声認識(音声,聴覚)
- 音楽知識に基づく音高・音長の組合せ特徴量を用いたMIDIデータからの作曲家判別(音楽解析)
- 畳み込みHMMに基づく歌声の基本周波数制御モデルの提案とそのパラメータ学習方法(音響分析一般(1))
- 合同特別企画: パネルディスカッション「"音"研究の未来」
- 文字構造の文法記述に基づくオンライン手書き漢字列認識(テーマセッション4,文字・文書の認識・理解)
- ストローク間の位置関係の文法記述に基づくオンライン手書き漢字認識(テーマセッション5(オンライン処理),文字・文書の認識・理解)
- 理想時間周波数マスキングの分離性能と音源スパース性の関係(ブラインド信号処理の技術とその応用論文)
- リズムマップ : 音楽音響信号からの単位リズムパターンの抽出と楽曲構造の解析(音響分析一般(2))
- 音や映像から「部品」を取り出すメディアシーン学習技術 (特集 「見る・見せる」技術の最先端)
- 日本語歌詞からの自動作曲(音楽とOR)
- テンポ曲線と隠れマルコフモデルを用いた多声音楽MIDI演奏のリズムとテンポの同時推定(演奏認識/合成,便利で身近な音楽情報処理)
- 調波音・打楽器音分離手法を用いた音楽音響信号からの自動和音認識(音響分析一般(2))
- Orpheus : 歌詞の韻律に基づいた自動作曲システム(自動作曲)
- 1.多重音解析と自動採譜(音楽情報処理技術の最前線)
- 対面朗読者と視覚障害者の対話の分析とその応用(セッション3 : 理解るインタフェース : 音声対話)
- スパース性に基づくブラインド音源分離を用いたステレオ入力音声認識
- 5.和声解析・リズム認識・自動伴奏・運指決定(音楽情報処理技術の最前線)
- スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 自動採譜技術の展望
- モルフォロジ収縮処理と構造特徴複製に基づく画像インペインティング(一般セッション,手,顔,身体表現の認識,理解)
- モルフォロジ収縮処理と構造特徴複製に基づく画像インペインティング(一般セッション2)
- 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討(福祉と音声処理,一般)
- 調波成分分析によるブラインド音楽信号分離の検討(音響信号処理/一般)
- 結晶型マイクロフォンアレイを用いたポストフィルタ設計に基づく拡散性雑音抑圧(音響信号処理/一般)
- スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ
- A-10-2 分散型マイクロホンアレーによる非同期録音信号のブラインドアラインメントの実環境評価(A-10.応用音響,一般セッション)
- AS-5-5 複合ソースフィルタモデルによる音響信号の三要素テンソル分解(AS-5. 音響信号のモデリングと表現,シンポジウムセッション)
- 調波時間構造化クラスタリング(HTC)による音楽音響特徴量の同時推定
- 最尤推定を用いた声道長線形変換による話者正規化(音声言語情報処理とその応用)
- HMMを用いた音響演奏の楽譜追跡による弾き直しに追従可能な自動伴奏
- 頭部モーションセンサと音声を用いた対話インタフェースの検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 頭部モーションセンサと音声を用いた対話インタフェースの検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 頭部モーションセンサと音声を用いた対話インタフェースの検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 頭部モーションセンサと音声を用いた対話インタフェースの検討
- 頭部モーションセンサと音声を用いた対話インタフェースの検討
- 音声CAPTCHAのための音韻修復効果の検討
- 合同特別企画: パネルディスカッション「"音"研究の未来」
- 自動作曲システム Orpheus とその著作権性
- 調波時間構造化クラスタリングによるCASAへのアプローチ
- 調波構造・時間包絡・音色の統合的クラスタリングによる楽音分析(音楽音響信号処理 (2))
- AS-6-3 EMアルゴリズムを用いた最尤時間周波数マスキングによる雑音環境下での2ch BSS(AS-6.実環境における高品質収音のための音声信号処理,シンポジウム)
- 和声ラベルデータの作成と和声進行の統計解析
- 歌唱曲自動作曲の需要と今後 - 2年間のOrpheus運用を通じて
- 機能和声解析データの作成とその統計解析
- 機能和声モデルによる音楽信号からの和声推定
- 自動作曲システムOrpheusとその著作権性
- 調波音/打楽器音分離手法とチューニング補正手法を用いた音楽音響信号からの自動和音認識
- 単旋律と和音の確率モデルの組み合わせによるピアノ曲演奏の自動表情付け
- 無限状態スペクトルモデルによる音楽音響信号の解析
- 可変基底NMFに基づく音楽音響信号の解析
- 非和声音規則に基づく経路制約を用いた旋律自動生成
- 音楽音響信号の低音旋律パターンのクラスタリングと自動ジャンル認識への応用
- G-001 最大エントロピーモデルに基づく統計的な音楽情報の解析(G分野:音声・音楽)
- 手の自然な動きを考慮した隠れ変数付き隠れマルコフモデルに基づくピアノ運指決定(ピアノ)
- 環境依存型サブストロークHMMを用いたオンライン手書き文字認識(画像認識, コンピュータビジョン)
- サブストロークHMMを用いたオンライン手書き文字認識(画像認識, コンピュータビジョン)
- 結晶型マイクロフォンアレイを用いた残響環境下における楽器音分離
- スペクトルの時間変化に基づく音楽音響信号からの歌声成分の強調と抑圧
- カスタマイズ性を考慮した擬人化音声対話ソフトウェアツールキットの設計(音声言語情報処理とその応用)
- スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- モルフォロジ収縮処理と構造特徴複製に基づく画像インペインティング(一般セッション,手,顔,身体表現の認識,理解)
- A-10-6 周波数領域ICAにおける初期値の短時間データからの学習(A-10. 応用音響,一般セッション)
- I-018 ストロークをベースとした確率自由文脈文法による手書き数式の認識(I分野:画像認識・メディア理解)
- 正弦波重畳モデルのパラメータ最適化アルゴリズムの導出(ブラインド信号処理/一般)
- 音声スパース性に基づく2chBSSへのEMアルゴリズムの適用(ブラインド信号処理/一般)
- モーダル間の共起関係を考慮した階層的トピック軌跡モデルによる映像認識検索(IBIS2010(情報論的学習理論ワークショップ))
- 結晶型マイクロフォンアレイを用いたポストフィルタ設計に基づく拡散性雑音抑圧(音響信号処理/一般)
- 統計モデルに基づく時変フィルタによる音源分離(音源分離/一般)
- 対面朗読者と視覚障害者の対話の分析とその応用(セッション3 : 理解るインタフェース : 音声対話)
- 周波数-変動長フィルタによる音声強調 (音声)
- 確率文脈自由文法を用いた和声学規則の表現と楽曲の自動和声解析(表情付け・分析)
- 確率文脈自由文法を用いた和声学規則の表現と楽曲の自動和声解析(表情付け・分析)
- 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討(福祉と音声処理,一般)
- ストローク単位の確率文脈自由文法を用いたオンライン手書き数式データベースの作成(テーマセッション4(数式),文字・文書の認識・理解)
- HMMによるMIDI演奏の楽譜追跡と自動伴奏
- 周波数-変動長フィルタによる音声強調
- パート除去を目的とした楽譜と音響信号のアラインメント手法の検討(音楽音響信号処理 (1))
- M-016 チャンネル間相関を用いた多チャンネル信号の可逆圧縮符号化(M.ネットワーク・モバイルコンピューティング)
- スペクトログラムのベイジアンノンパラメトリックモデリングに基づく音楽信号の解析
- 時間周波数分解能の異なるスペクトログラムの並列NMFによる多重音解析
- 調波成分分析によるブラインド音楽信号分離の検討(音響信号処理/一般)
- AS-5-6 スパースな混合モデルに基づく雑音・残響環境下の劣決定BSS(AS-5. 音響信号のモデリングと表現,シンポジウムセッション)
- 球面上非対称2chアレイによる全方位音源定位(聴覚・音声・言語とその障害,一般)
- 周波数-変動長フィルタによる音声強調(聴覚一般,聴覚・音声・言語とその障害/一般)
- HMMを用いたオフライン手書き単語認識における環境クラスタリングとGMMの同時最適化(テーマセッション,文字・文書の認識と理解)
- 音声入力への応答タイミング決定のための強化学習の検討(音声一般・障害者支援,聴覚・音声・言語とその障害/一般)
- 共分散行列領域での雑音除去に基づく拡散性雑音に頑健な複数音源定位
- マイクロホンのペア分散配置によるブラインド音源分離とポストフィルタによる性能向上の検討
- 調波的非負行列近似と階層的隠れマルコフモデルによる多重ピッチ分析(音楽分析・アプリケーション)
- 調波的非負行列近似と階層的隠れマルコフモデルによる多重ピッチ分析(音楽分析・アプリケーション)
- 楽譜情報からの作曲家らしさ認識のための音楽特徴量の提案
- F0パターン生成過程の確率モデルによる藤崎モデルパラメータの推定
- 多声MIDI演奏の楽譜追跡における演奏の即興性のモデル化と自動伴奏への応用
- 声質空間上での変換に基づく歌声らしさの転写に関する検討
- 楽譜の文脈自由2次元木構造表現に基づく多重音スペクトログラム生成モデルによる音響信号からの自動採譜
- 補助関数法によるMIDI信号の音楽音響信号への詳細なフィッティング
- 確率的手法による歌唱曲の自動作曲(音楽制作と情報処理の友好関係)
- 数理モデルによる音楽情報処理(招待講演,時系列パターン認識)
- 数理モデルによる音楽情報処理(招待講演,時系列パターン認識)
- 入出力隠れマルコフモデルの復号によるギターのための自動編曲