最尤推定に基づく線形変換を用いた声道長正規化
スポンサーリンク
概要
- 論文の詳細を見る
声道長正規化(Vocal Tract Length Normalization:VTLN)は音声認識において最も盛んに研究されている話者適応技術の1つである。本報告では最尤推定法を用いて周波数軸の線形伸縮係数を推定し、これによって音響モデルのパラメータを適応する話者適応法を提案する。現在、HMM(隠れマルコフモデル)のパラメータ推定に用いられるEMアルゴリズムに基づくケプストラム領域での声道長正規化手法が提案されている。これら声道長正規化手法の多くは周波数領域において端点固定の非線形伸縮となり、HMMパラメータ推定はケプストラム領域で行われていた。これに対し、提案手法は唯一つの伸縮係数を持つ線形な周波数伸縮を仮定しており、テイラー展開の一次項近似によりメルケプストラム領域でモデル化される手法である。提案手法は不特定話者孤立単語認識実験を通して認識性能の向上が確認された。
- 社団法人電子情報通信学会の論文
- 2001-12-13
著者
-
嵯峨山 茂樹
東京大学大学院情報理工学系研究科
-
下平 博
北陸先端科学技術大学院大学 情報科学研究科
-
六井 淳
北陸先端科学技術大学院大学
-
六井 淳
島根大学総合理工学研究科
-
中井 満
北陸先端科学技術大学院大学
-
下平 博
北陸先端科学技術大学院大学
関連論文
- 音楽知識に基づく音高・音長の組合せ特徴量を用いたMIDIデータからの作曲家判別(音楽解析)
- 文字構造の文法記述に基づくオンライン手書き漢字列認識(テーマセッション4,文字・文書の認識・理解)
- ストローク間の位置関係の文法記述に基づくオンライン手書き漢字認識(テーマセッション5(オンライン処理),文字・文書の認識・理解)
- 理想時間周波数マスキングの分離性能と音源スパース性の関係(ブラインド信号処理の技術とその応用論文)
- リズムマップ : 音楽音響信号からの単位リズムパターンの抽出と楽曲構造の解析(音響分析一般(2))
- 日本語歌詞からの自動作曲(音楽とOR)
- テンポ曲線と隠れマルコフモデルを用いた多声音楽MIDI演奏のリズムとテンポの同時推定(演奏認識/合成,便利で身近な音楽情報処理)
- 調波音・打楽器音分離手法を用いた音楽音響信号からの自動和音認識(音響分析一般(2))
- ストロークHMMに基づくオンライン手書き文字認識の特徴量の検討
- Orpheus : 歌詞の韻律に基づいた自動作曲システム(自動作曲)
- 1.多重音解析と自動採譜(音楽情報処理技術の最前線)
- 早口合成音声の聴取実験によるテキスト音声合成の評価(視覚障害/聴覚障害/一般)
- 5.和声解析・リズム認識・自動伴奏・運指決定(音楽情報処理技術の最前線)
- モルフォロジ収縮処理と構造特徴複製に基づく画像インペインティング(一般セッション,手,顔,身体表現の認識,理解)
- モルフォロジ収縮処理と構造特徴複製に基づく画像インペインティング(一般セッション2)
- 調波成分分析によるブラインド音楽信号分離の検討(音響信号処理/一般)
- 結晶型マイクロフォンアレイを用いたポストフィルタ設計に基づく拡散性雑音抑圧(音響信号処理/一般)
- スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ
- マルコフ確率場を用いた調認識、自動和声付け、および自動対位法
- A-10-2 分散型マイクロホンアレーによる非同期録音信号のブラインドアラインメントの実環境評価(A-10.応用音響,一般セッション)
- 調波時間構造化クラスタリング(HTC)による音楽音響特徴量の同時推定
- 最尤推定に基づく線形変換を用いた声道長正規化
- 最尤推定に基づく線形変換を用いた声道長正規化
- 最尤推定に基づく線形変換を用いた声道長正規化
- 7. 擬人化音声対話エージェント(音声情報処理技術の最先端)
- 調波構造・時間包絡・音色の統合的クラスタリングによる楽音分析(音楽音響信号処理 (2))
- AS-6-3 EMアルゴリズムを用いた最尤時間周波数マスキングによる雑音環境下での2ch BSS(AS-6.実環境における高品質収音のための音声信号処理,シンポジウム)
- ハーモニッククラスタリングと情報量規準による音楽の音高/音源数の推定(山下記念研究賞受賞記念講演)
- Specmurtにおける凖最適共通調波構造パターンの反復推定による多声音楽信号の可視化とMIDI変換(音楽音響信号認識)
- 拘束つき混合正規分布の最尤推定とAICによる同時発話複数音声のF_0推定(第5回音声言語シンポジウム : ポスターセッション)
- ハーモニック・クラスタリングによる多重音信号音高抽出における音源数とオクターブ位置推定(音楽音響信号認識/生成1)
- ハーモニック・クラスタリングによる多重音の基本周波数推定アルゴリズム
- ハーモニッククラスタリングによる多重音の基本周波数推定
- 和声ラベルデータの作成と和声進行の統計解析
- 歌唱曲自動作曲の需要と今後 - 2年間のOrpheus運用を通じて
- 機能和声解析データの作成とその統計解析
- 機能和声モデルによる音楽信号からの和声推定
- 調波音/打楽器音分離手法とチューニング補正手法を用いた音楽音響信号からの自動和音認識
- 単旋律と和音の確率モデルの組み合わせによるピアノ曲演奏の自動表情付け
- 非和声音規則に基づく経路制約を用いた旋律自動生成
- 音楽音響信号の低音旋律パターンのクラスタリングと自動ジャンル認識への応用
- 手の自然な動きを考慮した隠れ変数付き隠れマルコフモデルに基づくピアノ運指決定(ピアノ)
- 隠れマルコフモデルに基づくピアノ運指の自動決定
- 階層的な文字部品間の位置関係を選択的に利用したオンライン手書き文字認識(一般セッション)
- 階層的な文字部品間の位置関係を選択的に利用したオンライン手書き文字認識(一般セッション)
- ウェアラブル環境を想定した視覚障害者用オンライン手書き文字入力インタフェース
- ストロークHMMを用いたオンライン重ね書き文字列認識
- ストロークHMMを用いたオンライン重ね書き文字列認識
- ストロークHMMを用いたオンライン重ね書き文字列認識
- 擬人化音声対話エージェントにおける発話時の頭部挙動モデル
- 隠れマルコフモデルによる音楽リズムの認識(音楽情報科学)
- 筆圧情報を併用したストロークHMMに基づくオンライン文字認識
- 結晶型マイクロフォンアレイを用いた残響環境下における楽器音分離
- スペクトルの時間変化に基づく音楽音響信号からの歌声成分の強調と抑圧
- 単旋律と和音の確率モデルの組み合わせによるピアノ曲演奏の自動表情付け
- 環境依存型ストロークHMMを用いたオンライン手書き文字認識
- 歌唱曲自動作曲の需要と今後 : 2年間の Orpheus 運用を通じて
- 複素スペクトル円心(CSCC)の推定に基づくマイクロホンアレーによる雑音抑圧
- 複素スペクトル円心(CSCC)の推定に基づくマイクロホンアレーによる雑音抑圧
- モルフォロジ収縮処理と構造特徴複製に基づく画像インペインティング(一般セッション,手,顔,身体表現の認識,理解)
- 動的計画法に基づく自動対位法
- 動的計画法と音列出現確率を用いた対位法の対旋律の自動生成(音楽生成・システム)
- リズムベクトルを用いたリズム認識
- 周波数領域のDPマッチングによる自然楽器演奏の和音ピッチ推定
- A-10-6 周波数領域ICAにおける初期値の短時間データからの学習(A-10. 応用音響,一般セッション)
- 確率モデルによる多声楽曲MIDI演奏からの楽譜推定
- 形態素情報と単語内位置情報を用いた話し言葉音声認識のための音響モデル
- 形態素情報と単語内位置情報を用いた話し言葉音声認識のための音響モデル
- 形態素情報と単語内位置情報を用いた話し言葉音声認識のための音響モデル
- LSP周波数間隔とCSM強度対を用いた音声認識の検討
- 正弦波重畳モデルのパラメータ最適化アルゴリズムの導出(ブラインド信号処理/一般)
- 音声スパース性に基づく2chBSSへのEMアルゴリズムの適用(ブラインド信号処理/一般)
- 事後確率最大化Specmurt分析による多重ピッチの反復推定アルゴリズム
- 凸射影法に基づくSpecmurt分析の共通調波構造推定
- モーダル間の共起関係を考慮した階層的トピック軌跡モデルによる映像認識検索(IBIS2010(情報論的学習理論ワークショップ))
- 擬人化音声対話エージェントにおける視線制御方法の検討
- 音声対話における擬人化エージェントの利用効果の検討
- スペクトルの時間変化に基づく : 音楽音響信号からの歌声成分の強調と抑圧
- 複合ウェーブレットモデルに基づく音声の分析合成(福祉と音声処理, 一般)
- 複合ウェーブレットモデルに基づく音声の分析合成(福祉と音声処理, 一般)
- ISO/IEC MPEG-4 Audio Lossless Coding (ALS)におけるチャネル内とチャネル間の長期予測(国際標準に向けたテレコム技術とその効用論文)
- 多チャンネル時系列信号のロスレス符号化
- チャネル間相関を用いた多チャネル信号の可逆圧縮符号化(産学連携論文)
- 結晶型マイクロフォンアレイを用いたポストフィルタ設計に基づく拡散性雑音抑圧(音響信号処理/一般)
- 統計モデルに基づく時変フィルタによる音源分離(音源分離/一般)
- 確率文脈自由文法を用いた和声学規則の表現と楽曲の自動和声解析(表情付け・分析)
- 確率文脈自由文法を用いた和声学規則の表現と楽曲の自動和声解析(表情付け・分析)
- HMMと音符n-gramを用いた音楽リズム認識
- 確率モデルによる多声音楽演奏のMIDI信号のリズム認識(音楽情報科学)
- リズム語彙を用いたHMMによるMIDI演奏のリズムとテンポ推定
- ストローク単位の確率文脈自由文法を用いたオンライン手書き数式データベースの作成(テーマセッション4(数式),文字・文書の認識・理解)
- HMMによるMIDI演奏の楽譜追跡と自動伴奏
- パート除去を目的とした楽譜と音響信号のアラインメント手法の検討(音楽音響信号処理 (1))
- リズムベクトルを用いたMIDI演奏データからのテンポの変動の推定(音楽音響信号認識/生成2)
- 時間周波数分解能の異なるスペクトログラムの並列NMFによる多重音解析
- 調波成分分析によるブラインド音楽信号分離の検討(音響信号処理/一般)
- フレームごとのモデル合成による残響下音声認識(ポスターセッション)(第5回音声言語シンポジウム)
- フレームごとのモデル合成による残響下音声認識(第5回音声言語シンポジウム : ポスターセッション)
- フレームごとのモデル合成による残響下音声認識(第5回音声言語シンポジウム : ポスターセッション)
- フレームごとのモデル合成による残響下音声認識