音声認識のための高速最ゆう推定を用いた音道長正規化(音声情報処理 : 現状と将来技術論文特集)
スポンサーリンク
概要
- 論文の詳細を見る
近年, 隠れマルコフモデル(HMM)を用いた大語彙音声認識システムにおいて, 声道長正規化と呼ばれる話者による声道長の違いを補正する話者正規化の手法が提案されている.本論文では, 声道長による特徴量の変化を, ケプストラム空間における声道長パラメータを用いた線形写像で近似し, そのパラメータを発声から最ゆう推定する手法を提案する.従来の複数の声道長パラメータをあらかじめ用意する手法に比べ, 計算量が少なく, より話者に最適なパラメータが推定可能である.日本語5000単語認識を用いた評価実験において, 本方式単独で, 7.1%誤りが減少し, また, ケプストラム平均正規化(CMN)と組み合わせた場合に, 14.6%誤りが減少した.
- 社団法人電子情報通信学会の論文
- 2000-11-25
著者
関連論文
- シンボル列化したシーンの学習と2種のプレイ種相関度による野球放送映像プレイ種識別(画像・映像処理)
- SIFT混合ガウス分布と音響特徴を用いた映像からの高次特徴検出(テーマセッション関連,一般物体認識・画像特徴量)
- CHLAC特徴と隠れマルコフモデルを用いたGait認識(一般セッション2,複合現実感のためのパターン認識・理解)
- 統計的モデル選択によるシーン数の自動推定を用いた動画要約(一般セッション3,複合現実感のためのパターン認識・理解)
- 耐雑音音声認識のためのハフ変換による基本周波数情報抽出の高速化
- 音声とペン入力の同時入力に対する認識方式の検討(認識・理解・対話・一般)
- 数値列化したイベントシーンの学習と試合進行状況情報による制約条件を用いた野球映像イベント識別(パターン認識・メディア理解のための学習理論とその周辺)
- 基本周波数情報を用いたダイナミックベイジアンネットワークによる音声認識(聴覚・音声・言語とその障害,一般)
- 音声と手書き文字の同時入力インターフェース(マルチモーダル, コーパス・言語モデル)
- 弁別素性のグラフィカルモデリングによる音声認識
- 十分統計量を用いた教師なし話者適応における話者選択法(一般(ポスターセッション),第9回音声言語シンポジウム)
- 局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
- 音響モデル学習のための相対エントロピーを用いた学習文選択
- 音声と手書き文字の同時入力インターフェース(マルチモーダル, コーパス・言語モデル)
- 裁判員裁判向け音声認識システム (音声認識ソリューション・製品特集) -- (ソリューション・サービス)
- 音声認識のための複数の認識器を利用した能動学習 (音声)
- 十分統計量を用いた教師なし話者適応における話者選択法(一般(ポスターセッション),第9回音声言語シンポジウム)
- 十分統計量を用いた教師なし話者適応における話者選択法(一般(ポスターセッション),第9回音声言語シンポジウム)
- 音声認識における確率モデルの重み係数の自動推定(音声認識・識別,第9回音声言語シンポジウム)
- 音声認識における確率モデルの重み係数の自動推定(音声認識・識別,第9回音声言語シンポジウム)
- 音声認識における確率モデルの重み係数の自動推定(音声認識・識別,第9回音声言語シンポジウム)
- 音声認識のための高速最ゆう推定を用いた音道長正規化(音声情報処理 : 現状と将来技術論文特集)
- 音声認識のための高速最ゆう推定を用いた声道長正規化
- 音声認識のための高速最ゆう推定を用いた声道長正規化
- 音声認識のための高速最ゆう推定を用いた声道長正規化
- 局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
- 局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
- 木構造クラスタリングを用いた動画像からの高次特徴抽出(一般セッション1,文字・文書の認識・理解)
- SIFT混合ガウス分布を用いた一般物体認識のためのマルチカーネル学習(テーマセッション,コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
- SIFT混合ガウス分布を用いた一般物体認識のためのマルチカーネル学習(テーマセッション,コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
- 投球の次ショットに重きを置いたシーンのパターン化と離散隠れマルコフモデルを用いた野球放送映像の自動イベント分類
- 隠れマルコフモデルを用いた野球放送の自動的インデクシング(顔・ジェスチャ認識のためのパターン認識メディア理解,一般)
- 隠れマルコフモデルを用いた野球放送の自動的インデクシング(顔・ジェスチャ認識のためのパターン認識メディア理解,一般)
- 会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 雑音環境の変動を考慮した話者適応化
- パソコン向け音声認識ソフトウェア
- 音声認識のための複数の認識器を利用した能動学習(音響モデル,第11回音声言語シンポジウム)
- 音声認識のための複数の認識器を利用した能動学習
- 講義音声認識における講義スライド情報の利用(第8回音声言語シンポジウム)
- 情報量基準を用いた音声認識単位の自動生成
- 記述長最小原理を用いた話者適応化
- パソコン向けソフトウェア連続音声認識システム
- 木構造化された確率分布を用いた話者適応化
- 講義音声認識における講義スライド情報の利用(Session-6 音声認識,第8回音声言語シンポジウム)
- ハイブリッドモデルに基づく単視点ビデオデータにおける人間の歩行動作のトラッキング
- ハイブリッドモデルに基づく単視点ビデオデータにおける人間の歩行動作のトラッキング (コンシューマエレクトロニクス・メディア工学)
- 講義音声認識における講義スライド情報の利用(Session-6 音声認識,第8回音声言語シンポジウム)
- 講義音声認識における講義スライド情報の利用
- 情報量基準を用いた状態クラスタリングによる音響モデルの作成
- 情報量基準を用いた状態クラスタリングによる音響モデルの作成
- 雑音下音声におけるスペクトル縮小の分析とその耐雑音音声認識への利用
- ビデオ画像における人間の歩行動作の3次元トラッキング(テーマセッション(1),人の検出・計測・認識)
- ビデオ画像における人間の歩行動作の3次元トラッキング(テーマセッション(1),人の検出・計測・認識)
- マルチモーダル・マルチフレームな手法を用いたTRECVIDセマンティックインデクシング(テーマセッション,映像処理とTRECVID)
- 雑音下音声におけるスペクトル縮小の分析とその耐雑音音声認識への利用(音声一般,聴覚・音声・言語とその障害/一般)
- 構造の異なる複数モデルを用いた雑音識別手法
- 木構造GMMを用いたセマンティックインデクシングの高速化(テーマセッション,大規模マルチメディアデータを対象とした次世代検索およびマイニング)
- 木構造GMMを用いたセマンティックインデクシングの高速化(テーマセッション,大規模マルチメディアデータを対象とした次世代検索およびマイニング)
- クラウド時代の新しい音声研究パラダイム
- 複数ピンマイクで収音された会議音声の重畳区間検出
- 音声認識におけるモデル間スケーリング係数の自動推定(音声,聴覚)
- 映像の高性能なセマンティックインデクシングを目指して(テーマセッション,実世界文字認識と理解)
- 音声認識における転移学習 : 話者適応(知識の転移)
- 手話素単位を用いた大語彙手話認識(テーマセッション,時系列パターン認識)
- 手話素単位を用いた大語彙手話認識(テーマセッション,時系列パターン認識)
- GMM-SupervectorとSVMを用いた映像からのイベント検出(テーマセッション,時系列パターン認識)
- GMM-SupervectorとSVMを用いた映像からのイベント検出(テーマセッション,時系列パターン認識)
- 映像のセマンティックインデクシングのためのq-混合ガウス分布 (パターン認識・メディア理解)
- 映像のセマンティックインデクシングのためのq-混合ガウス分布 (情報論的学習理論と機械学習)
- 固定監視カメラからの人混み中の行動イベント検出(実世界センシングとその応用)
- 固定監視カメラからの人混み中の行動イベント検出(実世界センシングとその応用)
- 映像検索技術の新たな潮流
- 音声認識におけるモデル間スケーリング係数の自動推定