制約付き非負行列因子分解を用いた音声特徴抽出の検討(音声認識・音響モデル,第10回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,非負行列因子分解を用いた,音声認識のための特徴量抽出手法と,非負行列因子分解における,新しい初期化手法の提案を行う.非負行列因子分解は,非負の制約を用いて,ローカルな特徴抽出を得意とする.テキストや画像,音響データに対する応用がなされているが,本稿では音声特徴抽出に用いる.また,最近非負行列因子分解の初期化手法として特異値分解やクラスタリング法などを用いた手法が提案されているが,本稿では相関情報を用いた新しい初期化手法についても述べる.非負行列分解の付加制約としては,基底ベクトルのスパースネスを考慮した更新アルゴリズムを用いた.非負行列因子分解の初期化手法の性能比較実験では,提案手法が推定誤差と単語音声認識率で有効性を示した.MFCCまたは,主成分分析,独立成分分析などの特徴量との単語認識比較実験においても,非負行列因子分解を用いた特徴抽出法の有効性が確認された.
- 2008-12-02
著者
関連論文
- D-11-57 ウェーブレット変換を用いた学習型の超解像(D-11.画像工学,一般セッション)
- D-12-91 3次元パーティクルフィルタとEMDを用いた選手の追跡(D-12.パターン認識・メディア理解,一般セッション)
- 音声・映像認識連携への取り組み : 0.編集にあたって
- 階層的強化学習を適用したPOMDPによるカーナビゲーションシステムの音声対話制御(認識,理解,対話,一般)
- バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出(音声・言語・音響教育,一般)
- 音声・映像認識連携への取り組み : 3.画像と音声情報を統合した発話認識
- 基底の反復生成と教師ありNMFを用いた信号解析 (音声)
- 確率スペクトル包絡に基づくNMF基底生成モデルを用いた混合楽音解析
- 2-102 プログラミング相談室 : 全員の基礎スキルレベルアップのために((2)専門科目の講義・演習-I,口頭発表論文)
- D-12-70 階層的領域分割法に基づく木構造条件付確率場による一般物体認識(D-12.パターン認識・メディア理解,一般セッション)
- 階層的強化学習を適用したPOMDPによる音声対話制御 (音声)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- 音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討 (音声)
- 制約付き非負行列因子分解を用いた音声特徴抽出の検討(音声認識・音響モデル,第10回音声言語シンポジウム)
- 制約付き非負行列因子分解を用いた音声特徴抽出の検討(音声認識・音響モデル,第10回音声言語シンポジウム)
- 制約付き非負行列因子分解を用いた音声特徴抽出の検討(音声認識・音響モデル,第10回音声言語シンポジウム)
- 編集にあたって (小特集 音声・映像認識連携への取り組み)
- H-011 人物の顔画像情報に基づくコンテンツの解析(画像認識・メディア理解,一般論文)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- D-12-40 自動映像生成のためのパーティクルフィルタによるボールの追跡(D-12.パターン認識・メディア理解,一般講演)
- 単語出現順序を考慮したトピックモデルによる言語モデル適応(ポスターセッション,第10回音声言語シンポジウム)
- 韻律及び話者交代情報を用いたシステム要求検出(システム,第9回音声言語シンポジウム)
- 韻律及び話者交代情報を用いたシステム要求検出(システム,第9回音声言語シンポジウム)
- 韻律及び話者交代情報を用いたシステム要求検出(システム,第9回音声言語シンポジウム)
- D-14-17 固定カメラ映像からの音声情報を用いた映像コンテンツ生成(D-14.音声・聴覚,一般講演)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定 (信号処理)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定 (音声)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定 (応用音響)
- 音声認識との統合によるシステム要求検出(一般(ポスターセッション),第9回音声言語シンポジウム)
- 音声認識との統合によるシステム要求検出(一般(ポスターセッション),第9回音声言語シンポジウム)
- 音声認識との統合によるシステム要求検出(一般(ポスターセッション),第9回音声言語シンポジウム)
- 音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討(音声・音響一般,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 階層的強化学習を適用したPOMDPによる音声対話制御(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 階層的強化学習を適用したPOMDPによる音声対話制御(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 基底の反復生成と教師ありNMFを用いた信号解析(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 基底の反復生成と教師ありNMFを用いた信号解析(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 音声の動的特徴のモデルを使った突発性雑音の除去(ポスターセッション,第10回音声言語シンポジウム)
- 音声の動的特徴のモデルを使った突発性雑音の除去(ポスターセッション,第10回音声言語シンポジウム)
- 音声の動的特徴のモデルを使った突発性雑音の除去(ポスターセッション,第10回音声言語シンポジウム)
- 音声GMMと雑音重み推定を用いた雑音除去(雑音・VAD,第9回音声言語シンポジウム)
- 音声GMMと雑音重み推定を用いた雑音除去(雑音・VAD,第9回音声言語シンポジウム)
- 音声GMMと雑音重み推定を用いた雑音除去(雑音・VAD,第9回音声言語シンポジウム)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定(情報アクセス(オーガナイズドセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定(情報アクセス(オーガナイズドセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 音素部分空間の統合による音声特徴量抽出の検討(特徴量・音響モデル,第9回音声言語シンポジウム)
- 音素部分空間の統合による音声特徴量抽出の検討(特徴量・音響モデル,第9回音声言語シンポジウム)
- 音素部分空間の統合による音声特徴量抽出の検討(特徴量・音響モデル,第9回音声言語シンポジウム)
- 音素PCAを用いた残響下における音声特徴量抽出
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定(一般,音声・音響信号処理,音声及び一般)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定(一般,音声・音響信号処理,音声及び一般)
- 音響伝達特性の識別に基づく話者の頭部回転方向の推定(一般,音声・音響信号処理,音声及び一般)
- Bag of Grammarを用いたドメイン依存性の少ないWhyテキストセグメント識別器の自動構築法(データ工学,Web情報システム)
- CSP係数の識別に基づく話者の頭部方向推定の検討(アプリケーション,認識,理解,対話,一般)
- 確率スペクトル包絡を用いた混合音解析における制約付きスペクトル生成法の検討(ロバスト音声認識,認識,理解,対話,一般)
- 未知語とその周辺単語の音声認識誤りを考慮したCRFによる音声認識誤り訂正(話者照合・音声認識,第13回音声言語シンポジウム)
- グラフ構造表現による一般物体認識(テーマセッション,実世界文字認識と理解)
- 未知語とその周辺単語の音声認識誤りを考慮したCRFによる音声認識誤り訂正(話者照合・音声認識,第13回音声言語シンポジウム)
- マルチモーダル情報を用いた未知物体検知手法(一般セッション,人の視聴覚情報処理とPRMUの接点)
- マルチモーダル情報を用いた未知物体検知手法(一般セッション,人の視聴覚情報処理とPRMUの接点)
- 音響モデル合成を用いた単一マイクによる2話者位置推定(音声,聴覚,学生論文)
- H-013 3次元特徴量を用いた構造表現による一般物体認識(一般物体認識,H分野:画像認識・メディア理解)
- 辞書選択型非負値行列因子分解による構音障害者の声質変換
- 単眼サッカー映像における時間状況グラフを用いた選手追跡(画像・映像解析,画像の認識・理解論文)
- Sparse Codingを用いた唇情報からの音声変換(ポスターセッション)
- 音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間(音声分析)
- マルチモーダル情報を用いた未知物体検知手法
- マルチモーダル情報を用いた未知物体検知手法
- 音響モデル合成を用いた単一マイクによる2話者位置推定