スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討(ポスターセッション,第10回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,時間-周波数平面上における対数パワースペクトルの勾配情報に基づく特徴量を用いた音声特徴量抽出手法について検討を行う.現在,音声特徴量としてMFCCが広く用いられているが,時間特徴が表現されていないという問題がある.また,ΔMFCCやΔΔMFCCは線形回帰係数であるため,時間特徴の直接的な表現でないと言える.これに対し,本研究では,より直接的に時間特徴を表現するため,時間-周波数平面上の局所領域から勾配情報に基づく音声特徴量を抽出する手法を提案する.本稿で提案する手法は,画像認識分野で用いられているSIFT(Scale Invariant Feature Transform)やHOG(Histograms of Oriented Gradients)などの勾配に基づく特徴抽出手法を音声認識に応用したものである.これらは,物体認識や画像識別など様々な画像タスクにおいて効果を挙げている.提案手法に対し,評価実験として音素識別実験を行ったところ,MFCCと比べ,高い識別率が得られた.また,MFCCと組み合わせることにより,さらに識別精度の改善が得られた.
- 2008-12-02
著者
関連論文
- 階層的強化学習を適用したPOMDPによるカーナビゲーションシステムの音声対話制御 (音声)
- Net Tv : Net Newsとテレビ放送のクロスプラットフォームにおける動画インデキシングと音声検索(セッション2:放送とネットワーク技術)
- NetTv : NetNews とテレビ放送のクロスプラットフォームにおける動画インデキシングと音声検索
- 複数の言語情報を用いたCRFによる音声認識誤りの検出
- 音響・言語モデルの適応処理によるスポーツ実況中継の音声認識(音声,聴覚)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 音声認識における頑健性 : 音響分析・音響モデル,なにが課題か(企画)
- CENSREC-1-C : 雑音下音声区間検出評価基盤の構築
- Buried Markov Modelを用いた構音障害者の音声認識の検討 (福祉情報工学)
- Buried Markov Modelを用いた構音障害者の音声認識の検討 (音声)
- Buried Markov Modelを用いた構音障害者の音声認識の検討 (パターン認識・メディア理解)
- 尤度最大化に基づくエコー推定を用いた車室内マルチスピーカ音響エコーキャンセラの検討
- メタモデルと音響モデルの統合による構音障害者の音声認識(福祉と音声処理,一般)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- D-11-67 位相限定相関法を用いたマイクロ波レーダからの地表変位推定(D-11.画像工学,一般セッション)
- 位相限定相関法を用いたマイクロ波レーダからの地表変位推定
- 情報家電操作における脳性麻痺構音障害者の音声認識評価(福祉情報工学一般)
- マルチモーダルインタラクションによるニュース映像中の人物認識(システム論文特集号)
- D-11-57 ウェーブレット変換を用いた学習型の超解像(D-11.画像工学,一般セッション)
- スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討(ポスターセッション,第10回音声言語シンポジウム)
- D-12-91 3次元パーティクルフィルタとEMDを用いた選手の追跡(D-12.パターン認識・メディア理解,一般セッション)
- 階層的強化学習を適用したPOMDPによるカーナビゲーションシステムの音声対話制御(認識,理解,対話,一般)
- バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出(音声・言語・音響教育,一般)
- 基底の反復生成と教師ありNMFを用いた信号解析 (音声)
- 基底の反復生成と教師ありNMFを用いた信号解析 (言語理解とコミュニケーション)
- メタモデルと音響モデルの統合による構音障害者の音声認識(福祉と音声処理,一般)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 尤度最大化に基づくエコー推定を用いた車室内マルチスピーカ音響エコーキャンセラの検討
- 尤度最大化に基づくエコー推定を用いた車室内マルチスピーカ音響エコーキャンセラの検討
- 確率スペクトル包絡に基づくNMF基底生成モデルを用いた混合楽音解析
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- D-14-7 AdaBoostと音声・唇GMMによる発話区間検出(D-14.音声・聴覚,一般講演)
- D-12-70 階層的領域分割法に基づく木構造条件付確率場による一般物体認識(D-12.パターン認識・メディア理解,一般セッション)
- 階層的強化学習を適用したPOMDPによる音声対話制御 (音声)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定 (音声)
- 階層的強化学習を適用したPOMDPによる音声対話制御 (言語理解とコミュニケーション)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定 (言語理解とコミュニケーション)
- 構音障害者の音声認識における動的特徴量の考察(福祉と音声処理,一般)
- ランダムプロジェクションを用いた音声特徴量変換(音響モデル,認識,理解,対話,一般)
- 1ZC-3 多重解像度独立性検定を用いた遺伝子ネットワークの構築(バイオ情報学と医用画像,学生セッション,コンピュータと人間社会)
- D-12-23 AAMのモデル選択による方位に頑健な不特定人物の顔表情認識(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成),一般セッション)
- D-12-76 複数特徴量の重み付け統合による一般物体認識(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)
- AAMを用いた顔方位にロバストな唇領域特徴抽出と音声特徴による構音障害者の音声認識(一般(ポスターセッション),第11回音声言語シンポジウム)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- Buried Markov Modelを用いた構音障害者の音声認識の検討(テーマセッション,福祉と見守りのための画像・音声処理)
- 構音障害者の音声認識の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 構音障害者の音声認識の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 構音障害者の音声認識の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 音声情報と画像情報の併用による商品紹介映像のセグメンテーション(音声,聴覚)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性ひずみの抑圧(音声, 聴覚)
- GMMに基づく音声信号推定法と時間領域SVDに基づく音声強調法の併用による雑音下音声認識(音声, 聴覚情報論的学習理論論文)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(第5回音声言語シンポジウム : 耐雑音)
- GMMとEMアルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧(第5回音声言語シンポジウム : 耐雑音)
- AAMを用いた顔方位にロバストな唇領域特徴抽出と音声特徴による構音障害者の音声認識(一般(ポスターセッション),第11回音声言語シンポジウム)
- 構音障害者の音声認識の検討
- ボールと選手に着目したディジタルカメラワークの実現法 : ディジタルシューティングによるサッカー解説映像生成システムに向けて(放送現業・コンテンツ制作)
- 野球中継のハイライトシーン実時間配信を目的とした特徴のマイニングによるPCシーンの自動検出(デジタル放送・伝送方式)
- 映像文法に基づいた実時間使用可能ショット識別による撮影ナビゲーションシステム(マルチメディアとパターン認識理解,一般)
- D-12-170 選手とボールに着目したディジタルカメラワーク実現法の検討 : HD映像からのサッカー映像自動生成に向けて(D-12. パターン認識・メディア理解B)
- J-012 個人適応型サッカー映像の自動生成技術(J分野:グラフィクス・画像)
- スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討(ポスターセッション,第10回音声言語シンポジウム)
- スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討(ポスターセッション,第10回音声言語シンポジウム)
- D-12-18 マルチ識別器を用いた花画像検索システムの構築(D-12.パターン認識・メディア理解,一般講演)
- 音声認識のフロントエンド(自動音声認識研究の動向と展望)
- 知識を用いた音声認識による野球実況中継の構造化(音声言語応用)(第6回音声言語シンポジウム)
- 知識を用いた音声認識による野球実況中継の構造化(音声言語応用)(第6回音声言語シンポジウム)
- 知識を用いた音声認識による野球実況中継の構造化(音声言語応用)(第6回音声言語シンポジウム)
- D-12-80 顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識(D-12.パターン認識・メディア理解,一般講演)
- 画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴量を用いたGraphCuts(一般セッション,パターン認識・メディア理解のための学習理論とその周辺)
- D-12-88 マルチテンプレート型二次元CSPによる高速目領域検索(D-12.パターン認識・メディア理解,一般講演)
- I_022 二次元CSPによる目領域探索の高速化(I分野:画像認識・メディア理解)
- 弱識別器にSVMを用いたAdaBoostの検討(一般(ポスターセッション),第9回音声言語シンポジウム)
- 弱識別器にSVMを用いたAdaBoostの検討(一般(ポスターセッション),第9回音声言語シンポジウム)
- 弱識別器にSVMを用いたAdaBoostの検討(一般(ポスターセッション),第9回音声言語シンポジウム)
- Net Tv : Net Newsとテレビ放送のクロスプラットフォームにおける動画インデキシングと音声検索(セッション2:放送とネットワーク技術)
- コンテキストアウェアネスに基づく対話型テレビの検討
- Multi-class AdaBoostを用いた雑音検出(第8回音声言語シンポジウム)
- Multi-class AdaBoostを用いた雑音検出(Session-1 検出,第8回音声言語シンポジウム)
- Multi-class AdaBoostを用いた雑音検出(Session-1 検出,第8回音声言語シンポジウム)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定(情報アクセス(オーガナイズドセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- Bag of Grammarとルールベース手法を用いたドメイン依存性の少ないハイブリッド型Whyテキストセグメント判定(情報アクセス(オーガナイズドセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 音素部分空間の統合による音声特徴量抽出の検討(特徴量・音響モデル,第9回音声言語シンポジウム)
- 音素部分空間の統合による音声特徴量抽出の検討(特徴量・音響モデル,第9回音声言語シンポジウム)
- 音素部分空間の統合による音声特徴量抽出の検討(特徴量・音響モデル,第9回音声言語シンポジウム)
- 音素PCAを用いた残響下における音声特徴量抽出
- AdaBoostを用いたシステムへの問い合わせと雑談の判別(第8回音声言語シンポジウム)
- AdaBoostを用いたシステムへの問い合わせと雑談の判別(Session-1 検出,第8回音声言語シンポジウム)
- AdaBoostを用いたシステムへの問い合わせと雑談の判別(Session-1 検出,第8回音声言語シンポジウム)
- 音響モデルを利用したシングルチャネルによる音源方向推定(ブラインド信号処理/一般)