フィルタバンク特徴量とEarth Mover's Distanceを用いた音楽検索

概要

論文の詳細を見る
本稿では,フィルタバンク特徴量と Earth Mover's Distance (EMD) を用いた音楽検索手法を提案する.提案手法では,音楽データから抽出される MFCC (melfrequency cepstral coefficient) をクラスタリングし求められた各クラスタのセントロイドおよび各クラスタに属する MFCC の個数を特徴量として使用する.音楽検索を行う際の距離尺度として用いた EMD は,2 つの離散分布において一方の分布を他方の分布に変換するための最小コストとして定義される.日本のポップス 780 曲に対する音楽検索実験結果より,MP3 により 32kbps に圧縮を行った評価データに対し,96.73% の検索正解率を示した.
2011-02-04

著者

北研二
徳島大学工学部
北研二
徳島大学高度情報化基盤センター
北研二
徳島大
三好真人
徳島大学
柘植覚
大同大学
肖清梅
徳島大学
北研二
徳島大学

関連論文

徳島大学キャンパスネットワークシステムの更新について
距離索引VP-treeにおける解絞込みの一改良手法(マルチメディアデータベース,データ工学論文)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
類似画像検索技術を用いた商品推薦システム--『SUDACHI』の開発とその応用
PPM^*言語モデルを用いた日本語単語分割
PPM^*モデルによる日本語単語分割
単語の位置情報に基づくコーパスからのコロケーションの自動抽出
単語の出現位置情報を用いたコーパスからのコロケーションの自動抽出
文字クラスモデルによる日本語単語分割
文字クラスモデルに基づく日本語単語分割
WWW画像検索システムを用いた関連語の自動収集手法(検索)
講義映像配信システムにおける講義映像と資料の対応
大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
音楽検索のための楽曲印象値の自動付与手法
フィルタバンク特徴量とEarth Mover's Distanceを用いた音楽検索
教師あり学習によるベクトル空間情報検索モデルの精度改善
雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
順位統計量を用いた話者照合のためのコホート話者選択方法
Earth Mover's Distanceを用いたハミングによる類似音楽検索手法(音楽情報検索,便利で身近な音楽情報処理)
符号化音声認識のための合成音声を用いた不特定話者音響モデルの適応法(音声,聴覚)
分散音声認識における実時間周波数特性正規化手法(音声言語)
ADS-1-9 生体信号識別のための高速な特徴抽出アルゴリズム(ADS-1.信号処理のための機械学習,シンポジウムセッション)
ADS-1-9 生体信号識別のための高速な特徴抽出アルゴリズム(ADS-1. 信号処理のための機械学習,シンポジウムセッション)
パターン認識における追加学習法(機械学習によるバイオデータマインニング,一般)
ハミングによる検索機能を備えた音楽配信システムの開発
サフィックス・アレイに基づく言語モデルを用いた音声認識に関する研究
検索質問と字幕の文字画像特徴量間の距離に基づく字幕検索手法
多数の話者モデル内での順位情報を用いた話者照合
G-003 距離尺度にEarth Mover's Distanceを用いたハミングによる類似音楽検索手法(G分野:音声・音楽)
仕事量基準を用いたコーパスからの定型表現の自動抽出
WWW画像検索システムにおける有害画像フィルタリング手法
D-020 WWW画像検索システムにおける有害画像フィルタリング手法(D分野:データベース)
D-030 WWW画像検索システムを用いた有害サイトURLデータベースの構築手法(D.データベース)
距離索引VP-treeにおける解絞り込みの一改良法(基盤・要素技術)(セマンティックウェブと自然言語処理その他一般)
距離索引VP-treeにおける解絞り込みの一改良法
発話タイプ付きコーパスを用いた確率的対話モデルの自動生成
確率・統計的手法による対話構造のモデル化
確率・統計モデルの音声言語処理への応用 ( 「コーパスに基づく音声・自然言語処理」)
音声言語の確率モデル ( 「コーパスに基づく音声・自然言語処理」)
単語の出現位置情報を用いたコーパスからのコロケーションの自動抽出
質問応答システムにおける質問文内の漢字文字列に対する用語特定手法(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
URLの類似性を考慮したWWW空間からの関連語収集手法(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
質問応答システムにおける質問文内の用語特定(思考と知識検索・獲得,一般)
Earth Mover's Distance の高速検索ライブラリ fastEMD の開発
字幕付き映像データからの字幕領域の検出手法
WWW検索エンジンを用いた質問文内の用語特定手法
WWW検索エンジンを用いた質問文内の用語特定手法(QA・Web検索)
順位キューを用いた多次元データの高速近傍検索アルゴリズム
出現URLの類似性に着目したWWW空間からの関連語自動収集手法(抽出, 言い換え)
中国の自然言語処理について
D-019 WWW画像検索システムにおける検索質問拡張に基づくフィードバック検索(D分野:データベース)
長・短期間における音声の話者内変動に関する検討
ETSI標準分散音声認識フロントエンドにおける入力系の周波数特性正規化手法
MPEG映像データに対するカットシーンの高速検出手法
D-040 領域分割画像に基づく言語メタデータの自動生成手法(D.データベース)
距離反比例型スコアを導入したコロケーションの自動抽出法
自由発話音声認識における音響分析の比較
ECサイトにおける画像の類似性測定 : 『SUDACHI』の開発と商品推薦エンジンへの応用(特別セッション好みの計量)
多次元データの高速近傍検索アルゴリズム(基盤・要素技術)(セマンティックウェブと自然言語処理その他一般)
1次元自己組織化マップを用いた高次元データの高速近傍検索
1次元自己組織化マップを用いた高次元データの高速近傍検索
周波数特性の変動に頑健な実時間分散音声認識手法(耐雑音)(第5回音声言語シンポジウム)
周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
周波数特性の変動に頑健な実時間分散音声認識手法
日本語音声コーパスを用いた ETSI STQ DSR Advanced Front-End の評価
World Wide Webからの対訳データの自動収集
情報検索のための概念ベクトル生成手法
PDDPによる概念ベクトルを用いた情報検索システム
PDDPによる概念ベクトルを用いた情報検索システム
ランダム・プロジェクションによるベクトル空間モデルの次元削減
オーディオ指紋検索に適した高速なハミング空間検索
LRパーザ制御によるOne-pass型連続音声認識アルゴリズム
サポートベクターマシンによる適合性フィードバックを用いた情報検索(情報検索)
サポートベクターマシンによる適合性フィードバックを用いた情報検索
混合ガウス分布モデルを用いた画像検索
Non-negative Matrix Factorization を用いたベクトル空間情報検索モデルの次元削減手法
画像知識データベースを用いたWWW画像検索システムの開発(画像検索・映像データベース)
1次元自己組織化マップを用いた高次元データの高速近傍検索
Non-negative Matrix Factorizationを用いた情報検索モデルの次元圧縮および検索質問拡張
大規模顔画像データベースに対する印象語による類似顔画像検索技術に関する研究
ETSI標準分散音声認識フロントエンドを用いた音声認識実験
音素依存線形判別分析の検討
Simple PCAを用いたベクトル空間情報検索モデルの次元削減
Non-negative Matrix Factorizationを用いた情報検索
情報検索システムの統計的手法による特徴と精度の分析
ランダム・プロジェクションによるベクトル空間情報検索モデルの次元削除
解散フーリエ変換を用いたベクトル空間モデルの次元削減
教師あり学習によるベクトル空間モデルの精度改善
クラスタリングに基づくGMM学習法による話者モデルの構築(話者認識・照合,認識,理解,対話,一般)
クラスタリングに基づくGMM学習法による話者モデルの構築
音声ドキュメント検索におけるクエリ拡張と音節認識の併用の効果(音声処理,時系列パターン認識)
音声ドキュメント検索におけるクエリ拡張と音節認識の併用の効果(音声処理,時系列パターン認識)
検索質問多重化による高速なオーディオ指紋検索
エネルギー変化の線形予測符号化に基づくリズム特徴量を用いた音楽印象識別

フィルタバンク特徴量とEarth Mover's Distanceを用いた音楽検索

スポンサーリンク

概要

著者

関連論文

スポンサーリンク