メタデータ生成のための背景音楽の類似検索
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,映像中で使われている背景音楽(BGM)の曲名をメタデータとして付与するために,人の声と背景音楽が混合した音響信号を検索キーとして,その背景音楽が類似する音響信号を音楽DBから高速に検索する手法を提案する.提案手法では,この背景雑音を検索するためにロバスト推定の考え方に基づいた非類似度を用いる.また非定常雑音の性質に基づいた特徴ベクトルの圧縮と多次元インデックスの利用により高速化を実現している.特徴ベクトルを圧縮することによって生じる性能劣化を抑制するために映像中の背景音楽の継続性を利用した結果,高速化しない場合と同程度の検索精度が得られることがわかった.実験では. 2525曲(約193時間)分の音楽DBを構築して実際の音楽番組の背景音楽部分に提案手法を適用した結果,約90%の検索精度が得られ,検索時間は検索キー1つ(約4秒間)あたり,約3秒であった.
- 社団法人電子情報通信学会の論文
- 2003-05-23
著者
-
仲西 正
NTTサイバーソリューション研究所
-
仲西 正
日本電信電話株式会社第三部門
-
仲西 正
日本電信電話株式会社nttサイバーソリューション研究所
-
須賀 啓敏
日本電信電話株式会社NTTサイバースペース研究所
-
仲西 正
日本電信電話(株)サイバーソリューション研究所
関連論文
- オープン映像コンテンツ共有環境の構築と実践 : OCWにおける映像コンテンツ共有実験(ユビキタス・モバイル学習環境/一般)
- んとと君 : マウス操作と音声で感情的な対話を行う仮想生物
- Flashを用いた3D顔画像合成によるコミュニケーションシステムの構築
- D-11-126 顔検出を用いた投稿動画の公開可否判断の効率化(D-11. 画像工学,一般セッション)
- 経時眼底画像間の位置合せ及び色補正と画像差分量による経時変化有無判定
- 10-108 オープン映像コンテンツの共有と利用環境の構築 : OCW講義映像の共有とオープンエデュケーションへの適用(オーガナイズドセッション「オープンコースウエアとその活用」-II,口頭発表論文)
- Media Tray : ユーザが構成可能なカフェテリア型コンテンツ視聴環境(マルチメディア処理)
- メタデータ生成のための背景音楽の類似検索
- メタデータ生成のための背景音楽の類似検索
- 眼底画像における比較読影法の検討
- 色相情報の信号・雑音解析とその応用
- 分散インデックスアーキテクチャによる複数データソースの同時結合方式の提案(検索と索引技術,モバイルデータベースとGIS及び一般)
- 利用シナリオ制御を用いた動画共有における派生利用管理(知的財産関係,一般)
- 利用シナリオ制御を用いた動画共有における派生利用管理(知的財産関係,一般)
- Morphology演算と弾性マッチングを用いた画像の部分的消去(マッチングとパターン認識)(映像・マルチメディア処理とパターン認識・理解及び一般)
- Morphology演算と弾性マッチングを用いた画像の部分的消去(マッチングとパターン認識)(映像・マルチメディア処理とパターン認識・理解及び一般)
- Morphology演算と弾性マッチングを用いた画像の部分的消去(マッチングとパターン認識)(映像・マルチメディア処理とパターン認識・理解及び一般)
- 眼底画像における比較読影の一検討
- 比較読影のための眼底画像の位置合わせ評価
- 部分文字列の配置規則を考慮したナンバープレート領域抽出
- 時空間画像処理による走行車両像自動抽出法
- 音と画像のフュージョンによる車種認識
- 超広角単眼視による移動物体の形状抽出
- R&Dホットコーナー メタデータを活用した効率的なコンテンツ管理を実現するメディアアセット管理(MAM)システム
- 電子透かし (特集 情報流通プラットフォームが拓く21世紀のネットワーク化社会(2))
- オープン講義映像の共有・利用環境の構築