Novel Tonal Feature and Statistical User Modeling for Query-by-Humming
スポンサーリンク
概要
- 論文の詳細を見る
This paper describes a query-by-humming (QbH) music information retrieval (MIR) system based on a novel tonal feature and statistical modeling. Most QbH-MIR systems use a pitch extraction method in order to obtain tonal features of an input humming. In these systems, pitch extraction errors inevitably occur and degrade the performance of the system. In the proposed system, a cross-correlation function between two logarithmic frequency spectra is calculated as a tonal feature instead of a difference of two successive pitch frequencies, and probabilistic models are prepared for all tone intervals existing in the database. The similarity scores between an input humming and musical pieces in a database are calculated using the probabilistic models. The advantages of this system are that it can obtain more appropriate tonal features than the pitch-based method, and it is also robust against inaccurate humming by the user thanks to its statistical approach. From experimental results, the top-1 retrieval accuracy given by the proposed method was 86.8%, which was more than 10 points higher than the conventional single pitch method. Moreover, several integration methods were applied to the proposed method with several conditions. The majority decision method showed the highest accuracy, and 5% reduction of retrieval error was obtained.
- 一般社団法人情報処理学会の論文
- 2009-03-15
著者
-
伊藤 彰則
東北大
-
Ito A
Graduate School Of Engineering Tohoku University
-
伊藤 彰則
東北大学
-
Akinori Ito
Graduate School Of Engineering Tohoku University
-
Shozo Makino
Graduate School Of Engineering Tohoku University
-
Ito Akinori
Education Center For Information Processing Tohoku University
-
Ito Akinori
Graduate School Of Engineering Tohoku University
-
Motoyuki Suzuki
Institute of Technology and Science, The University of Tokushima
-
Takuto Ichikawa
Graduate School of Engineering, Tohoku University
-
Takuto Ichikawa
Graduate School Of Engineering Tohoku University
-
Motoyuki Suzuki
Institute Of Technology And Science The University Of Tokushima
-
伊藤 彰則
Graduate School of Engineering, Tohoku University
関連論文
- 局所変化率変換と時間軸変換に基づく有声音声の正弦波モデル(音声,聴覚)
- 日本人英語発話からの文法誤り検出
- 確率的言語モデルに基づく音声ドキュメント検索のためのWebを利用したモデル拡張の検討 (音声)
- 確率的言語モデルに基づく音声ドキュメント検索のためのWebを利用したモデル拡張の検討 (言語理解とコミュニケーション)
- 確率的言語モデルに基づく音声ドキュメント検索のためのWebを利用したモデル拡張の検討
- 歌唱の「熱唱度」評価の検討
- 複数F0候補を用いた音楽音響信号からのハミング楽曲検索
- K_088 ロボットアバタを用いたユーザ親和性向上手法の高齢者による評価(K分野:ヒューマンコミュニケーション&インタラクション)
- 3116 人間の手助けとなる機能を有するロボット IRIS の開発
- SIG-SLP/SIG-NL合同セッションここまでできるぞ音声/言語処理技術 : 音声編
- ここまでできるぞ音声/言語処理技術 : 音声編
- 監視マイクロホンのための多段GMMを用いた異常音検出手法(テーマセッション,福祉と見守りのための画像・音声処理)
- 監視マイクロホンのための多段GMMを用いた異常音検出手法(テーマセッション,福祉と見守りのための画像・音声処理)
- 監視マイクロホンのための多段GMMを用いた異常音検出手法(テーマセッション,福祉と見守りのための画像・音声処理)
- 連続音声認識コンソーシアム2002年度版ソフトウエアの概要
- 連続音声認識コンソーシアム2001年度版ソフトウエアの概要
- 日本語ディクテーション基本ソフトウェア(99年度版)
- 2000-NL-137-7 / 2000-SLP-31-2 日本語ディクテーション基本ソフトウェア(99年度版)の性能評価
- 2000-NL-137-7 / 2000-SLP-31-2 日本語ディクテーション基本ソフトウェア(99年度版)の性能評価
- 日本語ディクテーション基本ソフトウェア : 97年度版
- 日本語ディクテーション基本ソフトウェア(97年度版)
- 日本語ディクテーション基本ソフトウェア(97年度版)の性能評価
- 連続音声認識コンソーシアム2000年度版ソフトウエアの概要と評価
- 新博士によるパネルディスカッションIII 「私のための研究・価値を生み出す研究」
- 大語彙日本語連続音声認識研究基盤の整備 : 汎用音素モデルの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 学習・評価テキストコーパスの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 評価用連続音声認識プログラムの開発
- 「人はなぜコンピューターを人間として扱うか『メディアの等式』の心理学」, バイロン・リーブズ, クリフォード・ナス著, 細馬宏通訳, 翔泳社, 2001年(私のすすめるこの一冊,コーヒーブレーク)
- 日本語ディクテーション基本ソフトウェア(97年度版)の性能評価
- G-014 鼻歌入力による音楽検索のための特徴量の比較(G.音声・音楽)
- 自然対話映像における表情認識を利用した笑い認識に関する研究
- Improved Reference Speaker Weighting Using Aspect Model
- Bit rate reduction of mixed excitation linear prediction coder by Lempel-Ziv segment quantization
- Selection of Optimum Vocabulary and Dialog Strategy for Noise-Robust Spoken Dialog Systems
- Pronunciation error detection for computer-assisted language learning system based on error rule clustering using a decision tree
- An Evaluation Method of Japanese Pronunciation for Korean Native Speakers
- I-069 Smile and Laugh Recognition from Natural Conversation Video
- A New HMnet Construction Algorithm Requiring No Contextual Factors
- Information Hiding for G.711 Speech Based on Substitution of Least Significant Bits and Estimation of Tolerable Distortion
- Source-filter separation for nonstationary voiced speech based on sinusoidal representation
- Fast optimization of language model weight and insertion penalty from n-best candidates
- 統計的言語モデルを用いた作詞補助システム
- 東日本大震災 危機発生時の対応について考える:12.東日本大震災時の東北大学工学研究科の対応
- Speech Recognition under Multiple Noise Environment Based on Multi-Mixture HMM and Weight Optimization by the Aspect Model
- The Performance Prediction on Sentence Recognition Using a Finite State Word Automaton
- Novel Tonal Feature and Statistical User Modeling for Query-by-Humming
- ロボットの主観評価における身体と拡張現実感(一般,『コミュニケーションの身体を捉える』及び一般)
- A grammatical error detection method for dialogue-based CALL system
- 音声対話システムのための非言語情報を用いた発話前状態の推定(音声対話,認識,理解,対話,一般)
- 2A2-A21 日常生活支援移動ロボットGoyaneの開発
- 2A2-A22 日常生活支援移動ロボットのためのロボットアバタを用いた動作予告法の比較
- ロボットの動作によって人間の発話開始時間を制御できるか?
- 質問応答データベースを用いた聞き返し発話の検出に関する検討
- 統計的言語モデルを用いた作詞補助システムのための歌詞特徴に関する検討
- 付加情報を用いたボーカル音声操作システムにおける伴奏情報の適用方法の検討(臨場感生成,ユニバーサルメディア,ディジタルエンタテインメント,一般)
- 非言語情報を用いたHMMによるユーザ発話前内部状態の推定(テーマセッション,時系列パターン認識)
- 非言語情報を用いたHMMによるユーザ発話前内部状態の推定(テーマセッション,時系列パターン認識)
- 対話中のユーザ状態逐次推定のための多段階識別手法に関する検討
- 対話中のユーザ状態逐次推定のための多段階識別手法に関する検討
- Robust Transmission of Audio Signals over the Internet: An Advanced Packet Loss Concealment for MP3-Based Audio Signals
- 非言語情報を用いたHMMによるユーザ発話前内部状態の推定
- 拡張現実感を用いたロボットデザインの評価
- Novel Tonal Feature and Statistical User Modeling for Query-by-Humming
- Novel Tonal Feature and Statistical User Modeling for Query-by-Humming
- 音声言語情報処理研究会の20年-歴代主査による研究レビュー-
- Foreword to the special issue on ``the speech communication and its related technologies''
- グロウル・スクリーム歌唱音声の音響的特徴と聴覚印象の考察(オーガナイズドセッション「多様な音声・歌声の合成に向けて」,音声・言語・対話,一般)
- 2P2-Q08 日常生活支援移動ロボットGoyaneの開発 : 高さ変更可能な機構の提案(インフォマティブ・モーションとモーション・メディア-ロボットの身体性と運動-)
- アマチュア歌唱エンタテインメントのための熱唱度評価システムSEES
- 対話ターン中のユーザ状態の推定に有用なモダリティの分析(オーガナイズドセッション)
- 拡張現実感を用いたロボットデザインの評価
- Robust Transmission of Audio Signals over the Internet: An Advanced Packet Loss Concealment for MP3-Based Audio Signals ( Fundamental Aspects and Recent Developments in Multimedia and VLSI Systems)