調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
スポンサーリンク
概要
- 論文の詳細を見る
残響のある環境でバイノーラル録音された音声に対し、頑健に音源分離を行う方法を提案する。これまで調波構造や音源方向の手がかりを用いて動的に音源を分離する方法が提案されているが、この方法は残響の影響を考慮していなかったため、残響が増加するにつれて分離性能が劣化する問題があった。これは、残響下で、音源方向や基本周波数(F_0)などの特徴量抽出性能が低下することが原因である。本稿では、残響が各特徴量に与える影響を調査するとともに、その影響を低減する頑健な特徴抽出法を提案する。実験により残響時間が0.5秒の場合でも、提案法により3音源混合音に対して不要な音源検出を抑制しながら90%以上の音源を正しい方向に検出できることを確認した。さらに、F_0抽出性能が向上するとともに分離音のスペクトル歪が改善することを確認した。
- 社団法人電子情報通信学会の論文
- 2003-04-18
著者
-
奥乃 博
京都大学大学院情報学研究科
-
奥乃 博
京都大学
-
奥乃 博
京都大学大学院情報学研究科知能情報学専攻
-
奥乃 博
科学技術振興事業団 Erato 北野共生システムプロジェクト
-
吉田 尚史
京都大学大学院情報学研究科知能情報学専攻
-
中谷 智広
NTTコミュニケーション科学基礎研究所
-
三好 正人
NTTコミュニケーション科学基礎研究所
-
奥乃 博
NTTソフトウェア研究所
-
奥乃 博
Ntt電気通信研究所
-
三好 正人
日本電信電話株式会社nttコミュニケーション科学基礎研究所
-
奥乃 博
電電公社武蔵野電気通信研究所
-
奧乃 博
科学技術振興事業団ERATO北野共生システムプロジェクト
-
奥乃 博
京都大学大学院
-
三好 正人
金沢大学大学院自然科学研究科
関連論文
- 複数の言語モデルと言語理解モデルによる音声理解の高精度化(音声認識・理解,情報爆発論文)
- 4Q-2 音声認識と言語理解を動的に選択する音声理解フレームワーク(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 音声認識と言語理解を動的に選択する音声理解フレームワーク
- 複数の言語モデル・言語理解方式を用いた音声理解の高精度化(理解)
- LE-008 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(自然言語・音声・音楽)
- 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(学生セッション I)
- マルチドメイン音声対話システムにおける対話履歴を利用したドメイン選択(音声言語)
- 5Q-3 神経回路モデルを用いた音声模倣モデルによる音声バブリングと母音獲得過程シミュレーション(ニューラルネット(1),学生セッション,人工知能と認知科学)
- ロボット聴覚オープンソースソフトウエアHARK
- 人工神経回路モデルと声道物理モデルを用いた母音模倣モデルに基づく音素獲得シミュレーション
- 残響下でのバージイン発話認識のための多入力独立成分分析を応用したロボット聴覚
- 4ZC-2 楽器の内部モデルに基づくフィードフォワード制御によるテルミン演奏ロボットの開発(身体,学生セッション,コンピュータと人間社会)
- 3Y-2 顔追跡による音環境可視化システムのアウエアネスの改善(アンビエント・インタフェース,学生セッション,インタフェース)
- 5S-1 RNNを備えた2体の小型ロボット間の首振り動作と音声によるインタラクションにおける共有シンボルの創発(認知・推論・探索,学生セッション,人工知能と認知科学)
- 5R-7 歌唱ロボットのためのビート情報とメロディ・ハーモニー情報の統合による音楽音響信号と楽譜の実時間同期手法の開発(音楽検索・解析,学生セッション,人工知能と認知科学)
- 5R-6 ベース音高確率とクロマベクトルの相関を考慮した和音進行認識(音楽検索・解析,学生セッション,人工知能と認知科学)
- 4R-2 音色特徴量に基づく調波・非調波統合モデルによる楽器音モーフィング(音楽演奏・生成,学生セッション,人工知能と認知科学)
- 4R-1 連続発音中の音色変化に着目した未学習譜面上への演奏信号生成(音楽演奏・生成,学生セッション,人工知能と認知科学)
- 4Q-4 音声対話システムにおける想定外発話の文法検証を用いた対話行為推定に基づくヘルプ生成(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 4Q-3 実環境音声対話システムにおけるバージイン発話タイミングを活用した指示対象の同定(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 3D-3 ロボットによる卓上物体操作のためのRNNを用いた道具身体化モデルの構築(人工知能(1),一般セッション,人工知能と認知科学)
- 「ロボット聴覚」特集について
- 5ZC-6 本質的に異なる数独解盤面の列挙と番号付け(エンタテインメントコンピューティング,学生セッション,コンピュータと人間社会)
- 調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
- ロボット聴覚の現状と展望
- ロボットを対象としたビートトラッキング法の提案とその音楽ロボットへの応用
- ニホンアマガエルの同期した発声行動に関する数理的研究および音響信号解析 (第5回生物数学の理論とその応用)
- 4.音楽ロボットのための実時間音楽情報処理(音楽情報処理技術の最前線)
- 単一テンプレート適応法による音楽音響信号を対象としたハイハットシンバルの音源同定(音楽音響信号認識)
- 6U-5 フィールドにおける音源定位のための音声視覚化デバイス「カエルホタル」の設計(ネットワーク応用,学生セッション,ネットワーク)
- ドラムパターン推定によるドラム音認識誤り補正手法
- テンプレート適応を利用した実世界の音楽音響信号に対するドラムスの音源同定
- ニホンアマガエルの同期した発声行動に関する実験的研究およびその数理モデル解析
- 移動型および静止型マイクロホンアレイ統合による複数移動音源追跡
- 楽譜情報を援用した多重奏音楽音響信号の音源分離と調波・非調波統合モデルの制約付きパラメータ推定の同時実現(音楽情報,新しいパラダイムの中での分散システム/インターネット運用・管理)
- 自己組織化マップによる教師なしクラスタリングを利用したドラム演奏の自動採譜(音楽音響信号認識/生成1)
- ゲーム理論に基づく参照結束性のモデル化と日本語・英語の大規模コーパスを用いた統計的検証
- 発話行為レベルの情報を活用した音声対話システムの研究
- 音高による音色変化を考慮した楽器音の音高・音長操作手法(演奏分析・支援・加工)
- 複数の言語モデルと言語理解モデルによる音声理解の高精度化
- 楽曲推薦システムの効率性とスケーラビリティの改善のための確率的推薦モデルのインクリメンタル学習法(検索・推薦)
- 2D-1 ソフトマスクと音響モデル適応を用いた3話者同時発話音声認識(音声・音楽情報処理,一般セッション,人工知能と認知科学)
- 音声対話システムにおける簡略表現認識のための誤認識増加を抑制する自動語彙拡張(学生セッション II)
- 3U-5 音声対話システムにおけるユーザの固有名詞の簡略化に対処する語彙拡張(音声言語情報処理,学生セッション,人工知能と認知科学)
- 多重奏中の歌声の基本周波数と有声音素の同時推定手法
- テルミンの音高・音量特性のモデルに基づくテルミン演奏ロボットの開発
- 複数の編集距離を用いた口語翻訳文の自動評価
- RNNを備えた2体のロボット間における身体性に基づいた動的コミュニケーションの創発
- 2X-8 音楽と自分の声を聞き分けながらビートに合わせて発声するロボットの開発(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- Query-by-Conducting:テンポ類似性に基づく同一楽曲における多様な解釈の検索インタフェース
- 多重奏音響信号中の演奏をユーザー指定の旋律に差し替えるフレーズ置換システム
- 音声対話システムにおけるラピッドプロトタイピングを指向したWFSTに基づく言語理解
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- SpeakBySinging: 歌声を話声に変換する話声合成システム
- 歌声GMMとビタビ探索を用いた多重奏中のボーカルパートに限定した基本周波数推定手法(音楽音響信号処理 (1))
- 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定(認識・測定)
- 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定(認識・測定)
- 複数の言語モデルと言語理解モデルによるラピッドプロトタイピング向け音声理解
- 楽曲の特徴量抽出と検索技術
- マルチメディアコンテンツにおける音楽と映像の調和度計算モデル
- 多重奏を対象とした音源同定 : 混合音テンプレートを用いた音の重なりに頑健な特徴量への重み付け及び音楽的文脈の利用(画像認識,コンピュータビジョン)
- Instrogram : 発音時刻検出とF0推定の不要な楽器音認識手法
- 伴奏書抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法(音楽情報,情報処理技術のフロンティア)
- 伴奏音抑制と高信頼度フレーム選択に基づく楽曲中の歌声の歌手名同定手法
- 混合音テンプレートを用いた多重奏の音源同定(音楽音響信号認識)
- 和音区間検出と和音名同定の相互依存性を解決する和音認識手法(音楽音響信号認識)
- 音高による音色変化に着目した楽器音の音源同定:FO依存多次元正規分布に基づく識別手法(音楽情報)
- 音響的特徴に基づく楽器の階層表現の獲得とそれに基づくカテゴリーレベルの楽器音認識の検討(音楽音響信号認識/生成1)
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- 調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
- 多重奏楽曲の楽器音量バランス変化による音楽ジャンルシフト
- 複数楽器混合モデルのパラメータ推定と楽器名同定への応用
- 残差スペクトルモデルによる伴奏・残響成分抑制に基づいた楽器演奏分析合成の高精度化
- 音響信号と音楽的制約を統合したバイオリンの演奏弦系列の推定
- 音色の音高依存性を考慮した楽器音の音高操作手法
- 楽器音イコライザによる音色の類似度に基づく楽曲検索システム(音響分析一般(2))
- 4X-4 音楽と映像の調和度計算モデルを用いたクロスメディア検索(音楽情報科学(3)検索・インタフェース,学生セッション,人工知能と認知科学)
- 2X-7 楽器固有の音響的特徴を考慮した楽器音の音高操作手法(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 2X-6 複数楽器個体による事前分布を用いた調波・非調波統合モデルのパラメータ推定(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 2X-5 ベース音高を考慮したポピュラー音楽に対する和音進行認識(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 音色特徴量分布の利用による調波・非調波統合モデルのパラメータ推定(音楽音響信号処理 (2))
- 階層的句アラインメントを用いた統計的機械翻訳(自然言語処理)
- 生成方向を考慮した統計的機械翻訳のためのデコーディングアルゴリズム(自然言語)
- 独立成分分析に基づく適応フィルタのロボット聴覚への適用
- 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(学生セッション I)
- 遺伝的アルゴリズムを用いたパラメータ最適化による話者位置に基づく同時発話認識の向上
- 3D-4 公的討議の書き起こし議事録を用いた懸案事項共有化フレームワーク(自然言語処理(1),一般セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- ゲーム理論による中心化理論の解体と実言語データに基づく検証
- 単語間二項関係の制約を使用したGDA-UNL変換システム
- 5T-4 調波GMMとWienerフィルタに基づく音楽音響信号の残響抑圧(音楽信号処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3U-1 ロボット音声対話のためのMFTとICAによるバージイン許容機能の評価(音声言語情報処理,学生セッション,人工知能と認知科学)
- E-052 バージインを許容するロボット音声対話のためのICAを用いたセミブラインド音源分離(E分野:自然言語・音声・音楽)
- 動的リコンフィギャラブルデバイスDRPを用いたロボット聴覚のための音源分離フィルタ(音声,聴覚)
- 6T-7 Robot Musical Accompaniment : Real-time Synchronization using Visual Cue Recognition
- 6T-8 複数自由度を用いて音高特性モデルに基づく音高制御を行うテルミン演奏ロボットの開発(音楽推薦・演奏支援,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- ロボット聴覚--高雑音下でのハンズフリー音声認識 (音声)
- 3U-2 複数の言語モデルと言語理解モデルによる音声理解手法のラピッドプロトタイピングへの適用(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 音声対話システムにおける簡略表現認識のための誤認識増加を抑制する自動語彙拡張(学生セッション II)
- 6J-6 楽器音イコライザによる楽曲音響特徴変動と類似楽曲検索への応用(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 5T-5 調波非調波GMMに基づくMIDI演奏音響信号に対する音色・演奏表情操作(音楽信号処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)