残差駆動型アーキテクチャの提案と音響ストリーム分離への応用
スポンサーリンク
概要
- 論文の詳細を見る
This paper presents the Residue-Driven Architecture (RDA) as a general computational frame-work for sound stream segregation based on a multi-agent paradigm. Sound stream segregation is an important primary processing for computationally understanding sounds (Computational Auditory Scene Analysis) in the real-world. Since RDA is designed without assuming any specific sound attributes, it can be applied to various kinds of sound stream segregation problems. The RDA consists of three kinds of agents : an event-detector, a tracer-generator, and tracers. The event-detector calculates a residue by subtracting the predicted input from the actual input. When a residue exceeds a threshold value, tracer-generator generates a tracer that extracts a sound stream from the residue and returns a predicted input of the next time frame to the event-detector. The RDA is applied to the design of two subsystems : A monaural subsystem segregates sound streams under background noise using harmonic structure ; a binaural subsystem refines the sound streams segregated by the monaural system using the direction of the sound source. These subsystems can be concisely designed and simply implemented based on the RDA ; therefore, the effectiveness of the RDA is proven. In addition, experimental results show that the capability of the sound stream segregation system is improved by combining these subsystems.
- 社団法人人工知能学会の論文
- 1997-01-01
著者
-
奥乃 博
Ntt基礎研究所
-
後藤 真孝
早稲田大学
-
中谷 智広
NTT基礎研究所
-
川端 豪
Ntt研究所
-
川端 豪
NTT基礎研究所
-
中谷 智広
Ntt基礎研究所:(現)東日本電信電話(株)法人営業本部
関連論文
- 複数の言語モデルと言語理解モデルによる音声理解の高精度化(音声認識・理解,情報爆発論文)
- ジャズの独奏の変化に対応する自動伴奏システム
- 第6回全米人工知能会議に出席して(Sixth National Conference on Artificial Intelligence, AAAI-87)
- 二分決定グラフによる効率的な三面図理解システムTOVINの実装
- パネル討論会「コンピュータサイエンスとしての音楽情報処理」の報告 : 第52回全国大会シンポジウム
- 並列計算機によるリアルタイム音響情報処理 : 音楽音響信号に対するビートトラッキングシステム
- 音楽の音響信号に対するビートトラッキングシステム
- 発話行為レベルの情報を活用した音声対話システムの研究
- 仮想ジャズセッションシステム : VirJa Session
- すべてのプレーヤーが対等なジャズセッションシステム : I.システムの全体構想と分散環境での実装
- ベースギターの自動採譜システム
- ハービー君 : 演繹オブジェクト指向に基づいてジャズらしいコードにリハーモナイズするシステム
- WWW上での歌声による曲検索システム
- 歌声による曲検索システム : 音程・音長情報の分布を利用した閾値の決定法
- 背景音楽つき音声に対する音響ストリームの分離
- 背景音楽つき音声に対する音響ストリームの分離
- 多重奏中の歌声の基本周波数と有声音素の同時推定手法
- テルミンの音高・音量特性のモデルに基づくテルミン演奏ロボットの開発
- RNNを備えた2体のロボット間における身体性に基づいた動的コミュニケーションの創発
- Query-by-Conducting:テンポ類似性に基づく同一楽曲における多様な解釈の検索インタフェース
- 多重奏音響信号中の演奏をユーザー指定の旋律に差し替えるフレーズ置換システム
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- SpeakBySinging: 歌声を話声に変換する話声合成システム
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- 音オントロジーに基づいた音環境理解システムの統合 (「オントロジーの基礎と応用」)
- 音響ストリーム分離の音声認識からの評価
- 音響ストリーム分離の音声認識からの評価
- 音環境理解のためのマルチエージェントによる調波構造ストリームの分離
- マルチエージェントシステムによる音響ストリーム分離 : ストリーム分離の排他性の向上
- マルチエージェントシステムによる音響ストリーム分離のダイナミクス
- 創発的計算モデルによる音環境理解 : 音響ストリーム分離エージェントの構築と評価
- 打楽器音を対象にした音源分離システム
- ネットワーク上で相互作用するアルゴリズム作曲系を用いた音楽教育システム
- AIマップについて
- ロボット聴覚--高雑音下でのハンズフリー音声認識 (音声)
- 3U-2 複数の言語モデルと言語理解モデルによる音声理解手法のラピッドプロトタイピングへの適用(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 全米人工知能会議AAAI-94報告
- 6J-6 楽器音イコライザによる楽曲音響特徴変動と類似楽曲検索への応用(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 5V-6 RNNを用いた行為予測による人間とロボットの協調物体配置(人工知能一般(4),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6U-1 F0・振幅・音韻長の制御により歌声を話声に変換する話声合成システムSpeakBySinging(音声・歌声合成,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- AI-1-3 ロボット聴覚オープンソースソフトウエアHARK(AI-1.マルチモーダル信号処理とその応用,依頼シンポジウム,ソサイエティ企画)
- 6J-8 実環境音声認識のためのロボット聴覚システム開発とパラメータチューニング(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 6J-7 ロボット音声対話におけるSemi-blind ICAを用いた自己発話キャンセル(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 2ZN-2 バージイン許容音声対話におけるLSMによる許容発話範囲の拡張(情報爆発時代における対話インタラクション,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 6W-8 MTRNNを用いた単語と文法の階層的自己組織化による文の認識・生成(構文解析・生成・学習,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- VirStA System : 仮想ステージと仮想アクターによる分散CGアニメーションシステムIII.ジャズセッションプレーヤーの実現
- VirStA system : 仮想ステージと仮想アクターによる分散CGアニメーションシステムII分散環境でのリアルタイム実装
- 5U-9 ユーザの文法知識を状態に加えたPOMDPに基づく音声対話システム(音声インタフェース・システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- マルチエージェントによるマルチメディア通信サービスの適合的プラニング
- 二分決定グラフ(BDD)による多重文脈型真偽維持システムBMTMS
- 二分決定グラフ(BDD)による真偽維持システムの実現
- 3U-9 環境音から擬音語への自動変換における特徴量抽出法の検討(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3U-7 スペクトル推定を用いたマイク数以上の同時発話に対する音声認識(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 二分決定グラフの適用による三面図の効率的理解
- BDDの制約順序の効率化による制約充足問題の解法
- 二分決定グラフを用いた三面図理解システム
- 二分決定グラフによる三面図理解システムの機能拡張
- 二分決定グラフを用いた三面図の効率的理解
- 全米人工知能会議 AAAI-96 報告
- Zero-suppressed-BDDによる制約充足問題解法の性質 : 組合せ集合演算による非単調性の解明
- 残差駆動型アーキテクチャの提案と音響ストリーム分離への応用
- マルチメディア時代における情報通信サービスのプラニング機構の検討
- マルチメディア時代における情報通信サービスのプラニング機構の検討
- マルチメディア時代における情報通信サービスのプラニング機構の検討
- マルチメディア通信サービスの適合的実時間プランニング機構の検討
- マルチメディア通信サービスの適合的実時間プランニング機構の検討
- ベース音高と和音特徴の統合に基づく和音系列認識
- 多数の人の声を一度に聞き分ける聴覚技術 : —聖徳太子ロボットを目指して—
- ロボット聴覚用オープンソースソフトウェアHARKの展開 (特集 世界に飛び出す日本のソフトウェア)
- 二分決定グラフ(BDD)による命題論理プログラミング
- MAHL:演奏者間のインタラクション分析のためのスコアアライメント手法の提案
- 歌詞と音響特徴量を用いた楽曲印象軌跡推定法の設計と評価
- ドメイン外発話が扱え拡張性が高い対話ドメイン選択フレームワーク
- ドメイン外発話が扱え拡張性が高い対話ドメイン選択フレームワーク
- コラム「計算機科学とインターネット」の開設にあたって
- 一人工知能研究者のインターネット活用法 (「人工知能研究者のためのインターネット活用術」)
- 小特集「人工知能研究者のためのインターネット活用術」にあたって
- Soarアーキテクチャ (「Soarプロジェクト」)
- ATMSの高速化技法とその応用 (「推論の高速化技術」)
- 三面図の暖昧性除去における二分決定グラフの利用
- ぺた語義:京大における Lisp を使ったプログラミング教育
- 視聴覚統合ビートトラッキングを用いた音楽ロボットとギターとの合奏システム
- ロボットを対象とした二階層視聴覚統合音声認識システム
- 二分決定グラフによる制約充足問題の解法
- 多数の人の声を一度に聞き分ける聴覚技術 : 聖徳太子ロボットを目指して
- ロボット聴覚 : 高雑音下でのハンズフリー音声認識(オーガナイズドセッション,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 音楽共演ロボット:開始・終了キューの画像認識による人間のフルート奏者との実時間同期
- 音声対話システムにおける 簡略表現認識のための自動語彙拡張
- フレーズ置換のための調波非調波GMM・NMFに基づく音源分離・演奏合成
- 発語行為レベルの情報をユーザ発話の解釈に用いる音声対話システム
- 調波構造と方向同定に基づく音響ストリーム分離
- マルチエージェントによる音響ストリーム分離
- TAO における論理型プログラミングとその処理方式
- NueLindaモデルと自己記述による実装
- ベイジアン非負値調波因子分解と多重基本周波数推定への応用
- 押弦制約と運指制約を用いたタブ譜自動生成システム
- 2-2 混合音を聞き分けるセンシング技術(2.人間をセンシングする技術,人間を理解するためのICT技術-人間を対象としたセンシング・情報処理からその応用まで-)
- ロボット聴覚用オープンソースソフトウェア HARKの展開
- ROS(Robot Operating System)を用いた音楽合奏ロボットシステムの構築(ビッグデータで変わる環境知能とロボット,及びその他一般)
- 方言対訳コーパスを用いた日本語方言音声認識システム(言語モデル・音声対話)