Kinectによる楽器マスキングを用いた視聴覚統合ビートトラッキング
スポンサーリンク
概要
- 論文の詳細を見る
人のギター演奏を対象とした実時間のビートトラッキングでは,シンコペーションのようなビートパターンの複雑さや人の演奏におけるテンポ揺らぎに対応する必要がある.我々はこれまでに音響情報と相関の深い弾き手の軌道を用いた視聴覚統合ビートトラッキングを開発してきた.しかし, ギターと手は色が似ているため, 手の軌道追従及びビートトラッキングの性能は十分ではなかった.本稿では,視聴覚センサに加えて深度センサも持つKinectを用いて,距離による画像マスキングを行い,手の領域を抽出する.本手法により, 手の追従の頑健さが増し, ビートトラッキングの精度が向上することを示す.
- 2012-03-06
著者
関連論文
- 複数の言語モデルと言語理解モデルによる音声理解の高精度化(音声認識・理解,情報爆発論文)
- 4ZC-2 楽器の内部モデルに基づくフィードフォワード制御によるテルミン演奏ロボットの開発(身体,学生セッション,コンピュータと人間社会)
- ニホンアマガエルの同期した発声行動に関する数理的研究および音響信号解析 (第5回生物数学の理論とその応用)
- 6U-5 フィールドにおける音源定位のための音声視覚化デバイス「カエルホタル」の設計(ネットワーク応用,学生セッション,ネットワーク)
- ニホンアマガエルの同期した発声行動に関する実験的研究およびその数理モデル解析
- 発話行為レベルの情報を活用した音声対話システムの研究
- 音声分離と楽音分離の統合のための音オントロジーの提案
- 背景音楽つき音声に対する音響ストリームの分離
- 多重奏中の歌声の基本周波数と有声音素の同時推定手法
- テルミンの音高・音量特性のモデルに基づくテルミン演奏ロボットの開発
- RNNを備えた2体のロボット間における身体性に基づいた動的コミュニケーションの創発
- NueLinda Interpreter in NueLinda : 非均質システム NueLinda インタプリタの自己記述 (並列処理)
- NueLinda Interpreter in NueLinda : 非均質システム NueLinda インタプリタの自己記述
- 2X-8 音楽と自分の声を聞き分けながらビートに合わせて発声するロボットの開発(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- Query-by-Conducting:テンポ類似性に基づく同一楽曲における多様な解釈の検索インタフェース
- 多重奏音響信号中の演奏をユーザー指定の旋律に差し替えるフレーズ置換システム
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- SpeakBySinging: 歌声を話声に変換する話声合成システム
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- 音声ストリーム分離法の提案と複数音声の同時認識の予備実験
- カクテルパーティ効果実現のための音響ストリーム分離の検討 : II.残差駆動型アーキテクチャの提案とモノラル音への適用
- カクテルパーティ効果実現のための音響ストリーム分離の検討 : I.音環境理解によるモデル化
- 6T-7 Robot Musical Accompaniment : Real-time Synchronization using Visual Cue Recognition
- 6T-8 複数自由度を用いて音高特性モデルに基づく音高制御を行うテルミン演奏ロボットの開発(音楽推薦・演奏支援,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6J-6 楽器音イコライザによる楽曲音響特徴変動と類似楽曲検索への応用(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 検索機能を内蔵した独立型・開放型文献集 : 10周年記念 CD-ROM 制作の経験
- 5V-6 RNNを用いた行為予測による人間とロボットの協調物体配置(人工知能一般(4),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6U-1 F0・振幅・音韻長の制御により歌声を話声に変換する話声合成システムSpeakBySinging(音声・歌声合成,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- AI-1-3 ロボット聴覚オープンソースソフトウエアHARK(AI-1.マルチモーダル信号処理とその応用,依頼シンポジウム,ソサイエティ企画)
- 6J-8 実環境音声認識のためのロボット聴覚システム開発とパラメータチューニング(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 6J-7 ロボット音声対話におけるSemi-blind ICAを用いた自己発話キャンセル(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 2ZN-2 バージイン許容音声対話におけるLSMによる許容発話範囲の拡張(情報爆発時代における対話インタラクション,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 6W-8 MTRNNを用いた単語と文法の階層的自己組織化による文の認識・生成(構文解析・生成・学習,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5U-9 ユーザの文法知識を状態に加えたPOMDPに基づく音声対話システム(音声インタフェース・システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- マルチエージェントによるマルチメディア通信サービスの適合的プラニング
- サービス管理システムにおけるプラニング機構
- 二分決定グラフ(BDD)による多重文脈型真偽維持システムBMTMS
- 二分決定グラフ(BDD)による真偽維持システムの実現
- 3U-9 環境音から擬音語への自動変換における特徴量抽出法の検討(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3U-7 スペクトル推定を用いたマイク数以上の同時発話に対する音声認識(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- Zero-suppressed-BDDによる制約充足問題解法の性質 : 組合せ集合演算による非単調性の解明
- マルチメディア時代における情報通信サービスのプラニング機構の検討
- マルチメディア通信サービスの適合的実時間プランニング機構の検討
- ベース音高と和音特徴の統合に基づく和音系列認識
- ロボット聴覚用オープンソースソフトウェアHARKの展開 (特集 世界に飛び出す日本のソフトウェア)
- 二分決定グラフ(BDD)による命題論理プログラミング
- MAHL:演奏者間のインタラクション分析のためのスコアアライメント手法の提案
- 歌詞と音響特徴量を用いた楽曲印象軌跡推定法の設計と評価
- 特集「並列処理」の編集にあたって
- ドメイン外発話が扱え拡張性が高い対話ドメイン選択フレームワーク
- ドメイン外発話が扱え拡張性が高い対話ドメイン選択フレームワーク
- N-Queens Game, Tangram and Tait's Problem (計算機によるパズル・ゲームの研究)
- 音環境理解研究 (CASA) へのいざない (AIチャレンジ)
- 二分決定グラフによる三面図からの3Dモデルの解釈
- ぺた語義:京大における Lisp を使ったプログラミング教育
- 視聴覚統合ビートトラッキングを用いた音楽ロボットとギターとの合奏システム
- ロボットを対象とした二階層視聴覚統合音声認識システム
- 多数の人の声を一度に聞き分ける聴覚技術 : 聖徳太子ロボットを目指して
- ロボット聴覚 : 高雑音下でのハンズフリー音声認識(オーガナイズドセッション,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 音楽共演ロボット:開始・終了キューの画像認識による人間のフルート奏者との実時間同期
- 音声対話システムにおける 簡略表現認識のための自動語彙拡張
- フレーズ置換のための調波非調波GMM・NMFに基づく音源分離・演奏合成
- 発語行為レベルの情報をユーザ発話の解釈に用いる音声対話システム
- NueLindaモデルと自己記述による実装
- ベイジアン非負値調波因子分解と多重基本周波数推定への応用
- 押弦制約と運指制約を用いたタブ譜自動生成システム
- 2-2 混合音を聞き分けるセンシング技術(2.人間をセンシングする技術,人間を理解するためのICT技術-人間を対象としたセンシング・情報処理からその応用まで-)
- 混合音を聞き分けるセンシング技術
- ロボット聴覚用オープンソースソフトウェア HARKの展開
- 音楽ロボットのための複数のビートトラッキングの結合手法とその有効性の検証
- チューブ型ロボットの姿勢推定のためのEKF-SLAMを用いた可変マイクロホンアレイ位置推定
- ROS(Robot Operating System)を用いた音楽合奏ロボットシステムの構築(ビッグデータで変わる環境知能とロボット,及びその他一般)
- 方言対訳コーパスを用いた日本語方言音声認識システム(言語モデル・音声対話)
- アクセント特徴量を用いた歌声と朗読音声の識別システム
- マイク数以上の同時発話分離のための調波・非調波音源モデルの検討
- Kinectによる楽器マスキングを用いた視聴覚統合ビートトラッキング
- 楽曲印象軌跡に基づく楽曲検索システムの実装と評価
- パーティクルフィルタを用いた動的環境下の複数音源追跡