大規模マイクロホンアレイによる発話方向推定の検討(音響信号処理/一般)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,大規模マイクロホンアレイを用いた発話方向推定について報告する.筆者らは,先に音源の指向特性に基づいたビームフォーミング法を提案し,スピーカや人の発話方向推定について報告した.しかし,この手法において,ビームフォーマーの設計に用いる伝達関数は,対象となる音源の伝達関数を用いないと,性能が劣化するという問題点があった.また,発話区間の検出(VAD)も手動で行われているという問題点があった.前者の問題は異なる音源の伝達関数の位相差が主な原因と考えて,振幅伝達特性のみを利用したヒストグラムによる発話方向推定手法を提案した.後者については,非発話区間など信頼できない時間周波数特徴量のみを自動的にマスクするために,内積値に基づく音声周波数成分検出と自己相関を利用した発話区間検出を導入した.評価実験を通じて,スピーカの伝達関数を用いた場合でも,提案手法により人間の発話方向推定性能が大きく向上することを示した.
- 社団法人電子情報通信学会の論文
- 2008-07-11
著者
-
長谷川 雄二
(株)ホンダ・リサーチ・インスティチュート・ジャパン
-
中臺 一博
(株)ホンダ・リサーチ・インスティチュート・ジャパン
-
中臺 一博
HRI-JP
-
中臺 一博
(株)ホンダ・リサーチ・インスティチュート・ジャパン:東京工業大学
-
中島 弘史
(株)ホンダ・リサーチ・インスティチュート・ジャパン
-
醍醐 徹
東京電機大学工学部
-
金田 豊
東京電機大学工学部
-
菊池 慶子
東京電機大学工学部
-
金田 豊
NTTサイバースペース研究所
-
金田 豊
東京電機大学工学部情報通信工学科
-
金田 豊
東京電機大 工
-
金田 豊
Ntt Human Interface Laboratories
-
金田 豊
NTT研究所
-
醍醐 徹
東京電機大学 工学部
-
金田 豊
Ntt Cyber Space Laboratories
-
金田 豊
東京電機大学大学院工学研究科情報通信工学専攻
関連論文
- AIチャレンジ研究会(SIG-Challenge)(研究会総覧)
- ロボット・エージェント対話行動制御部構築ツールRIME-TKを用いた質問応答機能の実現(ポスターセッション,第10回音声言語シンポジウム)
- 3U-6 インタラクティブなプレゼンテーションでのユーザ発話の自然な制限のための複数エージェントの利用(音声言語情報処理,学生セッション,人工知能と認知科学)
- オブジェクト指向に基づくロボット・エージェントのマルチドメイン対話行動制御モジュール構築ツールRIME-TK
- MFTを用いたロボットの動作中における音声認識
- マルチドメイン音声対話システムにおける対話履歴を利用したドメイン選択(音声言語)
- 音源分離との統合によるミッシングフィーチャマスク自動生成に基づく同時発話音声認識
- インタラクション機能を有するプレゼンテーション記述言語の開発(インタフェース,入出力,その他)
- オーディオ・インタフェースの入出力フィルタ特性の検討
- ミニマックス規範に基づくサイドローブ最小ビームフォーミング
- 雑音に起因する誤差を最小化するインパルス応答測定信号
- ロボット聴覚オープンソースソフトウエアHARK
- 残響下でのバージイン発話認識のための多入力独立成分分析を応用したロボット聴覚
- 5R-7 歌唱ロボットのためのビート情報とメロディ・ハーモニー情報の統合による音楽音響信号と楽譜の実時間同期手法の開発(音楽検索・解析,学生セッション,人工知能と認知科学)
- 「ロボット聴覚」特集について
- 実物体を扱う遠隔協調作業を支援する壁面投影移動型アバタシステム Remy の提案
- ロボットを対象としたビートトラッキング法の提案とその音楽ロボットへの応用
- 4.音楽ロボットのための実時間音楽情報処理(音楽情報処理技術の最前線)
- 多段処理によるブラインド残響抑圧処理の性能向上
- 環境変動を考慮したロボット聴覚のための音源分離
- ミツバチ視運動反応を用いた視覚刺激による条件付け(バイオサイバネティックス, ニューロコンピューティング)
- 視覚刺激を用いたミツバチ条件付けによる視運動反応特性の変化
- ロボットを対象とした二階層視聴覚統合音声認識システム (第27回日本ロボット学会学術講演会論文特集号(2))
- 波動音響シミュレータによる指向性の精度検証
- 大規模マイクロホンアレイによる発話方向推定の検討(音響信号処理/一般)
- 移動型および静止型マイクロホンアレイ統合による複数移動音源追跡
- 適応ステップサイズパラメータ法による高性能ブラインド音源分離(ブラインド信号処理/一般)
- AS-6-1 マイクロホンアレイ統合によるロバストな音響ストリーム生成と移動人物追跡(AS-6.実環境における高品質収音のための音声信号処理,シンポジウム)
- アプリケーション開発における音声認識(パネル討論)
- インタラクション機能を有するプレゼンテーション記述言語の開発(HAIにおけるコミュニケーションとインタラクション適応)
- BeowulfクラスクラスタERATO-1のチューニングと評価
- 2D-1 ソフトマスクと音響モデル適応を用いた3話者同時発話音声認識(音声・音楽情報処理,一般セッション,人工知能と認知科学)
- 室内マイクロホンアレイを用いた実時間発話方向推定
- AIチャレンジ研究会(SIG-Challenge)
- ロボット・エージェント対話行動制御部構築ツールRIME-TKを用いた質問応答機能の実現(ポスターセッション,第10回音声言語シンポジウム)
- ロボット・エージェント対話行動制御部構築ツールRIME-TKを用いた質問応答機能の実現(ポスターセッション,第10回音声言語シンポジウム)
- 2次元長方形音場で発生するスウィープエコー
- 鉄道車両内部の音響特性について
- LG_002 タスク指向対話とチャットを統合した対話ロボットインターフェース(G分野:音声・音楽)
- 音声質問応答システムのユーザ発話を用いた質問応答データベース拡張支援
- 人と共存するロボットシステムの展望
- 独立成分分析に基づく適応フィルタのロボット聴覚への適用
- 情報統合による実環境音環境理解 : マイクロホンアレイ統合による音源追跡
- 人・ロボット音声インタラクションのための情報統合に向けて(ヒューマンインタラクションとパターン認識・メディア解理・言語理解,ヒューマンインタラクションとパターン認識・メディア解理・言語理解,一般)
- 人・ロボット音声インタラクションのための情報統合に向けて(ヒューマンインタラクションとパターン認識・メディア理解・言語理解)
- 人・ロボット音声インタラクションのための情報統合に向けて(ヒューマンインタラクションとパターン認識・メディア理解・言語理解)
- 人・ロボット音声インタラクションのための情報統合に向けて
- 指向性スピーカを用いたロボット音声インタフェースの提案
- HRI-JPにおけるヒューマン-ロボットインタラクション研究(システムオンシリコン及び一般)
- ミッシングフィーチャー理論を利用した音源分離と音声認識のインターフェースと複数ロボットへの適用
- 遺伝的アルゴリズムを用いたパラメータ最適化による話者位置に基づく同時発話認識の向上
- D-14-10 有向性音素グルーピングを用いた音声認識におけるロバスト性向上の検討(D-14.音声・聴覚,一般講演)
- 複数ドメイン音声対話システムにおける対話履歴を利用したドメイン選択の高精度化
- 3U-1 ロボット音声対話のためのMFTとICAによるバージイン許容機能の評価(音声言語情報処理,学生セッション,人工知能と認知科学)
- E-052 バージインを許容するロボット音声対話のためのICAを用いたセミブラインド音源分離(E分野:自然言語・音声・音楽)
- 動的リコンフィギャラブルデバイスDRPを用いたロボット聴覚のための音源分離フィルタ(音声,聴覚)
- ロボット聴覚--高雑音下でのハンズフリー音声認識 (音声)
- G-007 ミッシングフィーチャー理論による音源分離と混合音声認識の統合型インターフェース(G.音声・音楽)
- AI-1-3 ロボット聴覚オープンソースソフトウエアHARK(AI-1.マルチモーダル信号処理とその応用,依頼シンポジウム,ソサイエティ企画)
- 6J-8 実環境音声認識のためのロボット聴覚システム開発とパラメータチューニング(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 6J-7 ロボット音声対話におけるSemi-blind ICAを用いた自己発話キャンセル(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 多段処理によるブラインド残響抑圧処理の性能向上
- 波動音響シミュレータによる指向性の精度検証
- アクティブオーディションによる自然なヒューマン・ロボットインターフェースの実現に関する研究(認知と身体性)(人工知能分野における博士論文)
- 3U-6 音声質問応答システムのユーザ発話を用いた質問応答データベース拡張支援(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 複合Normalized LMS (NLMS)法モデルを用いたアフィン射影法の収束特性の検討
- BeowulfクラスクラスタERATO-1のチューニングと評価
- qューマノイドを対象にした視聴覚統合による実時間人物追跡 : アクティブオーディションと顔認識の統合
- アクティブな視聴覚統合を用いた実時間人物追跡ヒューマノイドSIG
- A-10-10 Log-TSP信号を用いたスピーカの高調波歪測定の再現性について(A-10.応用音響,基礎・境界)
- 近接音場形Filter-and-Sumアレーを用いた出力音劣化の改善
- 選択的収音技術の研究
- 多数の人の声を一度に聞き分ける聴覚技術 : —聖徳太子ロボットを目指して—
- ロボット聴覚用オープンソースソフトウェアHARKの展開 (特集 世界に飛び出す日本のソフトウェア)
- サブバンドピークホールド処理を用いた音源方向推定法
- はじめての音響信号処理 : ディジタル録音と補間の話(やさしい解説)
- ロボットを対象とした二階層視聴覚統合音声認識システム
- 多数の人の声を一度に聞き分ける聴覚技術 : 聖徳太子ロボットを目指して
- 1P1-G13 ロボット聴覚用オープンソースソフトウェアHARKの概要(コミュニケーション・ロボット)
- ロボット聴覚 : 高雑音下でのハンズフリー音声認識(オーガナイズドセッション,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 動的リコンフィギャラブルデバイスDRPを用いた音源分離フィルタの実装と評価(リコンフィギャラブル応用II, リコンフィギャラブルシステム, 一般)
- 情報統合によるインテリジェント人追跡(クラウドで始まる新たなネットワークロボット)
- 方向通過型音源分離フィルタへのFPGAの応用
- 方向通過型音源分離フィルタへのFPGAの応用
- 方向通過型音源分離フィルタへのFPGAの応用(FPGAとその応用及び一般)
- ロボット聴覚の課題と現状
- ロボット聴覚の現状と課題
- ロボット聴覚の課題と現状(知能ロボットの技術:人工知能からのアプローチ(前編))
- ヒューマノイドにおける聴覚機能の課題とアクティブオーディションによる音源定位
- ロボットの耳は二つで十分か(なぜ耳は二つあるか?)
- ロボット聴覚の課題と現状
- ロボット聴覚の課題と現状
- 混合音を聞き分けるセンシング技術 (特集人間を理解するためのICT技術 : 人間を対象としたセンシング・情報処理からその応用まで) -- (人間をセンシングする技術)
- 2-2 混合音を聞き分けるセンシング技術(2.人間をセンシングする技術,人間を理解するためのICT技術-人間を対象としたセンシング・情報処理からその応用まで-)
- 混合音を聞き分けるセンシング技術
- マルチモーダル情報統合によるインテリジェント人追跡システム
- ロボット聴覚用オープンソースソフトウェア HARKの展開
- チューブ型ロボットの姿勢推定のためのEKF-SLAMを用いた可変マイクロホンアレイ位置推定
- 非同期分散マイクロホンアレイのオンラインキャリブレーションと伝達関数の推定(マイクロホンアレイの新しい技術展開)
- DI-1-6 聴覚を中心としたロボットの環境認識技術(DI-1.社会課題を解決するためのパターン認識・メディア理解技術の進展,依頼シンポジウム,ソサイエティ企画)