1P1-G13 ロボット聴覚用オープンソースソフトウェアHARKの概要(コミュニケーション・ロボット)

概要

論文の詳細を見る
This paper describes an open source software system for robot audition called HARK (Honda Research Institute Japan Audition for Robots with Kyoto University). HARK consists of a lot of modules including multi-channel audio input, sound source localization, sound source tracking, sound source separation and recognition of separated speech for robot audition based on the data-flow oriented software programming environment, FlowDesigner. By combining these modules using a GUI environment, a user can easily build a robot audition system for various types of robots and acoustic environments. Through HARK applications to Honda ASIMO and Robovie with different microphone settings, we showed high software portability and reusability of HARK.
2008-06-06

著者

辻野広司
(株)ホンダ・リサーチ・インスティチュート・ジャパン
長谷川雄二
(株)ホンダ・リサーチ・インスティチュート・ジャパン
中臺一博
(株)ホンダ・リサーチ・インスティチュート・ジャパン
山本俊一
京都大学情報学研究科知能情報学専攻
中臺一博
HRI-JP
奥乃博
京都大学
中島弘史
(株)ホンダ・リサーチ・インスティチュート・ジャパン
山本俊一
京都大学

関連論文

複数の言語モデルと言語理解モデルによる音声理解の高精度化(音声認識・理解,情報爆発論文)
AIチャレンジ研究会(SIG-Challenge)(研究会総覧)
Artificial Subtle Expressionとしての明滅光源による音声対話の円滑化(インタラクションデザイン,人とエージェントのインタラクション論文)
4Q-2 音声認識と言語理解を動的に選択する音声理解フレームワーク(音声対話・音声要約,学生セッション,人工知能と認知科学)
音声認識と言語理解を動的に選択する音声理解フレームワーク
複数の言語モデル・言語理解方式を用いた音声理解の高精度化(理解)
ロボット・エージェント対話行動制御部構築ツールRIME-TKを用いた質問応答機能の実現(ポスターセッション,第10回音声言語シンポジウム)
文書分類手法を応用したインタラクティブプレゼンテーションにおける視聴者発話の理解(音声言語処理)
3U-6 インタラクティブなプレゼンテーションでのユーザ発話の自然な制限のための複数エージェントの利用(音声言語情報処理,学生セッション,人工知能と認知科学)
オブジェクト指向に基づくロボット・エージェントのマルチドメイン対話行動制御モジュール構築ツールRIME-TK
MFTを用いたロボットの動作中における音声認識
音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(学生セッション I)
マルチドメイン音声対話システムにおける対話履歴を利用したドメイン選択(音声言語)
音源分離との統合によるミッシングフィーチャマスク自動生成に基づく同時発話音声認識
インタラクション機能を有するプレゼンテーション記述言語の開発(インタフェース,入出力,その他)
ロボット聴覚オープンソースソフトウエアHARK
残響下でのバージイン発話認識のための多入力独立成分分析を応用したロボット聴覚
4ZC-2 楽器の内部モデルに基づくフィードフォワード制御によるテルミン演奏ロボットの開発(身体,学生セッション,コンピュータと人間社会)
5R-7 歌唱ロボットのためのビート情報とメロディ・ハーモニー情報の統合による音楽音響信号と楽譜の実時間同期手法の開発(音楽検索・解析,学生セッション,人工知能と認知科学)
「ロボット聴覚」特集について
実物体を扱う遠隔協調作業を支援する壁面投影移動型アバタシステム Remy の提案
ロボットを対象としたビートトラッキング法の提案とその音楽ロボットへの応用
4.音楽ロボットのための実時間音楽情報処理(音楽情報処理技術の最前線)
多段処理によるブラインド残響抑圧処理の性能向上
環境変動を考慮したロボット聴覚のための音源分離
ミツバチ視運動反応を用いた視覚刺激による条件付け(バイオサイバネティックス, ニューロコンピューティング)
視覚刺激を用いたミツバチ条件付けによる視運動反応特性の変化
ロボットを対象とした二階層視聴覚統合音声認識システム (第27回日本ロボット学会学術講演会論文特集号(2))
波動音響シミュレータによる指向性の精度検証
大規模マイクロホンアレイによる発話方向推定の検討(音響信号処理/一般)
移動型および静止型マイクロホンアレイ統合による複数移動音源追跡
適応ステップサイズパラメータ法による高性能ブラインド音源分離(ブラインド信号処理/一般)
AS-6-1 マイクロホンアレイ統合によるロバストな音響ストリーム生成と移動人物追跡(AS-6.実環境における高品質収音のための音声信号処理,シンポジウム)
アプリケーション開発における音声認識(パネル討論)
インタラクション機能を有するプレゼンテーション記述言語の開発(HAIにおけるコミュニケーションとインタラクション適応)
複数の言語モデルと言語理解モデルによる音声理解の高精度化
BeowulfクラスクラスタERATO-1のチューニングと評価
2D-1 ソフトマスクと音響モデル適応を用いた3話者同時発話音声認識(音声・音楽情報処理,一般セッション,人工知能と認知科学)
テルミンの音高・音量特性のモデルに基づくテルミン演奏ロボットの開発
室内マイクロホンアレイを用いた実時間発話方向推定
AIチャレンジ研究会(SIG-Challenge)
ロボット・エージェント対話行動制御部構築ツールRIME-TKを用いた質問応答機能の実現(ポスターセッション,第10回音声言語シンポジウム)
ロボット・エージェント対話行動制御部構築ツールRIME-TKを用いた質問応答機能の実現(ポスターセッション,第10回音声言語シンポジウム)
音声対話システムにおけるラピッドプロトタイピングを指向したWFSTに基づく言語理解
文書分類手法を応用したインタラクティブプレゼンテーションにおける視聴者発話の理解(音声言語処理)
複数の言語モデルと言語理解モデルによるラピッドプロトタイピング向け音声理解
LG_002 タスク指向対話とチャットを統合した対話ロボットインターフェース(G分野:音声・音楽)
ロボットの共生的対話システムとマルチモーダルな表現システムの開発と評価(テーマセッション(1), ロボットとの相互作用のための言語処理・パターン認識・メディア理解)
ロボットの共生的対話システムとマルチモーダルな表現システムの開発と評価(テーマセッション(1), ロボットとの相互作用のための言語処理・パターン認識・メディア理解)
音声質問応答システムのユーザ発話を用いた質問応答データベース拡張支援
人と共存するロボットシステムの展望
独立成分分析に基づく適応フィルタのロボット聴覚への適用
情報統合による実環境音環境理解 : マイクロホンアレイ統合による音源追跡
人・ロボット音声インタラクションのための情報統合に向けて(ヒューマンインタラクションとパターン認識・メディア解理・言語理解,ヒューマンインタラクションとパターン認識・メディア解理・言語理解,一般)
人・ロボット音声インタラクションのための情報統合に向けて(ヒューマンインタラクションとパターン認識・メディア理解・言語理解)
人・ロボット音声インタラクションのための情報統合に向けて(ヒューマンインタラクションとパターン認識・メディア理解・言語理解)
人・ロボット音声インタラクションのための情報統合に向けて
指向性スピーカを用いたロボット音声インタフェースの提案
A-16-16 ヒューマノイドロボットとアニメキャラクタによる共同プレゼンテーションMPML-HR Ver.2.0(A-16.マルチメディア・仮想環境基礎,一般講演)
HRI-JPにおけるヒューマン-ロボットインタラクション研究(システムオンシリコン及び一般)
ミッシングフィーチャー理論を利用した音源分離と音声認識のインターフェースと複数ロボットへの適用
音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(学生セッション I)
遺伝的アルゴリズムを用いたパラメータ最適化による話者位置に基づく同時発話認識の向上
D-14-10 有向性音素グルーピングを用いた音声認識におけるロバスト性向上の検討(D-14.音声・聴覚,一般講演)
複数ドメイン音声対話システムにおける対話履歴を利用したドメイン選択の高精度化
3U-1 ロボット音声対話のためのMFTとICAによるバージイン許容機能の評価(音声言語情報処理,学生セッション,人工知能と認知科学)
E-052 バージインを許容するロボット音声対話のためのICAを用いたセミブラインド音源分離(E分野:自然言語・音声・音楽)
動的リコンフィギャラブルデバイスDRPを用いたロボット聴覚のための音源分離フィルタ(音声,聴覚)
3U-2 複数の言語モデルと言語理解モデルによる音声理解手法のラピッドプロトタイピングへの適用(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
音環境理解コンピューティング(知能コンピューティングとその周辺〔第5回〕)
ミッシングフィーチャ理論に基づく音声認識を用いた複数話者同時発話認識
G-007 ミッシングフィーチャー理論による音源分離と混合音声認識の統合型インターフェース(G.音声・音楽)
色競合における適応的事例収集法(卒論セッション)
AI-1-3 ロボット聴覚オープンソースソフトウエアHARK(AI-1.マルチモーダル信号処理とその応用,依頼シンポジウム,ソサイエティ企画)
6J-8 実環境音声認識のためのロボット聴覚システム開発とパラメータチューニング(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
6J-7 ロボット音声対話におけるSemi-blind ICAを用いた自己発話キャンセル(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
多段処理によるブラインド残響抑圧処理の性能向上
波動音響シミュレータによる指向性の精度検証
アクティブオーディションによる自然なヒューマン・ロボットインターフェースの実現に関する研究(認知と身体性)(人工知能分野における博士論文)
3U-6 音声質問応答システムのユーザ発話を用いた質問応答データベース拡張支援(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
マルチモーダルプレゼンテーション記述言語MPMLのヒューマノイドへの拡張とその心理学的評価(ロボットとコミュニケーション及び一般)
脳のこころ (特集情動の脳科学)
7.自動車・交通分野における人工知能技術(人工知能技術と産業応用)
ロボット聴覚用オープンソースソフトウェアHARKの展開 (特集世界に飛び出す日本のソフトウェア)
ロボットを対象とした二階層視聴覚統合音声認識システム
情と意をもつ脳型コンピュータ (特集知・情・意の神経学)
多数の人の声を一度に聞き分ける聴覚技術 : 聖徳太子ロボットを目指して
1P1-G13 ロボット聴覚用オープンソースソフトウェアHARKの概要(コミュニケーション・ロボット)
ロボット聴覚 : 高雑音下でのハンズフリー音声認識(オーガナイズドセッション,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
動的リコンフィギャラブルデバイスDRPを用いた音源分離フィルタの実装と評価(リコンフィギャラブル応用II, リコンフィギャラブルシステム, 一般)
情報統合によるインテリジェント人追跡(クラウドで始まる新たなネットワークロボット)
系列運動の自律学習におけるラットの適応的な学習法選択(一般講演,機械学習によるバイオデータマインニング,一般)
ロボット聴覚の課題と現状(知能ロボットの技術:人工知能からのアプローチ(前編))
2-2 混合音を聞き分けるセンシング技術(2.人間をセンシングする技術,人間を理解するためのICT技術-人間を対象としたセンシング・情報処理からその応用まで-)
混合音を聞き分けるセンシング技術
マルチモーダル情報統合によるインテリジェント人追跡システム
ロボット聴覚用オープンソースソフトウェア HARKの展開
チューブ型ロボットの姿勢推定のためのEKF-SLAMを用いた可変マイクロホンアレイ位置推定
非同期分散マイクロホンアレイのオンラインキャリブレーションと伝達関数の推定(マイクロホンアレイの新しい技術展開)
DI-1-6 聴覚を中心としたロボットの環境認識技術(DI-1.社会課題を解決するためのパターン認識・メディア理解技術の進展,依頼シンポジウム,ソサイエティ企画)

1P1-G13 ロボット聴覚用オープンソースソフトウェアHARKの概要(コミュニケーション・ロボット)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク