音声スポッタ : 人間同士の会話中に音声認識が利用可能な音声入力インタフェース(マルチモーダルインタフェース,<特集>インタラクション技術の原理と応用)

概要

論文の詳細を見る
本論文では,人間同士の会話中に音声認識システムへ音声コマンドを入力できる「音声スポッタ」という音声インタフェース機能を提案する.従来,会話中のユーザの音声が,音声認識システムと会話相手の人のどちらに対する発話かを,マイク入力による音声だけから識別することは困難だったため,人間同士の会話中に音声認識システムは利用されていなかった.音声スポッタでは,音声に含まれる非言語情報の中から,有声休止(「えー」のように母音の引き延ばし)による言い淀みと,声の高さの2種類を活用することで,各発話が音声認識システムに入力されるかどうかを,ユーザが意図的に制御できるようにする.具体的には,母音を延ばして言い淀んだ後に故意に高い声で発声された特殊な(不自然な)発話だけを音声認識対象と見なし,通常の会話中の発話は無視することで会話の支援を実現する.その応用例として我々は,会話中のユーザに各種情報支援をする「オンデマンド会話支援システム」と,電話での通話中にユーザがBGMを選曲・再生できる「BGM付き電話システム」の2つを構築した.音声スポッタによる発話の検出性能の評価結果やこれらのシステムの試用を通じて,本機能が頑健で便利であることを確認した.
一般社団法人情報処理学会の論文
2007-03-15

音声スポッタ : 人間同士の会話中に音声認識が利用可能な音声入力インタフェース(マルチモーダルインタフェース,<特集>インタラクション技術の原理と応用)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク