雑音下の連続音声中からのキーワード検出
スポンサーリンク
概要
- 論文の詳細を見る
実雑音下での連続音声中からのキーワード検出について述べる.背景雑音を伴う孤立単語音声認識のロバスト性向上に有効であった複合類似度をベースとしたワードスポッティングにおける雑音免疫学習を,不用意に発話された不要語を伴う雑音下の単語音声,更には雑音下の連続音声に対応できるように拡張した.キーワード検出のための認識辞書作成の際には,不要語および雑音の重畳した学習用音声データを合成し,ワードスポッティングによる学習用単語特徴ベクトル抽出時に,各単語境界の音韻環境を考慮した制約条件を設けることで抽出精度の向上を図り,高精度の認識辞書作成を可能とした.また各単語の複合類似度値の分布を推定し,類似度値を確率的尺度に変換して,キーワード検出の付加・脱落の調整を行った.検出対象としたキーワード30単語を含む100文を成人男性2名が発声した連続音声データに対してキーワード検出実験を行い,類似度を尺度とし孤立単語データで学習する従来の方式と本方式の性能を評価した.従来法ではSN比15dBの環境で,キーワード検出率84.0%(39.3False Alarms/Hour/Word),本方式ではキーワード検出率91.2%(22.7FA/H/W)の結果が得られ,本方式の有効性が確認された.
- 社団法人電子情報通信学会の論文
- 1993-03-25
著者
-
竹林 洋一
(株)東芝研究開発センター
-
坪井 宏之
(株)東芝総合研究所
-
金澤 博史
(株)東芝
-
竹林 洋一
(株)東芝 研究開発センター 情報・通信システム研究所
-
金澤 博史
(株)東芝研究開発センター 川崎市
-
坪井 宏之
(株)東芝研究開発センター
-
金沢 博史
(株)東芝 関西研究所
関連論文
- 音声認識応用に関する学会試行標準
- 7.Bluetoothなどのローカルネットワーク技術(モバイル社会を支える先端技術 : 小型化と使いやすさを極める)
- 第120回アメリカ音響学会報告
- NeXT Computerを用いた音声合成実験環境
- 「人間の非論理情報を AIはどう取り扱うか」へのコメントと回答
- 2000-HI-89-6 Bluetoothの開発動向とヒューマンインタフェースへの応用
- キーボード対話からの感情抽出に関する検討
- 計算機との対話のための非言語音声の認識と合成
- 音声自由対話システムTOSBURG II : ユーザ中心のマルチモーダルインタフェースの実現に向けて
- 競合MAP推定法を用いた話者・環境適応学習
- 組織活性化支援のためのマルチモーダルナレッジの活用
- ユビキタス社会に向けた Bluetooth ヘッドセットの開発
- ユビキタス環境における音声対話システムMKIDSの開発
- Bluetoothのウェアラブルコンピューティングへの応用 (特集 新たなワイヤレスの世界を創るBluetoothの展開--ワイヤレスで簡単接続,パーソナルエリアネットワークの世界へ)
- 知識情報共有システム(Advice/Help on Demand)の開発と実践 : 知識ベースとノウハウベースの構築(次世代ヒューマンインタフェース・インタラクション)
- マルチモーダル秘書エージェントシステムの開発
- 知識ベースとノウハウベースの連携による知識情報共有システムの実現
- Advice/Help on Demand : 知識べースとノウハウベースの連携
- キーワードラティスのLR解析による自由発話理解
- コモンHIサービス環境の応用
- コモンHIサービス環境の開発
- コミュニケーション支援のための個人情報公開システムPIP
- 雑音免疫学習を用いたサブワードHMMに基づく雑音環境下の音声認識
- コミュニケーション支援のための個人情報公開システム(PIP) : 音声とキー入力を用いたマルチモーダル対話の検討
- 単語パターン照合と音韻HMMを併用したワードスポッティングに関する検討
- 音声自由対話システムにおける音声応答キャンセル機能の実現
- 音声自由対話システムTOSBURG IIにおけるデータ収集と評価
- 音声自由対話システムTOSBURG IIの評価
- 不特定話者音声自由対話システム TOSBURG2 : マルチモーダル応答と音声応答キャンセル利用
- マイクロホンアレイを用いた音声検出に関する検討
- 2chビームフォーマによる雑音抑圧処理に関する検討
- 2チャンネル適応型マイクロホンアレーを用いた音声認識
- ソフトウェア音声認識インタフェースの検討
- 実時間音声対話システムTOSBURGの開発(1)システム構成
- 入力モダリティの多様化とその統合・利用について(マルチモーダルIF (1),「マルチモーダルと音声HI」およびヒューマンインタフェース/音声言語情報処理一般)
- 入力モダリティの多様化とその統合・利用について
- マルチメディア通信・情報処理の研究開発
- ATMSベースのマルチモーダル入力統合方式を用いたインタフェースエージェントシステム
- 音声入出力、タッチジェスチャ入力、およびエージェントCG出力を持つマルチモーダル対話試作システム
- TX39用音声認識ミドルウエアの開発
- 自動プレゼンテーションシステム(3) : プレゼンテーションの実行
- 自動プレゼンテーションシステム(1) : プレゼンテーションシステムの概要
- 文書構造抽出技法の開発
- HIの高度化を目指したメディア変換機能統合利用環境の構築 : HIウエアの開発
- マルチモーダルインタフェースの技術動向
- ヒューマンインタフェースの立場から : ユーザ中心の情報環境の実現に向けて
- 7. 音声理解と対話における自然言語処理 ( 自然言語処理技術の応用)
- 最適音素系列に基づく競合学習とMAP推定を用いた話者適応
- 複数の座標系による特徴表現を用いたHMM音声認識
- 談話構造モデルによる電話相談対話の分析
- 談話構造モデルによる電話相談対話の分析
- 自由発話音声言語対話データベースの構築とその分析に基づく談話構造モデルの提案
- 雑音下の連続音声中からのキーワード検出
- 実時間音声対話システムTOSBURGの開発(3)対話処理
- 実時間音声対話システムTOSBURGの開発(2)音声理解
- 高耐雑音音声認識用アクセラレータの開発
- 音声認識技術とその実用化の動向 (音声信号処理とDSP)
- Bluetooth^ ヘッドフォン
- 競合MAP推定法を用いた雑音環境下での話者適応
- Bluetoothが拓くモバイル・ウェアラブルの世界(モバイル・ウェアラブルインテリジェンス)
- 「人間支援のためのバウンダリーレスなAI研究に向けて」へのコメントと回答 : 回答
- 人間支援のためのバウンダリーレスなAI研究に向けて
- 1. 総論 : 1-1 ヒューマンインタフェースの観点から見た気の利いた情報システム (気の利いた情報システム)
- ディジタルメディア時代のヒューマンインタフェース研究の魅力 (私の研究生活事始め)
- 実時間音声対話システムTOSBURGの開発(4)マルチモーダル応答
- ヒューマンインタフェースの進化 : 情報処理技術 : 過去十年そして今後の十年
- 音声自由対話システムTOSBURG IIにおけるデータ収集と評価環境
- 音声自由対話システムにおける対話データ収集
- ブロック対角共分散行列を用いた連続分布型HMMの出力確率計算
- 「人間支援のためのバウンダリーレスなAI研究に向けて」へのコメントと回答
- EDR電子化辞書を用いた音声入力による知的文書作成支援システム
- 音声認識を用いたEDR電子化辞書の評価環境
- ワ-ドスポッティングによる音声認識における雑音免疫学習