多段リスコアリングに基づく大規模音声中の任意検索語検出(音声,聴覚)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,数百時間以上の大規模な音声データ中の検索語検出に関する研究結果について述べる.一般に音声中の検索語検出技術は,検索対象の音声データを前処理して音声用のインデックスを生成するインデキシング部と,ユーザが指定した検索語の発話箇所を高速に検出する検索部に分かれている.大規模音声データを対象とした検索語検出では(1)高精度な検索,(2)高速な検索,(3)任意語彙の検索,(4)高速なインデキシング,といった要素を考慮する必要がある.本論文では,音素N-gram探索法,編集距離に基づく音素マッチング,及び,本論文で新たに提案する音響リスコアリング法を縦列接続することによる,高速かつ高精度な任意検索語の検出法を提案する.本論文で提案した手法は日本語話し言葉コーパス全講演604時間の中から,平均5.7回しか出現しない未知語を約1.4秒でF値67.8%の精度で検出可能である.また既知語の検索に関しても,大語彙連続音声認識によって作成された単語単位のインデックスに基づいて検索を行う手法と比較して3.5〜4.0ポイントの精度劣化にとどまり,かつ0.11xRTでのインデキシングが可能である.
- 2012-04-01
著者
-
大淵 康成
(株)日立製作所中央研究所
-
住吉 貴志
日立製作所・中央研究所
-
小窪 浩明
日立製作所・中央研究所
-
大淵 康成
日立製作所・中央研究所
-
佐川 浩彦
(株)日立製作所中央研究所
-
小窪 浩明
(株)日立製作所中央研究所
-
佐川 浩彦
日立製作所中央研究所
-
大淵 康成
新情報処理開発機構新機能日立1研究室(株)日立製作所中央研究所
-
住吉 貴志
(株)日立製作所 中央研究所
-
神田 直之
日立製作所中央研究所
-
神田 直之
(株)日立製作所中央研究所
-
住吉 貴志
株式会社日立製作所中央研究所
関連論文
- 音声認識実用化技術の展開(総合報告)
- 音声認識応用に関する学会試行標準
- VoiceXMLをベースにした頑強な音声対話管理アーキテクチャ(自然言語情報処理研究会と一部合同開催 : 自動車内音声対話関連)
- 車載情報サービス用音声対話コーパス(自然言語情報処理研究会と一部合同開催 : 自動車内音声対話関連)
- 人間共生型ロボットEMIEW2における音源方向推定機能
- 垂直配置マイクロホンアレーを利用した卓上突発音除去機能を備える遠隔会議システム (システム開発論文特集)
- 産業界が次に目指すAI世界 : スマートインタフェース,シンビオティックコンピューティング,ディベンダブル情報基盤,サービスサイエンス(ワークショップ:今後10年の人工知能,人工知能学会創設20周年記念企画)
- 音声認識における頑健性 : 音響分析・音響モデル,なにが課題か(企画)
- 垂直配置マイクロホンアレーを利用した卓上突発音除去機能を備える遠隔会議システム(音声システム,システム開発論文)
- 音声認識技術の実用化に向けた自動車内実環境での評価実験
- 三次元CGを用いた手話アニメ-ション編集ツ-ル
- 聴覚障害者向け胃部X線検査用情報提供システムの使用経験
- ボタンレス音声インタフェースのための音声コマンド検知技術 (特集 音声認識技術の実用化への取り組み)
- E-022 生活環境下でのボタンレス音声認識のための評価データベース構築(自然言語・音声・音楽,一般論文)
- 任意語彙音声発話検索のための多段階リスコアリング手法の性能評価
- 5 ボタンレス音声インタフェースのための音声コマンド検知技術(音声認識技術の実用化への取り組み)
- 構文意味解析に基づく手話・文章変換方法
- SuperHマイコンへの搭載を目的とした連続音声認識ソフトウェアJuliusの計算量削減
- B-6-40 IPネットワーク自律運用技術の研究 : ネットワーク自律運用フレームワークの提案(B-6.ネットワークシステム,一般講演)
- B-6-33 IPネットワーク自律運用技術の研究 : QoS保証自動設定システムの検討(B-6.ネットワークシステム,一般講演)
- B-6-84 モジュール型ノードにおけるモジュール設定方式の改善(B-6.ネットワークシステム, 通信2)
- B-6-83 モジュール型ノードにおけるモジュール間データ転送方式の改善(B-6.ネットワークシステム, 通信2)
- B-6-144 モジュール型ノードの高性能・高信頼性構成の自動設定方式の検討(B-6. ネットワークシステム, 通信2)
- [パネルディスカッション]音声認識技術がキャズムを越えるには?
- 手話アニメーション編集ツールの開発
- 作成作業の効率化と言語資源としての利用を考慮した手話アニメーション編集ツールの開発(一般セッション,福祉と見守りのための画像・音声処理)
- 作成作業の効率化と言語資源としての利用を考慮した手話アニメーション編集ツールの開発(一般セッション,福祉と見守りのための画像・音声処理)
- 作成作業の効率化と言語資源としての利用を考慮した手話アニメーション編集ツールの開発(一般セッション,福祉と見守りのための画像・音声処理)
- 実世界に存在する音声・音響を対象とした認識技術
- 音声認識実用化技術の展開
- 手話日本語間の自動翻訳とその周辺
- リアルタイム手話アニメーションの合成方法
- SA-6-1 手話アニメーション表示におけるジェスチャー補間方式(SA-6. メディア変換・統合技術とヒューマンコミュニケーション,シンポジウム)
- 圧縮連続DP照合を用いた手話認識方式
- 手話自動翻訳システムにおけるパターン認識・合成
- 手話認識における単語境界検出法の検討
- アニメーションによる手話合成方式の検討
- 手話合成システムの基本検討
- 手話通訳システムにおける大語彙化に関する検討
- ベイジアンネットワークによるマルチモーダル対話の状態予測 : ユーザとヘルプエージェントとの会話のモデル化を目指して(ヒューマンコミュニケーショングループ(HCG)シンポジウム)
- マイコン向け音声認識技術を用いた携帯型音声通訳機(音声情報処理 : 現状と将来技術論文特集)
- マイコン向け音声認識技術を用いた携帯型音声通訳機(音声処理技術のデモの紹介)
- D-14-27 音声による単語入力機能を持つ携帯型通訳機の開発
- クプストラムを用いた感情識別手法の検討
- 手話知識解析に基づく日本語文入力型手話生成システムの構築
- 手話知識解析に基づく日本語文入力型手話生成システムの構築
- 手話知識解析に基づく日本語文入力型手話生成システムの構築
- 音声認識のネットワークと組込み型応用
- 非零対角要素を持つホップフィールドニューラルネットを用いたLSIモジュール配置法
- 移動ベクトルの相関に関する事前知識を利用した話者適応
- 音声認識における音響照合の信頼性尺度に関する検討
- 携帯端末用単語音声認識装置の試作
- 携帯端末用単語音声認識装置の耐騒音性能向上に関する検討
- カオスニューラルネットワークの最適化能力の検証
- SA-1 あなたを助ける音声認識(科学技術の最前線を学ぶ,第108回日本外科会定期学術集会)
- デルタケプストラム正規化とチャネル選択の組合せによる耐雑音音声認識方式(音声, 聴覚)
- ICA2004,第18回国際音響学会議
- カーナビ応用を目指した頑強な耐雑音認識方式 : 音響モデルの出現確率に基づく音声/雑音判定
- 携帯電話向け音声通訳システムの開発と公開実験
- 「音声度」 測定に基づいたノイズリジェクションの開発
- 定型文認識を用いた携帯電話向け音声通訳システム
- 組込み機器向け音声認識・合成ミドルウェアとその応用
- SID-2-9 ITS向け音声認識ミドルウエア技術
- SID-2-9 ITS向け音声認識ミドルウエア技術
- 汎用マイコンにおける音声認識・合成ミドルウエアの紹介
- 環境適応機能付き音声認識ミドルウエア
- SHマイクロプロセッサ向け音声認識ミドルウエアの開発
- 事前知識を利用した話者適応方式の改良と教師なし適応への応用
- Fogel, D. B. : An Introduction to Simulated Evolutionary Optimization, IEEE Trans. on Neural Networks, Vol.5, pp.3-14 (1994).
- 車戴用音声認識における騒音対策とその評価(音声情報処理 : 現状と将来技術論文特集)
- 音声検索実用化の現状と課題
- 分布間距離尺度に基づく選択的雑音適応によるHMM合成の高速化
- フレームパワの大きさに基づいた適応SSによる単語音声認識の検討
- 双方向型OM-LSA雑音抑圧を用いた雑音下音声認識 (応用音響)
- 多段リスコアリングに基づく大規模音声中の任意検索語検出(音声,聴覚)
- マイクロフォンアレイに基づく雑音除去による人間共生ロボットEMIEW2の頑健な音声認識 (応用音響)
- マイクロフォンアレイに基づく雑音除去による人間共生ロボットEMIEW2の頑健な音声認識
- 双方向型OM-LSA雑音抑圧を用いた雑音下音声認識
- マイクロフォンアレイに基づく雑音除去による人間共生ロボットEMIEW2の頑健な音声認識
- 2-2 音源分離技術を利用した撮影範囲の音声抽出技術(2.携帯電話の聞く技術,携帯電話の聞く・聞かせる技術)
- 統計的雑音抑圧法の強調的適用による雑音環境下音声区間検出(音声特徴量)
- 音声対話での利用を目的としたDeep Neural Networkによるユーザ発話のトピック分類方法の検討
- 音声対話での利用を目的としたDeep Neural Networkによるユーザ発話のトピック分類方法の検討
- 双方向型OM-LSA雑音抑圧を用いた雑音下音声認識