GIF-SP : 汎用・識別的な特徴量を用いた音声認識性能の改善(耐雑音処理,第13回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,パターン認識一般に広く適用できる識別的な特徴量GIFを提案する.本稿で提案する特徴量抽出手法では,入力ベクトルから中間ベクトルを経由する二段階の変換で,認識用の特徴量に変換する.第一段階の変換は,クラスごとの識別器を構築し,これに基づいて作成する.第二段階の変換は,クラス間の分散を最大化しつつ,直交化と次元圧縮を行う.これらの変換は,学習データを用いて遺伝的アルゴリズムによって決定する.本稿の特徴量GIFについて,音声認識性能評価基盤コーパスを用いて音声認識実験を行った.その結果、雑音環境下を中心に大幅な性能改善に成功し,本手法の有効性が確認された.
- 2011-12-12
著者
-
田村 哲嗣
岐阜大学工学部
-
速水 悟
岐阜大学工学部
-
田村 哲嗣
岐阜大学大学院工学研究科応用情報学専攻
-
速水 悟
岐阜大学大学院工学研究科応用情報学専攻
-
田上 陽嗣
岐阜大学工学部応用情報学科
-
田村 哲嗣
岐阜大
関連論文
- マルチモーダル情報処理の研究動向(マルチモーダル)
- 加速度情報を用いた日常行動認識について(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 救急災害領域における情報支援システム(わが国における救急・災害医療の将来)
- ブースティングによるマルチモーダル音声区間検出の結果統合 (音声)
- M-013 3軸加速度センサを用いた隠れマルコフモデルによる人間の行動識別(ユビキタス・モバイルコンピューティング,一般論文)
- 加速度情報を用いた日常行動認識について(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- 加速度情報を用いた日常行動認識について(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- 画像特徴量の正規化によるマルチモーダル音声認識の改善(マルチモーダル)
- マルチモーダル音声認識における音声と画像の同期に関する調査(マルチモーダル)
- E-007 Wikipediaのカテゴリを利用したWeb検索結果のフィルタリングの検討(自然言語・音声・音楽,一般論文)
- 2ZD-5 統計的音声区間検出法を用いた加速度センサによる人間の動作検出(動作認識・大画面,学生セッション,インターフェース)
- 音声と画像のconfusion networkを用いたマルチモーダル音声認識
- SOSとマイクロフォンアレイの統合による会議記録システムの開発
- デジタルペン文字認識システムを用いた在宅看護支援における誤認識自動訂正機能(一般,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- ブースティングによるマルチモーダル音声区間検出の結果統合(音声・言語・音響教育,一般)
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 複数モデルの統合によるLDAトピックモデルの高精度化とテキスト入力支援への応用
- ARHMMに基づいた音声分析手法と歌声認識による評価(聴覚・音声及び一般)
- RWC計画における音声対話データベースの構築
- マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
- マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
- マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
- マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
- マルチモーダル医療支援システムの開発
- E-021 映像コンテンツ理解支援のためのキーワード表示方式の検討(自然言語・音声・音楽,一般論文)
- E-020 見出しにおける文の成分に関する調査(自然言語・音声・音楽,一般論文)
- D-024 レシピの自動生成に向けた調味料推定の評価(データベース,一般論文)
- E-047 会議録自動作成システムに向けた話者識別技術の検討(自然言語・音声・音楽,一般論文)
- クラスタリングによるHMM間の距離尺度の検討
- A Speech Database and Acoustic-Phonetic Knowledge Base for Speech Recognition (自然言語対話システムに関する研究)
- 日本音響学会研究用連続音声データベース (<小特集>出揃った音声データベース)
- 電総研の研究用音声データベース (<小特集>出揃った音声データベース)
- 連続DPによる連続単語認識実験とその考察
- 音声・画像のモダリティ間の相互作用に着目した音声認識のモデル適応 (音声)
- キーワード抽出による映像コンテンツの理解支援の検討
- 音声・画像のモダリティ間の相互作用に着目した音声認識のモデル適応(音声・言語・音響教育,一般)
- A-1 4kW級マイクロガスタービンの応用研究 : 小型車両開発(マイクロガスタービン利用技術,一般講演)
- 肺音の情報処理と応用 (特集 生体・医用における先端画像処理技術)
- 雑音環境下にける静的・動的情報を用いた音響モデル適応 (音声)
- GIF-SP : 汎用・識別的な特徴量を用いた音声認識性能の改善(耐雑音処理,第13回音声言語シンポジウム)
- GIF-SP : 汎用・識別的な特徴量を用いた音声認識性能の改善(耐雑音処理,第13回音声言語シンポジウム)
- スパース表現を用いた実環境における喀痰検出(ポスター講演,ポスターショートオーラル,時系列パターン認識)
- スパース表現を用いた実環境における喀痰検出(ポスター講演,ポスターショートオーラル,時系列パターン認識)
- 肺音の情報処理と応用
- GIF-SP : 汎用・識別的な特徴量を用いた音声認識性能の改善
- スパース表現を用いた実環境における喀痰検出
- K-062 日本食レストラン産業におけるマルチセンサとPOSデータに基づくサービスオペレーション推定(人間支援のためのセンシングとマルチメディア,K分野:教育工学・福祉工学・マルチメディア応用)
- E-026 Noise Robust Voice Conversion using GA-based Informative Feature
- E-027 汎用・識別的特徴量を用いた音声区間検出(音声情報処理,E分野:自然言語・音声・音楽)
- 接客時間推定に向けた従業員の位置・音声データによる発話クラスタリング
- スパース表現を用いた実環境における喀痰検出
- 雑音環境下における静的・動的情報を用いた音響モデル適応(雑音下音声認識,認識,理解,対話,一般)
- RO-008 検索新聞 : 新聞形式型検索情報提示システムにおけるマイクロブログを用いたユーザ適応(情報検索,O分野:情報システム)
- 高精度なマルチモーダル音声認識の実現に向けた取り組み(オーガナイズドセッション)