音響尤度を用いた書き起こしデータ選択による音響モデル構築コストの削減(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
音声認識技術の向上により高速で高精度な認識が可能となり, 今や実用化の段階に入っている.不特定話者を対象としたシステムでの高精度な音声認識を行うためには, ターゲットのシステムで収集した音声とその書き起こしを用いた音響モデルの学習が欠かせない.しかし, 書き起こしには多くの時間と労力が必要であり, コストがかかる.これが不特定話者を対象としたシステムの普及を妨げる一つの要因である.モデル構築に有効な音声データを事前に選択することで, 書き起こしのコストを下げることができる.本報告では, 学習に使用するデータセットを事前に選択し, 選択されたもののみ書き起こしを作成することにより, モデル構築コストを削減する手法を提案する.実環境音声情報案内システム「たけまるくん」によって自動収集された音声から, 学習に使用するデータセットを音響尤度に基づいて自動選択することで, 書き起こし量を50%〜90%削減し, 学習した音響モデルの精度を評価した.収集データの量が少ない場合は, 学習データを選択することで, 全データを使う場合と同等以上の性能が得られることが分かった.収集データの量が多い場合は, 全データを使用する場合に比べて性能は低下するが, 1%未満の認識精度の低下で書き起こし量を30%まで削減することができた.
- 一般社団法人情報処理学会の論文
- 2005-12-21
著者
-
鹿野 清宏
奈良先端科学技術大学院大学情報科学研究科情報処理学専攻
-
猿渡 洋
奈良先端科学技術大学院大学情報科学研究科情報処理学専攻
-
戸田 智基
奈良先端科学技術大学院大学情報科学研究科情報処理学専攻
-
猿渡 洋
奈良先端科学技術大学院大学
-
戸田 智基
奈良先端科学技術大学院大学
-
加藤 智之
奈良先端科学技術大学院大学 情報科学研究科(現在)旭化成
-
鹿野 清宏
奈良先端科学技術大学院大学
関連論文
- 独立成分分析を導入した空間的サブトラクションアレーによるハンズフリー音声認識システムの開発(音声,聴覚)
- MMSE STSA estimator with ICA-based nonstationary noise estimation for high-quality speech enhancement (音声)
- ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術の総合開発(総合報告)
- 混合正規分布モデルに基づく声質変換の高速化を目的とした共分散行列の対角化(合成)
- スペクトル系列の最尤推定に基づく短遅延声質変換法
- Mathematical metric of amount of musical noise in recursive spectral subtraction (応用音響)
- 並列ICAによる雑音推定に基づくリアルタイムブラインド音源抽出マイクロホンの開発(音声,聴覚)
- 空間的スペクトルサブトラクションを用いたハンズフリー音声認識
- 括弧表現に基づくWebテキストマイニングを用いた流行語への自動読み付与の提案
- ICAによる雑音推定を用いた平均二乗誤差最小化短時間振幅スペクトル推定法に基づく両耳補聴器 (応用音響)
- NAMセグメントを用いた個人認証法における未知話者データに対する頑健性の評価(聴覚・音声/一般)
- 音声分析・変換・合成方法STRAIGHTの音声符号化への適用について
- 実環境向け音声対話ロボット「キタちゃん」の開発
- 外部音源を用いた発声補助システムにおける統計的声質変換の評価(福祉と音声処理,一般)
- HMMに基づく音声合成における強調音声の生成(合成)
- 音響特性補正の導入による肉伝導音声変換の収録環境適応(認識)
- 肉伝導音声変換のための音響特性補正法
- 話者適応に基づく複数話者の非可聴つぶやき認識における話者正規化学習の有効性(音声認識技術)
- 4L-4 微弱振動子とNAMマイクを用いた発話障害者補助(リーディングプロジェクト e-society:自然な音声対話処理技術(2),一般セッション,リーディングプロジェクト e-society)
- 喉頭摘出者データを用いた人工音声変換システムの評価
- 喉頭摘出者の会話支援システムにおける微弱な音源信号に関する検討(聴覚・音声/一般)
- 肉伝導人工音声の変換に基づく喉頭全摘出者のための音声コミュニケーション支援システム(肢体不自由・コミュニケーション補助,情報福祉論文)
- 喉頭摘出者を想定して微弱な音源信号を用いて収録された肉伝導音声の声質変換(視覚障害/聴覚障害,一般)
- 11.人にやさしい音声インタフェース(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- チャネル毎スペクトル減算と適応アレー信号処理の統合手法におけるミュージカルノイズ制御
- 音声対話システムにおけるWeb検索タスクの発話分析とWeb検索のための大規模単語コーパスの検討(言語モデル)
- 3Q-3 NAMマイクによる心音の収録とその明瞭化(音声の分析・合成,学生セッション,人工知能と認知科学)
- Mathematical metric of musical noise in arbitrary exponent domain SS (音声)
- Mathematical metric of musical noise in arbitrary exponent domain SS (信号処理)
- Mathematical metric of musical noise in arbitrary exponent domain SS (応用音響)
- 独立成分分析を導入した空間的サブトラクションアレーによるハンズフリー音声認識システムの開発
- MMSE STSA estimator with ICA-based nonstationary noise estimation for high-quality speech enhancement (信号処理)
- MMSE STSA estimator with ICA-based nonstationary noise estimation for high-quality speech enhancement (応用音響)
- 平均二乗誤差最小化短時間振幅スペクトル推定に基づくブラインド信号抽出
- 多点制御波面合成法とWave Field Synthesisによる合成波面の比較検討
- スペクトル減算法におけるミュージカルノイズ発生量と対数カートシス比の関連(音響信号処理/一般)
- 実環境における頑健な音声認識のための音韻モデルの教師なし話者適応(音声,聴覚)
- モデル統合に基づく高速EM学習法(音響モデル)(第5回音声言語シンポジウム)
- モデル統合に基づく高速EM学習法
- 十分統計量を用いた教師なし話者適応および環境適応(音声言語情報処理とその応用)
- MLLRを用いた音響モデルの教師なし環境雑音適応アルゴリズム
- 十分統計量に基づく教師なし環境話者適応におけるスペクトルサブトラクションの効果
- 十分統計量を用いた教師なし話者・環境適応の評価
- 高齢者音響モデルによる大語彙連続音声認識
- 十分統計量と話者距離を用いた音韻モデルの教師なし学習法
- スペクトルサブトラクションを用いた十分統計量に基づく環境・話者適応
- 十分統計量を用いた音韻モデルの教師なし学習における話者選択法の検討
- 高齢者音声の認識
- 充足統計量と話者距離を用いた教師なし話者適応学習法
- 環境雑音適応アルゴリズムの大語彙連続音声認識による評価
- 高齢者向け音響モデルによる大語彙連続音声認識の評価
- 充足統計量と話者距離を用いた音韻モデルの教師なし学習
- 実対話音声を用いた有限状態トフンスデューサ型認識デコーダの評価
- 相補的バックオフを用いた言語モデル融合ツールの構築
- Webからの音声認識用言語モデル自動生成ツールの開発
- MOSAICブラウザーを用いた音声対話システム
- 多対多最小パターンアライメントアルゴリズムの提案と自動読み付与による評価
- 統計的声質変換に基づく食道音声強調における声質制御
- 音声翻訳システムのための声質変換法と日中英語間における評価
- EA2010-30 反復型スペクトル減算法におけるミュージカルノイズ発生量の数理解析
- SuperHマイコンへの搭載を目的とした連続音声認識ソフトウェアJuliusの計算量削減
- チャネル毎スペクトル減算と適応アレー信号処理の統合手法におけるミュージカルノイズ制御
- チャネル毎スペクトル減算と適応アレー信号処理の統合手法におけるミュージカルノイズ制御
- チャネル毎スペクトル減算と適応アレー信号処理の統合手法におけるミュージカルノイズ制御
- EA2010-29 オーディオオブジェクト定位情報に基づく楽曲サムネイル自動生成手法
- スペクトルサブトラクションを用いた十分統計量に基づく環境・話者適応
- 参照話者を用いた多対多固有声変換法
- STRAIGHT混合励振源を用いた混合正規分布モデルに基づく最ゆう声質変換法(音声,聴覚)
- Google N-gram を用いた音声認識のタスク汎用性評価の試み
- 3L-1 音声情報案内システム「たけまるくん」の運用(リーディングプロジェクト e-society:自然な音声対話処理技術(1),一般セッション,リーディングプロジェクト e-society)
- 音響モデルと言語モデルに基づく音声区間検出を用いたハンズフリー音声認識アルゴリズムの評価(雑音・VAD,第9回音声言語シンポジウム)
- ストリーム重みの制御による異種パラメータの統合法の検討
- EMアルゴリズムを用いたAudio-Visual HMMによる音声からの画像パラメータ推定
- EMアルゴリズムを用いたAudio-Visual HMMによる音声からの画像パラメータ推定
- HMMを用いた音声からの唇動画像合成法(次世代ヒューマンインタフェース・インタラクション)
- HMMを用いた唇動画像合成における学習・合成法の比較評価
- EMアルゴリズムを用いたHMMによる音声からの唇動画像合成法
- HMMを用いた音声からの唇画像合成法
- 音声から唇画像合成におけるコードブックマッピング法とHMM法の比較
- HMMを用いた音声と唇画像の統合による音声認識と唇画像生成
- 解析型二次統計量ICAとkurtosisに基づく学習区間判定を用いたリアルタイムブラインド音源抽出(ブラインド信号処理の技術とその応用論文)
- 未知語認識のための仮名・漢字単位の構築手法と性能評価
- Google N-gramを用いた音声認識のタスク汎用性評価の試み
- HMM音声合成における系列内変動モデリング手法の評価
- 異なる収録機器に対応した肉伝導音声変換のための音響特性自動補正
- 1対多固有声変換に基づく無喉頭音声の音質及び話者性の改善
- Google N-gramを用いた音声認識のタスク汎用性評価の試み(一般(ポスターセッション),第11回音声言語シンポジウム)
- コサイン距離規範K-meansを用いた音楽信号圧縮符号化における基底ベクトル切換時刻の最適化(音響信号処理/一般)
- 任意乗スペクトル減算法におけるミュージカルノイズ発生量の数理解析(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 任意乗スペクトル減算法におけるミュージカルノイズ発生量の数理解析(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 任意乗スペクトル減算法におけるミュージカルノイズ発生量の数理解析(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- ICAに基づく非定常雑音推定を用いた高品質音声強調向けMMSE STSA推定器(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- ICAに基づく非定常雑音推定を用いた高品質音声強調向けMMSE STSA推定器(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- ICAに基づく非定常雑音推定を用いた高品質音声強調向けMMSE STSA推定器(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 異なる収録機器に対応した肉伝導音声変換のための音響特性自動補正
- ICAによる雑音推定を用いた平均二乗誤差最小化短時間振幅スペクトル推定法に基づく両耳補聴器
- 単語の頻度と音響の特徴を利用したSVMによる無効入力の棄却
- RWC計画における音声対話データベースの構築
- オーディオオブジェクト個別操作法とそのイヤホン漏洩雑音低減への応用(立体音響,一般)
- ブラインド音源分離に基づくオーディオオブジェクトの定位感操作とその評価(音源分離/一般)