オープンソース音声認識エンジンJuliusへのベイズリスク最小化機能の実装と評価(音声,聴覚,<特集>システム開発論文)
スポンサーリンク
概要
- 論文の詳細を見る
重要な語に着目し,その誤りの最小化を行う汎用音声認識エンジンを実現したので,その実装と評価について述べる.我々はこれまでに,各語の重要度を考慮した誤り率「重みつき単語誤り率(Weighted Word Error Rate: WWER)」を,ベイズリスク最小化(Minimum Bayes-Risk: MBR)に基づいて行う音声認識の方式(MBR音声認識)の効果を確認している.しかし,これを実現する音声認識エンジンで一般に利用可能なものは存在しなかった.このような背景に基づき,我々は誰もが利用可能なMBR音声認識エンジンの実現を行った.具体的には,現在最も広く利用されているオープンソースの音声認識エンジンの一つであるJuliusにMBR機能を実装して実現を行った.その際,従来のJuliusと入出力の互換性が保たれるようにMBR機能の追加を行った.単語の重要度を指定するだけで,WERを含むさまざまな誤り尺度(WWER)が少ない認識結果を従来のJuliusとほぼ同程度の時間で探索できるデコーダ(MBR-Julius)を実現できた.更に,実際の音声検索タスクへの適用を行い,適用の容易性及びその効果(検索精度の向上への貢献)も示した.
- 2013-10-01
著者
関連論文
- 音声理解を指向したベイズリスク最小化枠組みに基づく音声認識(音声,聴覚)
- 単語の重要度を考慮したベイズリスク最小化音声認識とそれに基づく情報検索(Session-2 情報検索, 第7回音声言語シンポジウム)
- 日本手話の表現速度の違いによる手動作変化の分析(福祉と音声処理,一般)
- Webページ間の関係に着目した大規模サイトの構造化の調査 : 音声ブラウザ利用におけるアクセシビリティの検討
- 3DCGによる手話文アニメーション合成システムの構築と評価(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 音声理解を指向した音声認識のための単語重要度の自動推定(学生セッション II)
- 単語の重要度を考慮したベイズリスク最小化音声認識とそれに基づく情報検索(Session-2 情報検索, 第7回音声言語シンポジウム)
- 単語の重要度を考慮したベイズリスク最小化音声認識とそれに基づく情報検索(Session-2 情報検索, 第7回音声言語シンポジウム)
- 非負値行列因子分解に基づく多人数会話における話者分類
- 外国語学習・教育支援を目的とした学習者発話動画の自動字幕付与システムの検討(音声・言語・音響教育,一般)
- 統計的前編集のための対訳コーパスからの学習データの自動生成
- 日本語講演音声ドキュメント検索における索引付けの検討
- NMFに基づくクラスタリングを適用したAnchor Modelによる話者認識
- 異なる認識単位の認識器から得られた信頼度を素性に用いた音声認識
- 日本語講演音声ドキュメント検索における索引付けの検討
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 位置と動きに基づくマルチストリームHMMを用いた手話認識
- 手の位置と動きに着目したHMMによる手話単語の認識(一般,膨大なデータから学ぶもの)
- 手の位置と動きに着目したHMMによる手話単語の認識(一般,膨大なデータから学ぶもの)
- KL情報量によるAnchor modelの階層的クラスタリングに基づく話者認識
- 広域文書類似度と局所文書類似度を用いた講演音声ドキュメント検索
- 広域文書類似度と局所文書類似度を用いた講演音声ドキュメント検索
- 5U-4 会議の情報保障における吹き出し型字幕の有用性の調査(音声インタフェース・システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 書き起こしへの付与を目指した音声とテキストを対象とした発話印象の分析
- 音声認識の信頼度に着目した文境界検出に関する検討(一般(ポスターセッション),第11回音声言語シンポジウム)
- 音声認識の信頼度に着目した文境界検出に関する検討
- 視覚障害者のための意味情報を用いた仮名漢字変換における説明語選択手法の検討(福祉と音声処理,一般)
- 曲中のブレスによる合図を利用した伴奏システム
- 日本手話対話の話者交替時の重複現象の分析
- 日本手話対話の話者交替時の重複現象の分析(一般セッション,コミュニケーション支援,共生コミュニケーション及び一般)
- 日本手話対話の話者交替時の重複現象の分析(一般セッション,コミュニケーション支援,共生コミュニケーション及び一般)
- 日本手話対話の話者交替時の重複現象の分析(一般セッション,コミュニケーション支援,共生コミュニケーション及び一般)
- ブレスによる合図を検出する伴奏システム
- 統計的前編集のための対訳コーパスからの学習データの自動生成 (音声)
- 統計的前編集のための対訳コーパスからの学習データの自動生成 (言語理解とコミュニケーション)
- 音声理解のための音声認識評価尺度とベイズリスク最小化デコーディング(大語彙音声認識)(第6回音声言語シンポジウム)
- E-002 高フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減の検討(E分野:自然言語・音声・音楽,一般論文)
- 4W-5 複数の機械翻訳器による学習データの自動生成とそれに基づく統計的前編集(機械翻訳,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5U-3 音響防犯システムのためのSVMを用いた叫び声の検出と音声認識(音声インタフェース・システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3U-3 多言語音声の同時認識のための統計的翻訳モデル(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 音声認識の信頼度に着目した文境界検出に関する検討 (音声)
- 日本手話におけるうなずきと接続詞の分析(福祉と音声処理,一般)
- 日本手話におけるうなずきと接続詞の分析(福祉と音声処理,一般)
- 日本手話の表現速度の違いによる手動作変化の分析(福祉と音声処理,一般)
- 音声認識と話者認識を統合した話者の人名付与システム(音声言語情報処理とその応用)
- 機械翻訳のための統計的手法に基づく前編集
- 機械翻訳のための統計的手法に基づく前編集
- 部分空間と混合分布モデルを用いた声質変換
- 自動抽出されたアナウンサー発話に対するニュースディクテーションと記事分類
- 会議の情報保障を目的とした吹き出し型字幕提示方式の検討(システム)
- 音声理解を指向した音声認識のための単語重要度の自動推定(学生セッション II)
- 国際会議・ニュースのアーカイブのための統計的機械翻訳を利用した音声認識の検討
- D-14-8 ベイズリスク最小化音声認識に基づく大学情報検索システムの構築(D-14.音声,一般セッション)
- D-14-5 日本語母語話者を対象としたモデル選択と話者適応に基づく英語音声認識(D-14.音声,一般セッション)
- 音声入力型大学情報検索システムに対するベイズリスク最小化音声認識の適用
- 音声入力型大学情報検索システムに対するベイズリスク最小化音声認識の適用
- 実環境下での話者認識におけるPMC法の効果について
- ガウス分布から導出される部分空間法による話者照合法の検討
- 音韻性を抑えた話者空間への射影による話者認識
- 音韻分散を考慮した空間変換による音声認識法の検討
- 部分空間分離に基づく音声認識法の検討
- 音韻空間への射影に基づく話者正規化
- 話者固有空間における動的・静的特徴統合による話者照合
- 音韻空間への射影に基づく話者正規化による音素認識
- 音韻空間への射影に基づく話者正規化による音素認識
- 音韻空間への射影に基づく話者正規化による音素認識
- 話者補空間における話者認識
- SP2000-12 話者補空間射影による話者認識
- 部分空間法を用いた話者照合における動的・静的特徴統合 -部分空間次元数の事前設定の検討-
- 部分空間法を用いた動的・静的特徴統合による話者照合
- アナウンサー発話の自動抽出とディクテーションによるニュース記事分類 (音声言語情報処理)
- ドラマにおける話者インデキシングの検討
- 部分空間法による話者照合
- 視覚障害者のための意味情報を用いた仮名漢字変換における説明語選択手法の検討(福祉と音声処理,一般)
- 自動学習による話者セグメンテーション
- ニュース音声中のアナウンサー発話区間の自動切り出し
- 座談会における話者区間の切り出し
- クラウド時代の新しい音声研究パラダイム
- 視覚障害支援のための意味情報に基づく仮名漢字変換(福祉工学)
- D-14-4 音声対話型CALLシステムの認識性能評価(D-14.音声,一般セッション)
- 発話内分散に基づき動的に生成された話者空間による話者クラスタリング(ポスターセッション,第13回音声言語シンポジウム)
- D-14-5 音声対話型CALLシステムでの信頼度評価の検討(D-14.音声,一般セッション)
- 発話内分散に基づき動的に生成された話者空間による話者クラスタリング(ポスターセッション,第13回音声言語シンポジウム)
- 発話内分散に基づき動的に生成された話者空間による話者クラスタリング
- 発話内分散に基づき動的に生成された話者空間による話者クラスタリング
- RE-001 GMMの分布選択に基づくアンカーモデルのクラスタリングによる話者認識(音声言語処理,E分野:自然言語・音声・音楽)
- 話者認識におけるロバストネス(話者認識に関する研究の動向)
- 音素決定木に基づく対話型CALLシステムに対する有効な音素セットの構築に関する検討
- 音声入力による音声ドキュメント検索における単語重要度を考慮したベイズリスク最小化音声認識
- RE-002 文単位で分割されたテキストで学習した言語モデルによる単語信頼度を用いた文境界検出(音声言語処理,E分野:自然言語・音声・音楽)
- オープンソース音声認識エンジンJuliusへのベイズリスク最小化機能の実装と評価(音声,聴覚,システム開発論文)
- 話者認識技術の現状と課題(オーガナイズドセッション(パネルディスカッション),音声アプリケーション,一般)
- 日本人学習者の中国語二声と三声の知覚トレーニングに関する研究(一般セッション,音声・言語・対話,一般)
- 音声の周期・非周期成分分解に基づく話者認識の検討(一般セッション,音声・言語・対話,一般)
- D-14-7 学習者コーパスを利用した音声対話型CALLシステムの開発(D-14.音声)
- 相互情報量を用いた辞書自動生成に基づく中国語ピンインから文字への変換の改善に関する検討(一般セッション,音声・言語・対話,一般)
- A-19-1 視覚障がい者のための重要文書抽出に基づくWeb検索支援(A-19.福祉情報工学)
- 学習者コーパスを利用した音声対話型CALLシステムにおける想定外発話検出手法(一般セッション,音声・言語・対話,一般)