音響尤度を用いた書き起こしデータ選択による音響モデル構築コストの削減(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)

概要

論文の詳細を見る
音声認識技術の向上により高速で高精度な認識が可能となり, 今や実用化の段階に入っている.不特定話者を対象としたシステムでの高精度な音声認識を行うためには, ターゲットのシステムで収集した音声とその書き起こしを用いた音響モデルの学習が欠かせない.しかし, 書き起こしには多くの時間と労力が必要であり, コストがかかる.これが不特定話者を対象としたシステムの普及を妨げる一つの要因である.モデル構築に有効な音声データを事前に選択することで, 書き起こしのコストを下げることができる.本報告では, 学習に使用するデータセットを事前に選択し, 選択されたもののみ書き起こしを作成することにより, モデル構築コストを削減する手法を提案する.実環境音声情報案内システム「たけまるくん」によって自動収集された音声から, 学習に使用するデータセットを音響尤度に基づいて自動選択することで, 書き起こし量を50%〜90%削減し, 学習した音響モデルの精度を評価した.収集データの量が少ない場合は, 学習データを選択することで, 全データを使う場合と同等以上の性能が得られることが分かった.収集データの量が多い場合は, 全データを使用する場合に比べて性能は低下するが, 1%未満の認識精度の低下で書き起こし量を30%まで削減することができた.
一般社団法人情報処理学会の論文
2005-12-21

音響尤度を用いた書き起こしデータ選択による音響モデル構築コストの削減(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク