Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別(高精度音声認識,認識,理解,対話,一般)

概要

論文の詳細を見る
2層よりも多くの隠れ層を持つ多層パーセプトロンは局所最適解やプラトーの問題から,有効な解を得ることが困難であったため,従来あまり利用されてこなかった.しかし近年,教師なしニューラルネットワークの技術を援用した最適化技術等に代表される,多層パーセプトロン学習法(ディープラーニング技術)の進展によって,有効な解を得ることが可能であることが実験的に示され,再注目されてきている.隠れ層を多数用意することの利点は,単一の隠れ層より複雑な非線形変換をより少ないユニット数で学習できる点にあると言われている.すなわち,ディープラーニングの技術は音声特徴量を線形識別可能な表現に変換するモデルをより高精度に学習する手法であると考えることができる.他方では,近年,音声認識のプロセスを線形識別とみなすことで,高精度な音声認識を行なう構造識別と呼ばれる手法も注目を集めている.これら構造識別法は,出力の直接最適化という面で有望であるが,非線形の特徴変換を前処理として適用しておくことが重要である.これらを踏まえ,本稿では前処理としての特徴量変換に,多くの隠れ層を持つ多層パーセプトロンを利用し,そのようにして得た線形識別可能な音響特徴量を構造識別モデルで識別することを考える.
一般社団法人電子情報通信学会の論文
2012-07-12

Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別(高精度音声認識,認識,理解,対話,一般)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク