Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別(高精度音声認識,認識,理解,対話,一般)
スポンサーリンク
概要
- 論文の詳細を見る
2層よりも多くの隠れ層を持つ多層パーセプトロンは局所最適解やプラトーの問題から,有効な解を得ることが困難であったため,従来あまり利用されてこなかった.しかし近年,教師なしニューラルネットワークの技術を援用した最適化技術等に代表される,多層パーセプトロン学習法(ディープラーニング技術)の進展によって,有効な解を得ることが可能であることが実験的に示され,再注目されてきている.隠れ層を多数用意することの利点は,単一の隠れ層より複雑な非線形変換をより少ないユニット数で学習できる点にあると言われている.すなわち,ディープラーニングの技術は音声特徴量を線形識別可能な表現に変換するモデルをより高精度に学習する手法であると考えることができる.他方では,近年,音声認識のプロセスを線形識別とみなすことで,高精度な音声認識を行なう構造識別と呼ばれる手法も注目を集めている.これら構造識別法は,出力の直接最適化という面で有望であるが,非線形の特徴変換を前処理として適用しておくことが重要である.これらを踏まえ,本稿では前処理としての特徴量変換に,多くの隠れ層を持つ多層パーセプトロンを利用し,そのようにして得た線形識別可能な音響特徴量を構造識別モデルで識別することを考える.
- 一般社団法人電子情報通信学会の論文
- 2012-07-12
著者
-
中村 篤
Nttコミュニケーション基礎科学研究所
-
中村 篤
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
中村 篤
日本電信電話株式会社コミュニケーション科学基礎研究所
-
久保 陽太郎
早稲田大学
-
堀 貴明
日本電信電話(株)
-
堀 貴明
日本電信電話株式会社コミュニケーション科学基礎研究所
-
久保 陽太郎
日本電信電話株式会社コミュニケーション科学基礎研究所
関連論文
- オンライン変分ベイズ学習に基づくモデル比較を用いた音声区間検出(認識)
- 「共感覚者の驚くべき日常」, リチャードE. シトーウィック著, 山下篤子訳, 草思社, 2002年(私のすすめるこの一冊)
- 8-2 日本企業から米国・欧州大学への派遣体験 : 米国マサチューセッツ工科大学編/スイス連邦チューリッヒ工科大学編(8.企業からの客員研究員の海外派遣,私の国際交流の経験)
- アンサンブル型最小分類誤り学習法の実装と実験的評価(一般セッション,CV・パターン認識のための学習・最適化)
- アンサンブル型最小分類誤り学習の提案(テーマ関連セッション2,コンピュータビジョンとパターン認識のための学習理論)
- アンサンブル型最小分類誤り学習の提案(テーマ関連セッション2)
- D-14-11 韻律条件付言語モデルを用いた音声認識のリスコアリング(D-14. 音声,一般セッション)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- カルマンフィルタによる音声認識のための特徴量トラジェクトリ生成法
- ベイズ的基準を用いた状態共有型HMM構造の選択
- 変分ベイズ法の音響モデル適応への応用
- 有限状態トランスデューサによる音声認識・文整形・要約処理の統合
- ベイズ的アプローチに基づく状態共有型HMM構造の学習
- 静的特徴量時系列と動的特徴量時系列の関係を用いたトラジェクトリパラメータ生成による音声認識手法
- 実対話音声を用いた有限状態トフンスデューサ型認識デコーダの評価
- 有限状態変換器で定義される任意の音声認識タスクのための時間同期ビタービデコーダ
- 最大幾何マージン最小分類誤り学習法を目指して
- 判別関数の一般形に対する幾何マージンの導出とその制御を伴う最小分類誤り学習(テーマセッション,CV・パターン認識のための学習・最適化)
- 最小分類誤り学習における幾何マージンの制御法について(音響モデル,認識,理解,対話,一般)
- A-15-24 PC操作情報とソーシャルタグに基づいた楽曲推薦手法(A-15.ヒューマン情報処理,一般セッション)
- AMとFMの長時間分析に基づく音声認識
- 狭帯域解析信号と非線形識別分析を用いた音声認識(認識,理解,対話,一般)
- B-8-59 停電時上り音声通信を実現する光アクセス方式の提案(B-8.通信方式,一般セッション)
- 最小相対エントロピー識別学習に基づくカーネルマシンを利用した音声認識
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価 (音声)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価 (言語理解とコミュニケーション)
- 複数音響環境の発話単位遷移モデルに基づく適応学習法の検討(認識,理解,対話,一般)
- 識別的誤り訂正学習における対立単語列と素性の選定(特徴量・音響モデル,第9回音声言語シンポジウム)
- 巨視的な時間発展系に基づく逐次モデル適応 : モデルの逐次更新における学習データの発話数に関する考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 識別的誤り訂正学習における対立単語列と素性の選定(特徴量・音響モデル,第9回音声言語シンポジウム)
- 巨視的な時間発展系に基づく逐次モデル適応 : モデルの逐次更新における学習データの発話数に関する考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 識別的誤り訂正学習における対立単語列と素性の選定(特徴量・音響モデル,第9回音声言語シンポジウム)
- 巨視的な時間発展系に基づく逐次モデル適応 : モデルの逐次更新における学習データの発話数に関する考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 最小相対エントロピー識別学習へのラティスによる仮説表現と並列化可能な最適化手法の導入
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価(デコーダ,第11回音声言語シンポジウム)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価(デコーダ,第11回音声言語シンポジウム)
- 最小相対エントロピー識別学習に基づくカーネルマシンを利用した音声認識
- CTI向け自由発話対応音声対話システムRexDialog
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- 5T-4 調波GMMとWienerフィルタに基づく音楽音響信号の残響抑圧(音楽信号処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- B-8-11 停電時上り音声通信光アクセス方式の実現技術の検討(B-8.通信方式,一般セッション)
- J-006 時空を越えたコミュニケーションを実現する音声インタフェースの提案(ヒューマンコミュニケーション&インタラクション,一般論文)
- 最小識別誤り学習と重み付き有限状態トランスデューサによる大語彙音声認識
- 確率主成分分析を用いた音声認識の日本語話し言葉コーパスにおける評価
- 高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサの効率的生成法
- 高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサの効率的生成法(大語彙音声認識)(第6回音声言語シンポジウム)
- 混成主成分分析を用いた音声認識(ポスターセッション)
- 混合主成分分析を用いた音声認識
- 高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサの効率的生成法(大語彙音声認識)(第6回音声言語シンポジウム)
- 高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサの効率的生成法(大語彙音声認識)(第6回音声言語シンポジウム)
- 混合主成分分析を用いた音声認識(ポスターセッション)
- 混合主成分分析を用いた音声認識(ポスターセッション)
- ベイズ的基準を用いた状態共有型HMM構造の選択
- ベイズ的基準を用いた状態共有型HMM構造の選択
- 次世代の音声認識技術 (特集 コミュニケーションの壁を克服するための音声・音響処理技術)
- ベイズ的アプローチに基づく状態共有型HMM構造の学習
- 書き起こし想定発話の音声認識における言語モデルの検討
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 混合主成分分析を用いた音声認識
- ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性
- ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性(ポスターセッション)
- ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性(ポスターセッション)
- 次世代音声認識のための音響モデル : 学習とダイナミクス表現(チュートリアル : 次世代音声認識のための音響モデル)
- LG-002 移動ベクトルのコース/ファイン学習法にもとづく音響モデル適応(G. 音声・音楽)
- 混合主成分分析を用いた音声認識
- コンフュージョンネットワークを用いたオープン語彙発話検索法とその評価
- 高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサの効率的生成法
- 逐次増加型最小分類誤り学習によるパターン認識(パターン認識)
- 学生/教養のページ 音声認識における識別学習
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 音声認識における識別学習(学生/教養のページ)
- 幾何マージンに基づく誤分類尺度を用いた最小分類誤り学習法(パターン認識)
- ATRの会話音声翻訳研究用データベース(音声研究関連データベースの動向)
- 劣決定音源分離のための分離音声のケプストラムスムージング
- クラウド時代の新しい音声研究パラダイム
- Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別 (音声)
- 音声認識における識別学習
- A-10-9 フルランク空間相関行列モデルに基づく拡散性雑音除去(A-10.応用音響,一般セッション)
- 周波数依存の時間差モデルによる劣決定BSS
- 階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング(ベイズ統計モデル,統計推理,データベース,一般)
- 周波数依存の時間差モデルによる劣決定BSS
- 複数人会話シーン分析の研究と今後の展望(オーガナイズドセッション:マルチモーダル情報によるコミュニケーション環境理解,認識,理解,対話,一般)
- Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別(高精度音声認識,認識,理解,対話,一般)
- 「音声認識」は今後こうなる!
- 階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング
- 周波数依存到来時間差推定に基づく劣決定ブラインド音源分離の高速化
- Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別