隠れマルコフモデルによる言語モデル自動獲得の検討
スポンサーリンク
概要
- 論文の詳細を見る
本稿では、全状態間の遷移が許された隠れマルコフモデル(ergodic HMM、以後、HMMと略記する)を用いて確率つきネットワーク文法を自動的に獲得することを試みた。言語モデルには、構文情報を記述したモデルとしてネットワーク文法(有限状態オートマトン)、自由文脈文法などがあり、統計情報を記述したモデルとしてbigramやtrigram、さらにネットワーク文法に統計的な情報を加えた確率つきネットワーク文法などがある。しかし、構文情報を記述したモデルは、人間が言語知識に基づいて構文規則を作成しているため、大規模な言語現象のモデル化に労力がかかる。またbigramやtrigramなどの統計的モデルは、構文規則が表現されない。ところで、HMMは確率正規文法(確率つきネットワーク文法)と等価であり、単語を出力シンボルとする離散型ergodic HMMを考えると、その構造はネットワーク文法記述と形式的に類似している。またHMMはデータを与えると、そのデータの生成尤度が高くなるように状態遷移確率やシンボル出力確率などの各パラメータをBaum-Welch algorithmを用いて学習することができる。このことから、大量の単語列データから、HMMを用いて確率つきネットワーク文法が自動的に獲得できる可能性がある。Ergodic HMMによる言語のモデル化の研究は、村瀬、田本等によって報告されている。これらの報告でHMMに言語をモデル化する能力があることが示されており、さらに田本等は学習後のHMMを解析し、その形態が従来使われているネットワーク文法と類似していることを報告している。しかし、これらの研究では、HMMの学習に単語を品詞などのカテゴリーに分類した言語データを用いている。これに対して、本方式では、カテゴリー分類を与えずに単語列のみをHMMに学習させている。これにより、文法だけでなく、単語のカテゴリーも状態遷移出力の偏りとして同時に学習されることが期待できる。
- 社団法人情報処理学会の論文
- 1992-09-28
著者
関連論文
- HMMと一般化LR構文解析を用いた実時間大語彙連続音声認識装置の実現
- Ergodic HMMを用いた未知・複数信号源クラスタリング問題の検討
- N信号源モデルに基づく音声の区分化識別問題 : 話者特徴の違いに基づく区分化音声の識別
- 隠れマルコフ網と一般化LR構文解析を統合した連続音声認識
- 混合連続分布HMM移動ベクトル場平滑化話者適用方式
- ATR音声言語翻訳実験システムASURA
- HMMを用いた形態素解析
- 3)ピッチとスペクトルの相関を用いたHMM音素認識(視聴覚技術研究会)
- 数理統計モデルによる音声認識の現状と将来 (<特集>音声)
- ピッチとスペクトルの相関を用いたHMM音素認識
- 自由発話音声における音響的な特徴の検討
- Spotterにおける認識アルゴリズムの検討
- 音声対話における言語現象 (<小特集>音声によるコンピュータとの対話を目指して)
- 単語のtrigramを利用した文音声認識と自由発話認識への拡張
- 隠れマルコフモデルによる言語モデル自動獲得の検討
- 双方向網探索によるHMM文節音声認識系の評価
- 音節テラィスに適用するビタービアルゴリズムの評価について