確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化(音声,聴覚)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,大域的な文脈をモデル化する確率的LSA (Probabilistic Latent Semantic Analysis:PLSA)を利用した統計的言語モデルに注目し,このモデルを未知の文脈に適応させる方法を検討する.従来の適応方法は,モデルを作成するときと同じ最ゆう推定(EMアルゴリズム)をそのまま使うものであるが,未知の文脈に動的に適応させる場合は使える文脈は少量であり,過適応を起こしやすい.本論文では一般に過適応しにくいといわれているベイズ学習(変分ベイズ学習)を用いた適応手法を検討し,unigramとtrigramモデルのtest-set perplexityを使って比較評価した.結果として,PLSAが得意とする中頻度語彙に対しては,特に適応に使える文脈の量が少ない場合,ベイズ学習を用いた適応がEM適応よりも安定して高性能であることを確認した.高い出現頻度をもつ語彙を含む場合は,EM適応の方が高いトピック混合数のときunigramモデルで優位であったが, trigramモデルではベイズ適応が優位であった.
- 社団法人電子情報通信学会の論文
- 2004-07-01
著者
-
山本 幹雄
筑波大学大学院システム情報工学研究科
-
山本 幹雄
筑波大学電子・情報工学系
-
山本 幹雄
沖テクノシステムズラボラトリ(株)
-
三品 拓也
日本アイ・ビー・エム株式会社東京基礎研究所
-
三品 拓也
筑波大学大学院理工学研究科
-
山本 幹雄
豊橋技術科学大学情報工学系中川研究室
関連論文
- トピック教師なしデータからのトピック依存評価表現モデルの獲得(「主観表現処理の最前線」シンポジウム)
- フレーズテーブル及び既存対訳辞書を用いた専門用語の訳語推定
- フレーズテーブル及び既存対訳辞書を用いた専門用語の訳語推定(自然言語処理)
- 特許情報処理を指向したテストコレクションの構築 : 情報検索と自然言語処理の融合を目指して(NTCIR特別セッション)
- 特許情報処理を指向したテストコレクションの構築 : 情報検索と自然言語処理の融合を目指して(NTCIR特別セッション)
- 統計的機械翻訳におけるフレーズ対応最適化を利用したN-best翻訳候補のリランキング
- 確立・統計的言語モデル (特集 脳とことばとコンピュータ--脳の高次機能の解明に向けて)
- 確率・統計情報を用いた文法研究 (新・文法用語入門) -- (新しい文法研究)
- 日本語音声コ-パスの比較・選択の方法
- 6U-2 特許文に対するクロストリガーモデルを用いた統計的機械翻訳システム(自然言語処理,学生セッション,人工知能と認知科学)