単語リストと生コーパスによる確率的言語モデルの分野適応(言語の統計モデル)

概要

論文の詳細を見る
本論文では、単語リストと生コーパスが利用可能な状況における確率的言語モデルの分野適応について述べる。このような状況の下での一般的な対処は、単語リストを語彙に加えた自動単語分割システムによる生コーパスの自動単語分割の出力文を可能な限り人手で修正し、パラメータ推定に利用することである。しかしながら、文単位での修正では、正確な単語分割が容易でない箇所が含まれることになり、作業効率の著しい低下を招く。加えて、文単位で順に修正していくことが、限られた作業量を割り当てる最良の方法であるかということも疑問である。本論文では、コーパスの修正を単語単位とし、修正箇所を単語リストで与えられる適応分野に特有の単語に集中することを提案する。これにより、上述の困難を回避し、適応分野に特有の単語の統計的な振る舞いを捕捉するという、適応分野のコーパスを利用する本来の目的にのみコーパス修正の作業を集中することが可能となる。実験では、自動単語分割の結果の人手による修正の程度や方法を複数用意し、その結果得られるコーパスから推定された確率的言語モデルの予測力やそれに基づく仮名漢字変換の精度を計算した。この結果、適応分野に特有の語彙の出現箇所に修正のコストを集中することにより、少ない作業量で効率良く確率的言語モデルを分野適応できることが分かった。
2005-07-16

単語リストと生コーパスによる確率的言語モデルの分野適応(言語の統計モデル)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク