クラスbigram言語モデルの補間
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,日本語における単語bi-gramモデルと品詞bi-gramモデルの補間を提案する.テストコーパスの解析に必要な未知語モデルも,文字bi-gramと文字種bi-gramの補間により得られるモデルで実現する.このモデルの有効性を確かめるため,形態素解析済みのコーパスを用いて単語bi-gramモデルと品詞bi-gramモデルとこれらを補間したモデルのテストセットパープレキシティを計算した.その結果,単語bi-gramモデルでは151.00であり,品詞bi-gramモデルでは383.61であり,これらを補間したモデルでは,143.49であった.単語bi-gramモデルと品詞bi-gramを補間したモデルは,単語bi-gramと同程度の記憶領域で実現できるので,このモデルは単語bi-gramモデルよりも良いモデルであると結論できる.
- 一般社団法人情報処理学会の論文
- 1997-03-21
著者
関連論文
- 予測単位の変更によるn-gramモデルの改善
- 予測単位の変更によるn-gramモデルの改善
- 予測単位の変更によるn-gramモデルの改善
- 日本語の情報量の上限の推定
- 形態素クラスタリングによる形態素解析精度の向上
- タグ付きコーパスからの統語規則の獲得
- nグラム統計によるコーパスからの未知語抽出
- nグラム統計によるコーパスからの未知語抽出
- クラスに基づく言語モデルのための単語クラスタリング
- 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出
- 語彙化マルコフモデルによる英語品詞タグ付け
- 形態素bi-gramと品詞bi-gramの重ね合わせによる形態素解析
- 統計によるタグ付きコーパスからの統語規則の獲得
- 係り受けを用いた確率的言語モデル
- クラスbigram言語モデルの補間
- DFAによる形態素解析の高速化
- DFAによる形態素解析の高速化