日本語の情報量の上限の推定
スポンサーリンク
概要
- 論文の詳細を見る
本論文では, 形態素単位の n-gramモデル (1≤n≤16) による日本語の情報量の上限の推定方法とその結果を示す. 各 n-gramモデルは, データスパースネスの問題に対応するため, 低次の n-gram モデルとの補間を行ってある. 補間係数は, 最も有効であると考えられている削除補間法により求める. 実験ではEDRコーパスの約9割からモデルのパラメータを推定し, 残りの1割に対して情報量を計算した. その結果, n=16のときに1文字あたりの情報量は最小の4.30330ビットであった. また, 学習コーパスの大きさとモデルの次数による情報量の変化を調べた結果, モデルの次数を上げるごとによる情報量の減少量は微小であるが, 学習コーパスを大きくすることによる情報量の減少量はかなりあるということが分かった. さらに, パラメータ数とエントロピーの関係についても議論する. これは, 実際の日本語処理にn-gramモデルを応用する際に,適切にnの値を選ぶ指標となる.
- 一般社団法人情報処理学会の論文
- 1997-11-15
著者
関連論文
- 確率的モデルによる仮名漢字変換
- nグラム統計によるコーパスからの未知語抽出
- 確率的モデルによる仮名漢字変換
- 確率的モデルによる仮名漢字変換
- 予測単位の変更によるn-gramモデルの改善
- 予測単位の変更によるn-gramモデルの改善
- 予測単位の変更によるn-gramモデルの改善
- 日本語の情報量の上限の推定
- 連語登録による形態素解析システムJUMANの精度向上
- 形態素クラスタリングによる形態素解析精度の向上
- タグ付きコーパスからの統語規則の獲得
- nグラム統計によるコーパスからの未知語抽出
- nグラム統計によるコーパスからの未知語抽出
- 単語リストと生コーパスによる確率的言語モデルの分野適応(言語の統計モデル)
- 単語リストと生コーパスによる確率的言語モデルの分野適応(言語の統計モデル)
- 確率的単語分割コーパスからの単語N-gram確率の計算(音声言語)
- 生コーパスからの単語N-gram確率の推定(仮名漢字変換・形態素構文解析)
- クラスに基づく言語モデルのための単語クラスタリング
- 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出
- 語彙化マルコフモデルによる英語品詞タグ付け
- 形態素bi-gramと品詞bi-gramの重ね合わせによる形態素解析
- 統計によるタグ付きコーパスからの統語規則の獲得
- クラスに基づく可変長記憶マルコフモデル
- 自然言語処理 : 基礎と応用, (社)電子情報通信学会(編), 田中穂積(監修), "自然言語処理 : 基礎と応用", (社)電子情報通信学会(1999-03), A5判, 定価(本体5,400円+税)
- 単語リストと生コーパスによる確率的言語モデルの分野適応
- 無限語彙の仮名漢字変換(単語,文法)
- 係り受けを用いた確率的言語モデル
- クラスbigram言語モデルの補間
- DFAによる形態素解析の高速化
- DFAによる形態素解析の高速化