大容量テキストのn-gram統計とその応用の検討
スポンサーリンク
概要
- 論文の詳細を見る
様々なソースから流入するリアルタイム情報の自然言語処理方法が問題になっている。リアルタイム情報は、情報サイクルが短く、語彙が経時的に増大するため、従来主流であった辞書やルールベースを利用した自然言語処理モデルでは、対応が困難である。そこで近年、統計情報を利用した自然言語処理モデルが注目されている。自然言語処理に対し統計情報を利用するモデルは、従来からも音声認識などでは成功を収めていたが、日本語テキストでは使用される文字種が多いため、適用は困難視されていた。しかし、近年の計算機の進歩により、日本語に関しても、統計的に十分大きな量のテキストから統計情報を求めることが、可能になってきている。だが、現時点では、統計情報の利用に際し「どの統計量が有効なのか」「標本とするテキストの量はどの程度必要なのか」に対する検討は十分行なわれてはいない。そこで、筆者は、数万件の新聞記事に対しn-gram統計をとり、上の問題を考察したので以下に報告する。
- 一般社団法人情報処理学会の論文
- 1994-03-07