文字列索引法とその自然言語処理への応用
スポンサーリンク
概要
- 論文の詳細を見る
本論文は, 接尾配列(suffix array)と呼ばれる文字列索引の効率的な構築アルゴリズムと, その自然言語処理への応用として, 接尾配列による統計的言語モデル(PPM^*)の実現について論じており, 5章よりなる.第1章「序章」では, 自然言語処理が対象とする大容量テキストを現実的な計算機資源を用いて扱うための文字列索引技術の構築を本研究の目的としてあげ, 第2章「文字列索引に関する従来研究」では, Suffix tree, DAWG, Suffix array, String B-treeの従来研究を概説している.第3章「Suffix arrayの構築法」で, 従来に比べて効率的な構築法(suffixのソート法)として, 二段階ソート法, 順位ソート法, 分割ソート法と呼ぶ3つのアルゴリズムを提案し, 各々の性能評価を行っている.第4章「Suffix arrayを用いた言語モデリング」では自然言語処理への具体的な応用として, 大規模な統計的言語モデルの構築法を提案している.テキスト圧縮分野で提案された言語モデルのPPM^*に関して, Suffix arrayにより次入力の予測に用いる文脈を表現することで, 従来のグラフ構造による表現に比べコンパクト化を実現している.第5章「結論」では, これまでの議論を総括し本研究の今後の課題について述べている.
- 社団法人人工知能学会の論文
- 2000-11-01
著者
関連論文
- 類義語のオンライン検索
- Suffix Arrayの効率的な構築法
- 文字列索引法とその自然言語処理への応用
- Suffix arrayの効率的な構築法
- Suffix arrayを用いた日本語単語分割
- Suffix arrayを用いた日本語単語分割
- 大規模テキストに対する Suffix Arrayの効率的な構築法
- LR表を用いたチャートパージングアルゴリズム