自然言語解析のためのMSLRパーザ・ツールキット
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,我々が現在公開している自然言語解析用ツール「MSLR パーザ・ツールキット」の特徴と機能について述べる.MSLR パーザは,一般化LR 法の解析アルゴリズムを拡張し,日本語などの分かち書きされていない文の形態素解析と構文解析を同時に行うツールである.MSLR パーザを用いて解析を行う際には,まずLR 表作成器を用いて,文法と接続表からLR 表を作成する.このとき,LR 表作成器は,接続表に記述された品詞間の接続制約を組み込んだLR 表を生成する.このため,接続制約に違反する解析結果を受理しないLR 表が作られるだけでなく,LR 表の大きさを大幅に縮小することができる.次に,MSLR パーザは,作成されたLR 表と辞書を用いて辞書引きによる単語分割と構文解析を同時に行い,その結果として構文木を出力する.さらに,MSLR パーザは,文中の括弧の組によって係り受けに関する部分的な制約が与えられた文を入力とし,その制約を満たす構文木のみを出力する機能を持つ.また,文脈依存性を若干反映した言語モデルのひとつである確率一般化LR モデル(PGLR モデル) を学習し,個々の構文木に対してPGLR モデルに基づく生成確率を計算し,解析結果の優先順位付けを行う機能も持つ. : In this paper, we describe a tool kit for natural language analysis, the MSLR parser tool kit. The ‘MSLR parser’ is based on the generalized LR parsing algorithm, and integrates morphological and syntactic analysis of unsegmented sentences. The ‘LR table generator’ constructs an LR table from a context free grammar and a connection matrix describing adjacency constraints between part-of-speech pairs. By incorporating connection matrix-based constraints into the LR table, it is possible to both reject any locally implausible parsing results, and reduce the size of the LR table. Then, using the generated LR table and a lexicon, the MSLR parser outputs parse trees based on morphological and syntactic analysis of input sentences. In addition to this, the MSLR parser accepts sentence inputs including partial syntactic constraints denoted by pairs of brackets, and suppresses the generation of any parse trees not satisfying those constraints. Furthermore, it can be trained according to the probabilistic generalized LR (PGLR) model, which is a mildly context sensitive language model. It can also rank parse trees in order of the overall probability returned by the trained PGLR model.
- 言語処理学会の論文
- 2000-11-10
著者
-
田中 穂積
北陸先端科学技術大学院大学情報科学研究科
-
橋本 泰一
東京工業大学統合研究院
-
白井 清昭
北陸先端科学技術大学院大学情報科学研究科
-
植木 正裕
国立国語研究所
-
白井 清昭
東京工学大学大学院情報理工学研究科計算工学専攻
-
橋本 泰一
東京工学大学大学院情報理工学研究科計算工学専攻
-
徳永 健伸
東京工学大学大学院情報理工学研究科計算工学専攻
-
田中 穂積
東京工学大学大学院情報理工学研究科計算工学専攻
-
白井 清昭
北陸先端科学技術大学院大学
関連論文
- 社会課題とその解決に結びつく科学技術に関する有用知識の抽出
- 社会課題発見のための文書クラスタリングとクラスタ評価指標(情報分析・要約(テーマセッション1))
- 音声言語関連大型プロジェクトの現状と将来
- パネル討論 : 音声言語関連大型プロジェクトの現状と将来
- 編集にあたって(音声情報処理技術の最先端)
- 品詞間接続制約のLR構文解析表への組み込みの局所性の解消
- 論文と特許を対象にした技術動向分析 第7回,第8回NTCIRワークショップ 特許マイニングタスク
- TREC-7参加報告
- 拡張固有表現タグ付きコーパスの構築(マイニング・知識獲得・固有表現)
- 岩波国語辞典を利用した語義タグ付きテキストデータベースの作成