長い日本語文における並列構造の推定
スポンサーリンク
概要
- 論文の詳細を見る
日本語情報処理において未解決のまま放置されている問題の1つに,長い文を正しく構文解析することがほとんどできないという問題がある.文が長くなる主な原因は,1文中に多くの内容が並列的に述べられているところにある.したがって,このような並列する構造を正しく認識できれば,長い文も短くすることができ,文の解析が正しくできる可能性が高くなる.多くの文において,並列する部分は何らかの意味において類似している.そこで,文中の並列構造を類似した2つの文節列としてとらえ,これをダイナミックプログラミングの手法によって発見することを実現した.並列構造としては,名詞句の並列のほかに,いわゆる連用中止法といわれている述語句の並列等を対象とした.まず,日本語文を文節ごとに区切り,すべての文節対について類似度を計算する.そして,並列の存在を示す助詞や連用中止などの前後において,バランスのとれた並列構造を優先すること,文を意味的に区切っているある種の表現をこえて並列の範囲が広がる可能性は少ないこと,並列構造の直後に「など」のような語が現れやすいこと,等を考慮に入れた上で,類似度の総和が最も大きい2つの文節列を求め,これを並列構造の範囲とする方法を考案した.180文に対して実験を行ったところ,この方法によって82%の精度で並列構造を推定することができた.
- 1992-08-15
論文 | ランダム
- 日本語の質問合図
- リーディング企業 IT戦略の分岐点 スピード勝負のスタッフサービス テンプスタッフは登録者確保を優先
- 特集 もっとわくわくしたい--ITエンジニア2200人の「働く意識」調査
- 特集1 ITメタボリック症候群--脱却の秘訣は「ひるまず、力まず」
- 特集1 迫り来るIT法務リスク