テキストからの情報抽出に関する研究
スポンサーリンク
概要
- 論文の詳細を見る
本論文では, 電子化されたテキストから有用な情報を抽出するための手法についての提案を行う.抽出対象とする情報は, 省略された主語(ゼロ主語)の照応対象と固有表現であり, それぞれ独立した抽出手法により抽出を行なっている.ゼロ主語の照応対象の抽出は第3章で述べられ, 固有表現の抽出は第4章で述べられている.論文全体は5章からなる.第1章の「序論」に基づき, 第2章「理論と背景」では本研究の背景について述べ, 抽出を行なう対象と抽出手法の概要を説明する.第3章「ゼロ主語の同定」ではマニュアル文を対象としたゼロ主語の照応対象の抽出について示し, 言語表現自体が持つ意味(特に個別の領域知識にほとんど依存しない意味)を用いて, ゼロ主語が参照しているものを人称レベルで抽出する手法について述べている.文中の言語表現を用いることにより8割以上の精度でゼロ主語の人称を同定できることを示す.第4章「固有表現抽出」では新聞記事を対象とした固有表現抽出において, 複数のシステムを組み合わせて固有表現の抽出を行なう手法の提案を行なう.この手法に従い, 人手作成のパタンを用いた抽出システムと機械学習による学習結果を用いた抽出手法を組み合わせた結果, それぞれのシステムよりも, より精度の高いシステムが作成できることが確認できた.第5章は結論で研究結果をまとめ, 今後の課題について論じている.
- 社団法人人工知能学会の論文
- 2000-11-01