農林水産分野における自動索引付けに有効な言語資源の開発と評価
スポンサーリンク
概要
- 論文の詳細を見る
農林水産分野において文書を特徴付ける単語(索引語)の高度選定に役立つ言語資源(形態素解析辞書と不要語リスト)を整備し,その有効性を検証した.形態素解析用の専門用語解析辞書は,既存の農業用語辞書や品種登録データベースに収録された用語の追加や,日本農業文献記事索引(JASI)をコーパスとした新用語の収集により専門用語を充実させた.この辞書と一般用語解析辞書を併用することで,形態素解析による用語の認識精度は高まった.形態素解析結果に基づく辞書への新用語の追加は,未知語(計算機が認識しない単語)率[(専門・一般用語解析辞書の併用での未知語数)/(一般用語解析辞書での未知語数)×100]を低下させた.索引語の不要語リストには,JASIの索引語選定結果を参考に,一文字英字(大文字・小文字とも.ただし元素記号除く),単位,指示語,数詞,数字を選定した.これらの言語資源を用いて自動付与した索引語を,専門家が付与した索引語と比較したところ,66%が全一致あるいは部分一致した.以上のことから,整備した言語資源は,形態素解析や索引語選定に有効に働くと判断された.