語義の特異性を利用した慣用表現の自動抽出

概要

論文の詳細を見る
本論文では「水をあける」「目を盗む」といった述語型慣用表現をコーパスから自動抽出する手法を提案する.慣用表現を自動抽出する従来手法の多くは,本質的に,その表現の頻度や名詞動詞間の共起性の強さに基づいて慣用表現かどうかの判定を行っている.しかし,慣用表現はコーパス中での頻度が低く,更に強い共起性は慣用表現の1つの特徴でしかない.このため頻度や共起性の観点だけからでは抽出が困難である.本手法は慣用表現中の語義の特異性に注目する.概略,述語型慣用表現中の名詞はその語義の特異性のために類義語と置換されることがないという性質を利用する.例えば「水をあける」「目を盗む」は「真水をあける」「まぶたを盗む」とは言えないが,一般の表現「穴をあける」「現金を盗む」では「穴」や「現金」の類義語と置き換え可能である.本手法では共起性が弱い慣用表現や頻度の低い慣用表現を取り出せる.また反例を探すという戦略になっていることからコーパスの質や量の問題を避けることができる.最後に新聞記事1か月分のコーパス (約9Mbyte) の分類語彙表を用いて実験を行った.この詳細についても述べる.
一般社団法人情報処理学会の論文
1995-08-15