連語辞書の自動作成と評価
スポンサーリンク
概要
- 論文の詳細を見る
日本語解析に連語(単語の共起関係)を利用することで解析精度を向上させることができる。しかし、実際に連語を利用するにあたっては、連語のデータをどのようにして収集するかという点が大きな問題となる。田中は、技術文献・新聞記事などから手作業によって共起関係データを抽出している。手作業による作成はデータの信頼性が高いが、作成のためのコストが非常に大きいという問題がある。それを解決するために、テキストを解析し自動的に共起関係を抽出する方法も提案されている。この方法の問題は、解析の精度などの関係から誤ったデータが抽出されることにある。そこで誤りを減らすために、抽出対象として解析結果の曖昧さの少ない部分を使ったり、対象テキストを限定するなどの対策がとられている。筆者らは、かな漢字変換の解析精度を向上させるために大量の連語を用意するという方針を立てて検討を行っており、そのための手段のひとつとして形態素解析を利用した自動抽出方式を検討してきた。本方式では誤ったデータの抽出を抑さえるために、単語の品詞に基づいたヒューリスティックな規則を利用している。本稿では、ヒューリスティックな規則を用いた抽出方式を提案し、作成した辞書の評価結果について報告する。
- 一般社団法人情報処理学会の論文
- 1992-09-28
著者
関連論文
- 日本語新聞記事からの固有名詞情報抽出
- 2C-3 利用者状況に適した方式で情報を推薦する「マルチモード推薦システム」の実現(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-6 行動情報を利用した携帯端末への情報配信システムアーキテクチャ(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-7 携帯端末へのPush配信サービスにおける配信スケジュール方式(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-1 大規模テキストから位置情報および特徴語を抽出するルールの検討(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-5 行動履歴を利用したコンテンツ推薦方式の提案(コンテンツ推薦,一般セッション,データベースとメディア)
- キーワード方式べた書き文かな漢字変換システムにおける付属語情報を用いた単語のあてはめ
- べた書き文の単語分割におけるエラーの抽出法と自動訂正
- 日本語文の誤り検出に関する研究
- 日本語文章作成支援システムCOMET
- 予測ペン入力インタフェースとその手書き操作削減効果
- 大語彙かな漢字変換 : 未登録語と区切り誤りの減少
- 文字ベース凝縮テキストによる全文検索方式の評価
- 混ぜ書き対応単語辞書の作成とその応用
- 大語彙辞書を用いたかな漢字変換についての考察
- 文書作成履歴を利用した校正支援機能
- FEP型校正支援システムの試作
- 連語辞書の自動作成と評価
- 漢字混じりかな漢字変換用単語辞書の作成
- 日本語解析性能と単語辞書との関係についての考察
- 大語彙かな漢字変換 : 連語の効果について