日本語解析性能と単語辞書との関係についての考察
スポンサーリンク
概要
- 論文の詳細を見る
ワードプロセッサや機械翻訳などの日本語解析技術の実用化が進むにつれて、従来の少量のテキストでの評価ではなく、大量テキストの利用など、より実用的な条件での評価作業が必要になってきている。そのため評価作業を自動化する必要が生じ、各所で研究が行われている。筆者らも、かな漢字変換システムの改良作業のため、評価用コーバスの利用と評価用ツール開発による自動化を進めてきた。これらの自動評価システムは個別の誤りに対処するための誤り箇所の抽出を主な目的としており成果を上げている。しかし、システム性能の限界の推測を行ったり、実際の解析結果(通常作成に時間がかかる)を使用せずにおおよその性能を予想するためには、個念の誤りを取り出すだけではなく、性能を決定する要因を大局的に分析する必要がある。そこで、日本語解析性能に大きな影響を与える要因の一つである単語辞書に着目し、単語辞書の内容と性能との間の定量的な関係を求めることを目的として調査を開始した。文書中の単語の頻度分布に関する従来研究としては、新聞に関する調査など多くの報告がある。また、機械翻訳システムに関しては未知語出現率と単語辞書に関する報告がある。本稿では、かな漢字変換を対象に、単語数と変換率の関係、単語網羅率と変換率の関係について調査した結果を報告する。
- 一般社団法人情報処理学会の論文
- 1992-09-28
著者
関連論文
- 日本語新聞記事からの固有名詞情報抽出
- 2C-3 利用者状況に適した方式で情報を推薦する「マルチモード推薦システム」の実現(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-6 行動情報を利用した携帯端末への情報配信システムアーキテクチャ(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-7 携帯端末へのPush配信サービスにおける配信スケジュール方式(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-1 大規模テキストから位置情報および特徴語を抽出するルールの検討(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-5 行動履歴を利用したコンテンツ推薦方式の提案(コンテンツ推薦,一般セッション,データベースとメディア)
- キーワード方式べた書き文かな漢字変換システムにおける付属語情報を用いた単語のあてはめ
- べた書き文の単語分割におけるエラーの抽出法と自動訂正
- 日本語文の誤り検出に関する研究
- 予測ペン入力インタフェースとその手書き操作削減効果
- 大語彙かな漢字変換 : 未登録語と区切り誤りの減少
- 文字ベース凝縮テキストによる全文検索方式の評価
- 混ぜ書き対応単語辞書の作成とその応用
- 大語彙辞書を用いたかな漢字変換についての考察
- 文書作成履歴を利用した校正支援機能
- FEP型校正支援システムの試作
- 連語辞書の自動作成と評価
- 漢字混じりかな漢字変換用単語辞書の作成
- 日本語解析性能と単語辞書との関係についての考察
- 大語彙かな漢字変換 : 連語の効果について