類似文字による日本語単語抽出
スポンサーリンク
概要
- 論文の詳細を見る
文字をあらかじめ類似文字カテゴリに分類し、文書画像中の各文字をカテゴリの並びとしていったん識別し、そのカテゴリ列を形態素解析することで単語を高速に抽出する手法を提案する。学習サンプルでの識別実験では類似文字カテゴリを2, 000とした場合、約99.3%の類似文字カテゴリへの識別率で、識別に必要な距離計算回数は総当たりによる距離計算回数の約8分1になることが実験により確認できた。実際のテキストに対する実験では、類似文字カテゴリ識別精度97.5%、距離計算回数は総当たりに比較して10分の1で、形態素解析によって約85%の文字を一意に決定でき、残りの決定できない文字についても約2.8文字の候補文字に対する詳細な識別処理で済むことを確認した。最終的な文書中の単語抽出率は約94%であった。
- 社団法人電子情報通信学会の論文
- 1998-09-18