(m, n)文字列方式による英単語の自動分節とその評価
スポンサーリンク
概要
- 論文の詳細を見る
英単語を自動分節する(m, n)文字列方式を提案し, この方式の評価を行う. ただし, 任意の字間(文字と文字との間)に先行するm文字列と続くn文字列からなる文字列を(m, n)文字列とよぶ. この文字列はその字間で切ってよいまたはよくないという情報を有する. その情報を利用して自動分節する方式を(m, n)文字列方式とよぶ. 清書した文書の各行末に余った空白の総数を数え, その総数がxである任意の方式の分節率E_<(x)>をE_<(x)>=[(c-x)/(c-b)]×100(%)で定義した. ここで, bは人間が可能な限り切った場合の総数, cはまったく切らない場合の総数である. (m, n)文字列方式の能力を評価するため, m, nをいろいろに変えて例文につきE_<(x)>を実測してみた. (4, 4)文字列方式が最高値91.8%を示した. 一方, 辞書引き方式(辞書の見出し語を参照する方式)でもE_<(x)>を実測してみた. その値は79.0%であった. これらの方式に単純な語尾変化を処理する機能を付加した. そのとき, その値は, それぞれ95.5%, 91.1%に至った. 実用性に関する検討では, (4, 4)文字列方式は所要の記憶容量の点などから簡便な方式でないこと, 一方, 辞書引き方式はすでに辞書をもつシステムに付加して利用できるという点から実用的な方式であること, また, 簡単な分節規則だけで切ってみたら, その分節率は31.8%であり, これは簡便で実用的な一方式となること, などが明らかになった.
- 一般社団法人情報処理学会の論文
- 1983-01-15