英語論文の清書における英単語の自動分節に関する1統計的方法
スポンサーリンク
概要
- 論文の詳細を見る
英文の印字において, 一般に1行当りの文字数はある数に決められる. その制限にかかる単語は, 分節され, ハイフンでつながれる. 本論文は, この分節し, ハイフンでつなぐことを計算機に自動的に行わせる1統計的方法について述べる. 任意のn文字列の(n-1)番目の文字とn番目の文字の間での分節が正しい, 正しくないをそれぞれ1, 0で表すn文字列論理値遷移行列を導入した. n=2〜6のそれぞれの場合について, 辞書の分節された見出し語を調査し, その行列を作成した. それらの行列において値が1の要素が全要素に占める割合は, nの増加に対し激減した. それで, 計算機にそれらの行列の全要素を記憶させることをやめ, 値が1の要素と対応するn文字列を表の形で記憶させた. 従来n≧4の統計的方法は実用的でないと言われていたが, これによって工学上比較的容易に実現できた. この表を参照する方法で論文を清書する実験を行った. その結果, 筆者の評価方法ではn≧4又は5が実用的であることや統計的方法は人間の能力の60%以上の能力があることが判明した.
- 一般社団法人情報処理学会の論文
- 1980-01-15