平仮名列の自動分かち書き
スポンサーリンク
概要
- 論文の詳細を見る
この研究の目的は日本語の解析の最初に発生する分ち書きの問題を解決するための一手法である. 分かち書きは一般に文字種(漢字, 平仮名, 片仮名, 英字, 数字, 記号等)の変わり目で機械的に行われる. この時に発生する平仮名列に注目し, この性質を分析して分かち書きを行うものである. 分かち書きの方法は次のように行う. 平仮名列の中には慣用的な表現が多くあるのでこれを集め辞書とし, 文章中に発生する平仮名列を最長一致法により平仮名列辞書で右側より分割し, 残った平仮名列はテーブルを参照することにより, 語尾であるとか, その他の文法的接続検証等を行う. 分かち書きされた平仮名列は対応する平仮名列辞書により, よりこまかく分割され, 品詞情報を付ける. このような方法により232万件の平仮名列を処理することにより約3万2千項目の平仮名列辞書があれば分かち書きできることがわかった. これだけの量を処理したことによって平仮名列辞書に新しく追加しなければならない件数は処理する平仮名列の0.3%〜0.4%程度である. このような実験から平仮名列の中に繰り返し使われる平仮名列を使い分かち書きを行うことができる. 分かち書き処理を行うごとに平仮名列辞書を充実させ人手に頼る部分を少なくすることができる. この実験は日本科学技術情報センターの抄録テープによって行った.
- 一般社団法人情報処理学会の論文
- 1981-05-15
著者
関連論文
- 漢字列長単位用語の抽出
- 専門用語の解析と応用
- パネル討論会 : 日本文入力法の将来像 (日本文入力法)
- 平仮名列の自動分かち書き
- 英文記述の平易化システム--キャタピラ社における簡易化統制英語(Controlled English)誕生の背景と実用例
- 日本人の姓と名の分布(漢字情報の処理)
- 姓名のカナ漢字変換システム