JIS漢字異字体変換システムとその応用
スポンサーリンク
概要
- 論文の詳細を見る
日本語を表すために用いられる漢字は, 大漢和辞典にある48902字の漢字と, それ以外の若干の漢字で, おおよそ5万語程度といわれている.そのうち, 日本工業規格(JIS)によって規定された漢字は12136字である.通常我々が電子的にテキストを記述する場合はこのJISに従って漢字を使用している.漢字の中には異字体と呼ばれる, 同じ起原を持つが異なった表記をもち, 同じ意味を表すものが多数含まれる.自由に漢字を駆使するためには, 異字体を自由に駆使できる必要がある.また古い文献を電子化する場合はできる限り原文にある字をそのまま使って保存すべきである.また場合によっては現在使われている字体に変換する必要もある.さらに, 電子化されたテキスト中を検索する場合も, 異字体を含めて検索したいという要求も高まっている.本論文では異字体の分類, JISで規定された漢字の異字体調査の結果, 異字体間の変換を行なうシステムおよびその応用について述べる.
- 一般社団法人情報処理学会の論文
- 1998-07-17
著者
関連論文
- 透過型電子メールチェッカの導入に係る諸問題
- Contens Layer Internet eXchange とそれを取り巻く諸問題
- JIS漢字に於ける異字体とその変換システム(戸島熈名誉教授記念号)
- JIS漢字異字体変換システムとその応用