漢字情報と文例情報を結合した日本語データベースの構築
スポンサーリンク
概要
- 論文の詳細を見る
現代日本語に関する電子化資料は、日本語研究や日本語教育を行うために重要である。しかし、日本語データベースを構築するためには、文字集合の拡張や多国語化法、文字と符号の規範性の確立や追加情報への対応など解決すべき点が多い。本稿では、昭和41年から国立国語研究所で行った「現代新聞の調査」(朝日・毎日・読売、朝夕刊1年分) データをもとに、各種の漢字調査の結果、漢和辞典情報、政令で規定する情報を統合した日本語データベースの概要を説明し併せて漢字符号に必要な機能を検討する。日本語データベースで扱った情報は、漢字6,349字を含む45項目の付加情報および約200万長単位語相当の新聞記事の本文である。
- 1996-05-17
著者
関連論文
- インターネットにおける学術漢字の符号化に関する基礎的研究
- 大漢和辞典の検字番号に基づく構造化4バイトコードの提案
- 漢字情報と文例情報を結合した日本語データベースの構築
- 4バイトコード対応文字の部分文字集合に対する利用者規定の方法
- 東アジア漢字圏で使用される漢字符号の統合
- 国立国語研究所における高速漢字プリンタシステムの概要