日本・中国・台湾コンピュータ異体字シソーラスの制作
スポンサーリンク
概要
- 論文の詳細を見る
漢字の入ったデータを検索する際に問題となるのが, 異体字の存在である。例えば「浜」を検索する場合に「濱」も同時に検索したい, ということは漢字検索の基本的要求の1つである。JIS X 0208の漢字6355字しか用いることのできなかった時代には, 異体字の存在はそう大きな問題とはならなかった。というのもJIS X 0208には, このような異体字はたかだか560組ほどしかなく, しかも規格票に異体字関係がとりあえず明記されていたからである。しかしこの数年の間に, コンピュータで用いることのできる漢字の数は飛躍的に増大し, それにともなって異体字関係も複雑となった。例えばWindows-NTではUnicodeの漢字20902字が全て使えるが, その結果「浜」の異体字としては「濱」以外に中国・台湾の漢字コード規格から「濱」と「浜」が追加されているため, 漢字検索の手間が増大しているのである。しかも, Unicodeや中国・台湾の漢字コード規格には異体字関係が全く記載されていないため, 検索者の方で適当に異体字を含めて検索しているのが現状である。筆者らはこれまでに, 中国のGB 2312と日本のJIS X 0208の相互変換や, 日本・中国・台湾の漢字コードの差異に関する研究をおこなってきた。これらの経験を活かし, 筆者らは現在, 日本・中国・台湾の漢字コード規格に含まれる漢字70000字の異体字シソーラスの開発をおこなっている。本稿ではこの異体字シソーラスと, そのWWWによるヴィジュアライゼーションである「漢字袋」について述べる。
- 1997-09-24
著者
関連論文
- ぽすたるガイド'97に見る辞書にない漢字
- 並列ベクトル計算機VPP上のHPFの性能評価
- 分散メモリ型ベクトル並列計算機上での高速ソーティングアルゴリズム
- 並列ベクトル計算機VPP上のHPFの性能評価
- 分散メモリ型ベクトル並列計算機上での高速ソーティングアルゴリズム
- 3bit compactionと冗長2進を用いたFPGA向き乗算器
- 3bit compactionと冗長2進を用いたFPGA向き乗算器
- 3bit compactionと冗長2進を用いたFPGA向き乗算器
- FPGA上の組合せ回路および順序回路のための新しい論理関数表現法
- FPGA上の組合せ回路および順序回路のための新しい論理関数表現法
- FPGA上の組合せ回路および順序回路のための新しい論理関数表現法
- 日本・中国・台湾コンピュータ異体字シソーラスの制作
- 「〓」はなぜJIS X O221に含まれているのか : Unicode幽霊字研究
- コンピュータによる書の科学的分析へのアプローチ
- 3分決定グラフを用いた積項集合表現(アルゴリズムと計算量理論)