「漢字情報学の構築」共同研究班報告
スポンサーリンク
概要
- 論文の詳細を見る
This is a report of the proceedings of the research seminar "Constructing Kanji (漢字) Informatics", which was held from 2004 to 2008, coordinated by Yasuoka Koichi. The seminar started out with considering a hierarchical model for representing digital text using a model consisting of four layers as follows : image layer, text layer, syntax layer and semantic layer. To better understand the relationship of the image and text layer, we spent some time analyzing and trying to understand the rules for vertical layout of complex text in Japanese and other East Asian languages, including the handling of pronounciation guides (so called 'ruby') The next step was to invert the direction and try to identify characters on the image representation of a text, in the same way an optical character recognition program procededes. This turned out to be not so easy, especially with stone rubbings that exhibit a irregular layout of the characters, but worked reasonably well for characters in a regular grid. In moving to the syntactic and semantic layer, the final topic for the seminar was to consider methods for adding punctuation marks (dots) to a Chinese text without any punctuation. After trying a number of different statistical approaches, like looking at characters that appear before or after punctuation dots in already punctuated texts, 2-grams, or even rhyme patterns it became evident that a purely statistical approach would not give the desired results, but that it was necessary to also to take grammatical relations into account. The most promising approach in this respect seemed to be use text with reading marks for kanbun, which do provide some basic grammatical annotation. It was therefore decided to devote a follow up seminar to the development of a corpus of kanbun annotated text that could be used as training and test material for morphological and syntactical parsers.
- 京都大学人文科学研究所の論文
- 2008-09-25
著者
関連論文
- 3.コンピュータ端末の元祖になった電信機「テレタイプ」(あの技術は今)
- 「[ササ]」字考
- ケータイの絵文字と文字コード
- 文字コード問題 新常用漢字表が迫るUnicode移行 「シフトJIS」では対応不可能
- 漢字文化と日本語の未来(,日本語学会2008年度春季大会シンポジウム報告)
- 「漢字情報学の構築」共同研究班報告
- QWERTY配列再考
- Adobe-Japan1-6とUnicode─異体字処理と文字コードの現実
- キー配列の規格制定史アメリカ編 : ANSIキー配列の制定に至るまで
- キー配列の規格制定史日本編 : JISキー配列の制定に至るまで
- 日本における最新文字コード事情(後編)
- 日本における最新文字コード事情(前編)
- 分散メモリ型ベクトル並列計算機上での高速整数ソーティングアルゴリズムの実装
- 並列ベクトル計算機VPP上のHPFの性能評価
- 分散メモリ型ベクトル並列計算機上での高速ソーティングアルゴリズム
- 並列ベクトル計算機VPP上のHPFの性能評価
- 分散メモリ型ベクトル並列計算機上での高速ソーティングアルゴリズム
- 3bit compactionと冗長2進を用いたFPGA向き乗算器
- 3bit compactionと冗長2進を用いたFPGA向き乗算器
- 3bit compactionと冗長2進を用いたFPGA向き乗算器
- JISX0213の符号化表現 (特集 文字コード論から文字論へ)
- On the Prehistory of QWERTY
- 失われた文字コード (特集 陳腐化するデジタル資料)
- A New Method to Represent Sets of Products : Ternary Decision Diagrams
- FPGA上の組合せ回路および順序回路のための新しい論理関数表現法
- WEBの記号・絵文字・顔文字 (特集 記号と絵文字・顔文字)
- 文字研究における画像データべースの利活用(日本語学会2011年度春季大会ワークショップ発表要旨)
- 拓本文字データベースの現状と課題
- 住民基本台帳ネットワーク統一文字とその問題点
- 社会保障・税番号制度の地方自治体における準備と課題 (特集 社会保障・税番号制度の影響と課題)