『日本語歴史コーパス』のための書籍活字の電子化 : 小学館新全集『今昔物語集』を事例として
スポンサーリンク
概要
- 論文の詳細を見る
国立国語研究所で計画されている『日本語歴史コーパス』の構築にあたっては活字書籍化された古典資料のコーパス化を基本とし,その際には国内規格JIS X0213文字集合を用いて活字を電子化することが予定されている。本稿ではJIS X0213を古典資料の活字書籍に適用した場合の効果を検証するため,小学館新全集『今昔物語集』での漢字活字を調査し,のべ字数にして99.86%の活字がJIS X0213でカバーできることを明らかにし,JIS X0213の有効性を確認した。また,JIS X0213では表現できない活字に関しては,コーパスとしての利便性を鑑み,「〓」表示せずJIS X0213の範囲内の別字で代用しつつ,原資料での字形の情報を保持する方針を考案した。別字代用によりほぼ9割の外字は解消されるが,「〓」表示を完全になくすためには,文字レベルではなく,語の表記というレベルでの代用を考えなければならなくなる。末尾には小学館新全集『今昔物語集』で代用処理の対象となる特殊活字の一覧を付した。
- 2013-11-00
著者
関連論文
- 文の分析と主語--「主語」を問う視点 (特集 〈文の成分〉から文をとらえる--文の分析と理解のために) -- (日本語の文の成分--その実態から)
- 形態素解析辞書「中古和文UniDic」とその活用例(ブース発表,日本語学会2010年度秋季大会研究発表会発表要旨)
- 高精度時刻同期を特徴とする分散型モバイルネットワークエミュレータ
- 明治前期の漢字活字とJIS漢字包摂規準-『明六雑誌』活字字形への,包摂規準適用実験-
- コーパスとコロケーション強度を用いた中古語の語認定 : 「名詞+よし/あし/あり/なし」を例に(ブース発表,日本語学会2011年度春季大会研究発表会発表要旨)
- コロケーション強度を用いた中古語の語認定
- 『日本語歴史コーパス』のための書籍活字の電子化 : 小学館新全集『今昔物語集』を事例として
- してみる形の意味
- してみる形の意味
- 二重主語名詞述語文の語順