2000-NL-137-8 / 2000-SLP-31-3 読み正解コーパスのXML化とXSLTの利用
スポンサーリンク
概要
- 論文の詳細を見る
近年、日本語のテキストコーパスの整備が進み、利用可能な言語資源が蓄積されつつある。本稿では、日本語ディクテーション基本ソフトウェアの開発の一環として行われた大規模テキストコーパスへの読み付与と、形態素解析済の読み正解コーパスの整備について述べる。はじめに、形態素解析システムと読み付与の関係と、既存の形態素解析システムで処理し切れなかった問題について述べる。次に、読み正解コーパスを、特定の形態素解析システムの出力形式に依存しないExtensible Markup Language(XML)で記述することを提案する。XMLの採用により、再利用性を向上させるとともに、XSL Transformations(XSLT)などの利用により、コーパス作成作業における各種ツールの共有化が期待できる。
- 一般社団法人情報処理学会の論文
- 2000-06-01
著者
関連論文
- 講義音声認識に基づくノートテイクシステム(福祉と音声処理,一般)
- 講義音声認識に基づくノートテイクシステム(福祉と音声処理,一般)
- カスタマイズ性を考慮した擬人化音声対話ソフトウェアツールキットの設計(音声言語情報処理とその応用)
- 日本語ディクテーション基本ソフトウェア(99年度版)
- 日本語ディクテーション基本ソフトウェア : 98年度版
- 日本語ディクテーション基本ソフトウェア(97年度版)
- ディクテーションにおける形態素辞書エントリと読みの整備の効果
- O-18 双方向型メディアを利用した広告コンテンツ契約市場モデル(情報システムと社会環境,O.情報システム)
- 2000-NL-137-8 / 2000-SLP-31-3 読み正解コーパスのXML化とXSLTの利用
- 2000-NL-137-8 / 2000-SLP-31-3 読み正解コーパスのXML化とXSLTの利用