伝統的モンゴル語の電子化方式とテキスト検索への応用(自然言語処理)

概要

論文の詳細を見る
モンゴル文字による「伝統的モンゴル語」は, 標準的な電子化方式が確立されていないために, オンラインでの情報交換が困難である. モンゴル語の電子化には, モンゴル語固有の文字コードを用いる方式と, モンゴル語の発音をローマ字で表現してアスキーコードで転写する方式がある. モンゴル語は発音によって字形や意味が決まるにもかかわらず, 既存の文字コードは字形に基づいており, 発音情報を保存することができない. また, 既存の転写方式は, 一部のモンゴル文字を転写することができない, 入出力インタフェースが整備されていない, 字形変化のアルゴリズムを独自に実装しなければ利用できないなどの問題がある. 本研究は, これらの問題を解決し, より汎用性が高い転写方式と入出力インタフェースを提案する. これらはJava仮想マシン上で利用可能である. 更に, 提案内容の応用例として, モンゴル語の新聞記事を電子化し, 全文検索システムを実装した.
社団法人電子情報通信学会の論文
2005-10-01