コーパスからの対訳辞書の半自動生成
スポンサーリンク
概要
- 論文の詳細を見る
自然言語処理システムを実用化するに当たって、最初に問題となるのが辞書の問題である。充分な精度を得るためには、辞書情報を充実させる必要がある。日々使用される語彙は常に変化するため、語彙情報の獲得作業は継続的に行なう必要がある。一方、全く新しい分野に自然言語処理を導入する際には、その分野独自の専門用語辞書を新たに作成する必要が生じる。語彙情報の獲得を工学的に効率化するためには、語の使用頻度に偏りがあることを利用することが考えられる。語の使用頻度に関する経験的知識として、Zipfの経験則が有名である。北村は、Zipfの法則から、辞書の語彙数と未知語率との関係の推定を行なった。これによると、「発見的手続きで作られたn語の辞書は、新しい文の処理において、どの程度の比率で未知語に出会うか」という問題に対し、1/<√<nn>>という評価式が得られている。この評価式からは、(1)辞書の語彙数が少ない範囲では、未知語率が急激に減少している、(2)未知語率の傾きは、だんだん緩やかになるが、決して0にはならない、という2つの顕著な性質を読み取ることができる。これら2つの点を辞書開発作業の観点から考えると、(1)(未知の分野に対し)最初に辞書を開発する作業、(2)継続的に語彙を獲得する作業、の2つの段階に分けることによって作業をより効率的に進めることができる可能性がある。本稿では、高頻度語を抽出するアルゴリズムを用いて、対訳コーパスから半自動的に訳語対を抽出し、対訳辞書開発の初期コストを低減させる手法を提案する。
- 1993-09-27
著者
関連論文
- 大規模日本語テキストからの依存構造の抽出
- 情報検索システムにおける効果的なナビゲーション機能の提案
- 電子図書館IV : ナビゲーションシステムプロトタイプ
- 電子図書館III : Information Outlining : 触ってわかる情報の輪郭
- 電子図書館II : 基本設計
- 電子図書館I : 将来像
- コーパスからの対訳辞書の半自動生成
- 抄録からのキーワードの自動抽出
- 抄録からのキーワードの自動抽出
- 抄録からの主題文の自動抽出
- 構文情報を用いたキーワード抽出
- サイト・アウトライニング : インターネットからの情報収集と可視化技術
- テキスト情報の可視化を利用した情報検索(「ビジュアルな情報検索」編集にあたって)
- 個人適応型情報検索システム : 個人の興味を学習する階層記憶モデルとその協調的フィルタリングへの適用
- テキストデータを用いた問題の早期発見手法(意味表現・データマイニング)
- 新聞記事データベースからの話題の抽出II-話題の構造の解析
- 新聞記事データベースからの話題の抽出
- 情報量から見た自然言語処理システムに対する考察
- 漸進的学習機能を備えた日本語形態素解析
- テキストからの知識獲得支援ツール
- IBMプロフェッショナル論文 コールセンターのログデータを用いた製品等の不具合の早期発見
- 情報獲得のパラダイムとしてのInformation Outlining (「1997年情報学シンポジウム」プログラム--人と情報学の調和をめざして) -- (マルチメディア技術2(情報の高度利用に向けて))
- 事例の一般化による機械翻訳