共起語集合の類似度に基づく対訳コーパスからの対訳語抽出
スポンサーリンク
概要
- 論文の詳細を見る
対訳辞書は機械翻訳システムや多言語情報検索システムの重要な構成要素である.基本対訳辞書の増補や専門用語対訳辞書の作成を自動化することを目的として, 対訳コーパスから語の対訳関係を抽出する新しい方法を開発した.本方法は, コーパス中で共起している語の集合で語を特徴付け, 共起語集合の類似度が対語のペアを対訳語ペアとして抽出する.異なる言語の語を構成要素とする共起語集合の類似度を計算するため, 既存の対訳辞書を参照して対訳関係が成立する語を対応付ける.共起語集合の類似度計算という統計処理の中で既知の対訳知識を利用することにより, 次の長所をあわせ持つ方法が実現できた.第1に, 文レベルの対応付けがなされていない対訳コーパスに適用可能である.第2に, 小規模な対訳コーパスから対訳ペアを抽出することができる.第3に, 未知語を含む単純語と複合語の任意の組合せの対訳語ペアを抽出することができる.日英対訳の特許明細書コーパスを用いて, 既存の対訳辞書(50, 000語の見出し語を持つ日英機械翻訳システムの対訳辞書)に未登録の対訳語ペアを抽出する実験を行った.33.8%の抽出率, 76.7%の正解率を達成し, 提案方法が実用に供しうるとの結論を得た.本方法は, 大規模な対訳コーパスを要求せず, 対訳文書を個別に処理していけばよいので, 実際的である.今後の課題として, コーパスからの複合語抽出精度を向上させることがあげられる.
- 2001-09-15
著者
関連論文
- 情報のメタデータに着目した情報ライフサイクル管理向けポリシー記述方式
- 情報ライフサイクル管理のためのポリシー記述方式とその解釈実行方式
- 座談会「機械翻訳における中間言語方式をめぐって」 : 1989.5.26 10:00〜12:00 於:オーム社 (「機械翻訳」)
- 「言語理解-SHRDLUの先にあるもの-」へのコメントと回答
- 共起語集合の類似度に基づく対訳コーパスからの対訳語抽出
- 慣用句抽出のための統計尺度の比較評価(語彙的知識獲得)
- テキストコーパスからのトピック階層の抽出(自然言語)(コラボレーションアートとネットワークエンターテイメント)
- コーパス対応の関連シソーラスナビゲーション
- 対訳テキストを利用した訳語選択のための共起関係の自動抽出
- テキストからの共起関係自動抽出の試み
- 組織情報を用いた人名の暖昧性解消方式(形態素・固有表現)
- 組織情報を用いた人名の暖昧性解消方式(形態素・固有表現)
- E-034 決定木の逐次学習による固有表現抽出(E.自然言語・文書・ゲーム)
- 第19回計算言語学国際会議
- 電子図書館システムの技術動向
- 交通ICカード利用履歴を用いた生活行動属性指標の提案(行動解析,ユーザ属性情報,ライフログ活用技術,オフィスインフォメーションシステム,ライフインテリジェンス,一般)
- 多品種商品を扱う店舗の需要予測のための商品選択予測手法の構築(システム応用,ライフログ活用技術,オフィスインフォメーションシステム,ライフインテリジェンス,及び一般)