語順の相関に基づく機械翻訳の自動評価法
スポンサーリンク
概要
- 論文の詳細を見る
効率的に機械翻訳システムを開発していくためには,質の高い自動評価法が必要となる.これまでに様々な自動評価法が提案されてきたが,参照翻訳とシステム翻訳との間で一致する N グラムの割合に基づきスコアを決定する BLEU や最大共通部分単語列の割合に基づきスコアを決定する ROUGE-L などがよく用いられてきた.しかし,こうした方法にはいつくかの問題がある.ルールベース翻訳 (RBMT) の訳を人間は高く評価するが,従来の自動評価法は低く評価する.これは,RBMT が参照翻訳と違う訳語を使うことが多いのが原因である.これら従来の自動評価法は単語が一致しないと大きくスコアが下がるが,人間はそうとは限らない.一方,統計的機械翻訳 (SMT) で英日,日英翻訳を行うと,「A なので B」と訳すべきところを「B なので A」と訳されがちである.この訳には低いスコアが与えられるべきであるが,N グラムの一致割合に着目するとあまりスコアは下がらない.こうした問題を解決するため,本稿では,訳語の違いに寛大で,かつ,大局的な語順を考慮した自動評価法を提案する.大局的な語順は順位相関係数で測定し,訳語の違いは,単語適合率で測定するがパラメタでその重みを調整できるようにする.NTCIR-7,NTCIR-9 の特許翻訳タスクにおける英日,日英翻訳のデータを用いてメタ評価を行ったところ,提案手法が従来の自動評価法よりも優れていることを確認した.
- 言語処理学会の論文
著者
-
永田 昌明
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
平尾 努
日本電信電話株式会社 Ntt コミュニケーション科学基礎研究所
-
磯崎 秀樹
岡山県立大学
-
須藤 克仁
日本電信電話株式会社 NTT コミュニケーション科学基礎研究所
-
Duh Kevin
奈良先端科学技術大学院大学
-
塚田 元
日本電信電話株式会社 NTT コミュニケーション科学基礎研究所
関連論文
- テキスト要約の自動評価(テキストの自動評価)
- 抜粋による複数文書要約を評価するためのコーパスと評価指標
- 識別学習による組合せ最適化問題としての文短縮手法
- 単一言語コーパスにおける文の自動対応付け手法(自然言語)
- SVMを用いた学習型質問応答システムSAIQA-II(自然言語)
- 機械学習のための組み合わせ素性の選択基準について(分類、クラスタリング,機械学習)
- 言語パターンに着目した複数文書要約(要約)
- 機械学習のための組み合わせ素性の選択基準について(分類、クラスタリング, 機械学習)(言語理解とコミュニケーション)
- 言語パターンに着目した複数文書要約(言語理解とコミュニケーション)
- 機械学習のための組み合わせ素性の選択基準について
- 言語パターンに着目した複数文書要約
- 素性選択機能をもったString Kernelの提案(パタン発見)(セマンティックウェブと自然言語処理その他一般)
- 素性選択機能をもった String Kernel の提案
- 階層構造を利用したテキスト間類似度の効率的計算法
- SAIQA : 大量文書に基づく質問応答システム
- SAIQA : 大量文書に基づく質問応答システム
- ラベルありデータの選択バイアスに頑健な半教師あり学習
- 同義語情報を用いた確率的単語アライメントモデル
- Wikipediaからの大規模な人オントロジー構築
- 構文情報に依存しない文短縮手法
- 投票型回帰モデルによる要約の自動評価法
- 辞書式順序を持つペナルティによるゼロ代名詞解消(自然言語)
- 拡張ストリングカーネルを用いた要約システムの自動評価法(自然言語,情報処理技術のフロンティア)
- 文書要約の自動評価手法の提案と評価(セグメンテーション・要約)
- 優先度学習を用いた自然言語処理(解析)
- 生物医学文献からの遺伝子機能フレーズの抽出(抽出,マイニング)
- 日本語語彙大系を用いたWikipediaからの汎用オントロジー構築
- 機械翻訳最新事情 : (下)評価型ワークショップの動向と日本からの貢献
- 機械翻訳最新事情 : (上)統計的機械翻訳入門
- 統計的機械翻訳(自然言語とコンピュータ)
- 意味的等価性検証に基づく記述式解答文の採点法(テキストの類似性・文処理モデル)
- 意味的等価性検証に基づく記述式解答文の採点法(テキストの類似性・文処理モデル)
- D-12-67 「領域抽出不要型文字認識」に基づく景観中単語認識(D-12. パターン認識・メディア理解, 情報・システム2)
- Support Vector Machine を使ったモーラ列からの日本語姓名のアクセント推定(音声, 聴覚)
- "反省型"信頼性尺度に基づく書き起こしなしデータを用いた言語モデル学習
- "反省型"信頼性尺度に基づく書き起こしなしデータを用いた言語モデル学習
- 自動要約評価型ワークショップ : Text Summrization Challenge(TSC)(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- 自動要約評価型ワークショップ : Text Summrization Challenge(TSC)(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- 自動要約評価型ワークショップ : Text Summrization Challenge(TSC)(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- 動向情報の要約と可視化に関するワークショップの提案(検索,要約)
- 動向情報の要約と可視化に関するワークショップの提案(検索,要約)
- 文書要約における抽出単位と評価法についての考察(要約)
- 音声制御ブラウザ VCWeb の英日シームレス化
- 質問に適応した文書要約手法とその評価
- Support Vector Machineを用いた重要文抽出法(自然言語)
- 機械学習による複数文書からの重要文抽出
- LE-11 機械学習を用いた複数文書要約(E. 自然言語・文書)
- Order SVM : 一般化順序統計量に基づく順位付け関数の推定(情報論的学習理論論文小特集)
- 大規模データを用いた半教師あり学習による高精度係り受け解析モデルの学習
- LG-5 順序関係を推定する位置づけ学習問題とその解法(G. 人工知能)
- 構文・照応・評価情報つきブログコーパスの構築
- 再学習による翻訳モデルを用いた単語アライメントの向上
- HPSGに基づく英日翻訳とT_EXによるXMLの可視化(招待講演,自然言語処理)
- HPSGに基づく英日翻訳とT_EXによるXMLの可視化(招待講演,自然言語処理)
- 予測尤度最大化に基づく誤分類サンプルの検出 (情報論的学習理論と機械学習)
- Pitman-Yor過程に基づく確率的木挿入文法モデル
- 予測尤度最大化に基づく誤分類サンプルの検出(ポスターセッション,第14回情報論的学習理論ワークショップ)
- カテゴリ名と記事名の意味属性分類に基づくWikipediaからの上位下位関係オントロジーの構築
- 予測尤度最大化に基づく誤分類サンプルの検出
- 語順の相関に基づく機械翻訳の自動評価法