機械翻訳によって生成された追加テキストを使った統計的言語モデルの適応

概要

論文の詳細を見る
統計的な言語モデルのタスク適応には,そのモデルを利用するタスク(ターゲットタスク)での小規模コーパスが必要となる.このコーパスは言語モデルと同じ言語で書かれていることが必要となる.しかし,この小規模なコーパスでさえ,特に話し言葉のコーパスはコストの点で集めることが困難な場合がある.この問題を解決するために,本論文では,ある一つの言語で書かれたターゲットタスクのコーパスを,タスク適応が必要な言語モデルと同じ言語に機械翻訳し,その翻訳結果をターゲットタスクのコーパスとして利用して,言語モデルの適応化を行う方法を提案する.このとき,翻訳知識の中に保存されていると考えられる統計的言語モデルに必要な隣接単語に関する情報を,翻訳によって取り出し適応に利用する.旅行会話文を対象とし,単語パープレキシティを評価尺度とする実験において,本手法による適応後の言語モデルの改善率は,人手で書かれたコーパスを使って適応を行った場合の改善率のおよそ半分まで達成でき,適応に必要なコーパス生成の新しい試みという本提案手法の有効性が確認された.
社団法人電子情報通信学会の論文
2003-04-01