機械翻訳によって生成された追加テキストを使った統計的言語モデルの適応
スポンサーリンク
概要
- 論文の詳細を見る
統計的な言語モデルのタスク適応には,そのモデルを利用するタスク(ターゲットタスク)での小規模コーパスが必要となる.このコーパスは言語モデルと同じ言語で書かれていることが必要となる.しかし,この小規模なコーパスでさえ,特に話し言葉のコーパスはコストの点で集めることが困難な場合がある.この問題を解決するために,本論文では,ある一つの言語で書かれたターゲットタスクのコーパスを,タスク適応が必要な言語モデルと同じ言語に機械翻訳し,その翻訳結果をターゲットタスクのコーパスとして利用して,言語モデルの適応化を行う方法を提案する.このとき,翻訳知識の中に保存されていると考えられる統計的言語モデルに必要な隣接単語に関する情報を,翻訳によって取り出し適応に利用する.旅行会話文を対象とし,単語パープレキシティを評価尺度とする実験において,本手法による適応後の言語モデルの改善率は,人手で書かれたコーパスを使って適応を行った場合の改善率のおよそ半分まで達成でき,適応に必要なコーパス生成の新しい試みという本提案手法の有効性が確認された.
- 社団法人電子情報通信学会の論文
- 2003-04-01
著者
-
山本 博史
Nict Atr
-
山本 博史
Atr音声言語コミュニケーション研究所
-
中嶋 秀治
ATR音声言語コミュニケーション研究所
-
渡辺 太郎
ATR音声言語コミュニケーション研究所
-
中嶋 秀治
早稲田大学国際情報通信研究科
-
中嶋 秀治
Atr音声言語通信研究所
関連論文
- 統計的翻訳評価尺度に基づく日英翻訳文の訳質分析(機械翻訳)
- 未知固有表現を含む音声の認識([特別セッション]音声言語獲得・学習技術(2), 未知語処理)
- 複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識(音声、聴覚)
- 連続音声認識システムにおけるfactoringテーブルのコンパクト化と不要単語仮説のガーベジコレクション
- 機械翻訳によって生成された追加テキストを使った統計的言語モデルの適応
- 機械学習を用いた複数の大語彙連続音声認識モデルの出力の混合 : 旅行会話音声における評価
- 文認識率の向上に向けたFSAとNGRAMの併用モデルによる大語彙連続音声認識
- ROVER法を用いた音声認識結果の統合と誤認識文のリジェクション
- 文クラスタリングによる複数言語モデルを用いた誤認識文の推定
- 話題と文型の違いを同時に考慮した言語モデル適応
- サブワードモデルを用いた未登録語認識の効率的探索手法(音声言語情報処理とその応用)
- 構造化言語モデルとその実装
- 後続仮説数の管理機能を用いた単語グラフの仮説数削減
- 対話者の前発話を利用した統計的言語モデル
- 音声認識過程での発話分割のための統計的言語モデル(21世紀のグループウェア)
- クラスに依存した語彙の確率的記述に基づく階層型言語モデル
- 2つの単語クラスから生じた未登録語のサブワードモデルによる音声認識
- サブワードモデルを用いた未登録語認識における効率的探索手法
- サブワードネットワークに基づく未登録語処理を搭載したデコーダの構築
- 大語彙連続音声認識における未知語のsub-wordモデリング手法
- 編集距離を使った用例翻訳の高速検索方式と翻訳性能評価(自然言語)
- 大規模用例を用いた音声認識誤り訂正の検討
- 旅行会話基本表現コーパスを用いた認識誤り訂正の検討
- 旅行会話基本表現コーパスを用いた認識誤り訂正の検討
- 旅行会話基本表現コーパスを用いた認識誤り訂正の検討
- 中国語形態素コーパスと言語モデルの評価 : パラレルコーパスにおける日英両言語との比較
- 音声翻訳のための中国語対話コーパスの整備とその評価(マルチモーダル, コーパス・言語モデル)
- 音声翻訳のための中国語対話コーパスの整備とその評価(マルチモーダル, コーパス・言語モデル)
- 異種コーパスの組合せによるトリガー言語モデルの構築
- 異種コーパスの組合せによるトリガー言語モデルの構築
- 異種コーパスの組合せによるトリガー言語モデルの構築(言語モデル)(第6回音声言語シンポジウム)
- 異種コーパスの組合せによるトリガー言語モデルの構築(言語モデル)(第6回音声言語シンポジウム)
- 異種コーパスの組合せによるトリガー言語モデルの構築(言語モデル)(第6回音声言語シンポジウム)
- 信頼度尺度に基づく音声認識誤りの検出および誤り訂正(合成, 韻律, 生成, 一般)
- 単語適合率最大基準に基づく複数システムの統合
- 用例型構文解析による句構造情報を利用した言語モデル
- 木構造ネットワークサーチにおけるbigram factoringテーブルの削減
- 文クラスタリングによる複数言語モデルを用いた誤認識文の推定
- 文クラスタリングによる複数言語モデルを用いた誤認識文の推定
- 大語彙連続音声認識における未知語のsub-wordモデリング手法
- 統計翻訳指標を導入した構文トランスファに基づく用例翻訳(機械翻訳)
- 階層的句アラインメントを用いた統計的機械翻訳(自然言語処理)
- 生成方向を考慮した統計的機械翻訳のためのデコーディングアルゴリズム(自然言語)
- パラレルコーパスからの機械翻訳向け同義表現抽出(自然言語)(「インタラクション:理論,技術,応用,評価」)
- E-53 Paraphrasing by Statistical Machine Translation
- SMT指標を用いた複数翻訳エンジンからの最適訳選択
- SMT指標を用いた複数翻訳エンジンからの最適訳選択
- パターンマッチングに基づく発話意図同定のための重要語検出方法
- 発声スタイル並行コーパスを用いた発音変形の分析
- D-14-11 日本人学習者に見られる中国語声調制御難易度の分析(D-14. 音声,一般セッション)
- 対話音声合成を目指した対話音声の韻律分析
- 発話スタイル並列コーパスを用いた発音変形の分析
- 講演音声の音響的特徴分析と音響モデル構築方法の検討
- 対話音声を対象とした連続音声認識システムの試作と評価
- 発話分割付実時間音声認識
- 旅行会話タスクにおけるTARSPRECの性能評価
- 異種言語知識の併用による文法的単語グラフ生成法
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- 大語い連続音声認識のための単語仮説数削減
- Delayed decisionビーム探索の検討
- 単語グラフと可変長N-gramを用いた大語彙自然発話音声認識
- 単語グラフを用いた自由発話音声認識
- 単語グラフを用いた自由発話音声認識
- 単語グラフを用いた連続音声認識法
- 言語情報を用いた教師なしのQuasi-Bayesオンライン話者適応
- 位置依存単語クラスタと頻出単語列を用いた多重クラス複合3-gram言語モデル
- ドメインの多次元性を考慮した言語モデル適応
- 句構造間の関係を反映した言語モデル
- 品詞接続特性と単語接続特性の最大事後確率推定による融合に基づく単語クラス分類
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- 語彙クラスに依存した未登録語モデルに基づく統計的言語モデル
- 対話における相手話者の前発話に対する中間言語表現を利用した言語モデル
- 未登録語のクラス依存サブワードモデルを用いた音声認識
- 未登録語のクラス依存サブワードモデルを用いた音声認識
- 母音および無音のHMMを用いた音声始端検出法
- PARALLEL JAPANESE/ENGLISH SPEECH RECOGNITION IN ATRSPREC
- 日英音声翻訳システム「ATR-MATRIX」における音声認識部分の構造と制御方法
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- 接続の方向性を考慮した多重クラス複合N-gram言語モデル(音声情報処理 : 現状と将来技術論文特集)
- 仮説数による誤認識箇所推定尺度の評価
- TO EXPLOIT LONG HISTORY UNIT DEPENDENCIES BY LINKGRAM LANGUAGE MODELING
- 単語の長距離依存関係を表す言語モデル Linkgram
- 未登録語のクラス依存サブワードモデルを用いた音声認識
- 品詞クラスN-gramと単語N-gramの融合言語モデル
- 品詞N-gramと単語N-gramの融合言語モデル
- 接続の方向性を考慮した多重クラスN-gram言語モデル
- 接続の方向性を考慮した多重クラス複合N-gram言語モデル
- 接続の方向性を考慮した多重クラス複合N-gram言語モデル
- 多重クラスN-gramによる効率的言語モデル表現
- 接続の方向性を考慮した多重クラスN-gramモデル
- 対話音声合成を目指した対話音声の韻律分析