同義語情報を用いた確率的単語アライメントモデル
スポンサーリンク
概要
- 論文の詳細を見る
二言語間の教師なし単語アライメント問題に対して,単言語リソースである同義語辞書情報を利用して単語対応付けの精度を向上させる手法を提案する.対訳文には同じ意味を表す様々な表現が用いられるため,同義語情報を利用することでデータスパースネスの問題を解消し単語アライメントの精度向上が期待できる.しかし,単語には多義性があり,ある単語ペアが同義語であるかどうかは文脈に大きく依存する.そこで,我々はトピックモデルを利用して,同義語情報を文脈に応じて学習させる同義語の確率モデルを考案する.さらに,同義語モデルを既存の単語アライメントモデルと同時に学習させる枠組みを提案する.対訳コーパスを用いたアライメント実験の結果,同義語情報を用いない場合や,同義語情報を文脈を考慮せずに同義語情報を利用した場合に比べて,提案手法では高い精度が得られることを確認した.
- 2010-09-21
著者
-
藤野 昭典
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
永田 昌明
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
進藤 裕之
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
永田 昌明
NTTコミュニケーション科学基礎研究所
-
藤野 昭典
NTTコミュニケーション科学基礎研究所
関連論文
- 複数の構成要素データを扱う多クラス分類器の半教師あり学習法
- 複数の構成要素データを扱う多クラス分類器の半教師あり学習法(Session 1)
- テキスト自動分類のための半教師あり学習技術 (特集 コミュニケーション環境の未来に向けた研究最前線)
- 半教師あり学習に基づく異種情報データの分類(テーマセッション(4),パターン認識・メディア理解のための学習理論とその応用)
- 半教師あり学習のための生成・識別ハイブリッド分類器の設計法
- 最大エントロピー原理に基づく付加情報の効果的な利用によるテキスト分類(情報検索)
- LI-009 生成・識別ハイブリッドモデルに基づく半教師あり学習(I分野:画像認識・メディア理解)
- ラベルあり・なしデータの最適な結合に基づくパターン分類(学習理論とパターン認識メディア理解, 学習理論とパターン認識メディア理解, 機械学習による自然言語処理・言語処理を利用したメディア理解, 一般)
- 文書の構成要素モデルのアンサンブル学習に基づくテキスト分類(一般)
- LD-001 交差確認法に基づく適合性フィードバック(D. データベース)
- コーパスからのキーワード自動抽出(抽出)
- 生成・識別モデルの統合に基づく半教師あり学習法とその多重分類への応用
- F値最大化学習に基づく文書の多重ラベリング(機械学習)
- 高次元特徴空間に適した半教師あり条件付確率場の検証(機械学習)
- ラベルあり・なしデータの最適な結合に基づくパターン分類(学習理論とパターン認識メディア理解, 学習理論とパターン認識メディア理解, 機械学習による自然言語処理・言語処理を利用したメディア理解, 一般)
- 適合フィードバックにおける単語選択法(検索・多義性解消)
- 無声子音における舌・唇と喉頭の調音運動の時間関係の分析
- 無声子音における調音・声門運動のタイミングの分布 - 促音の有無による比較 -
- ラベルありデータの選択バイアスに頑健な半教師あり学習
- 同義語情報を用いた確率的単語アライメントモデル
- 適合性分布が異なる情報源を用いたランキング学習
- Wikipediaからの大規模な人オントロジー構築
- 生成・識別モデルの統合に基づく半教師あり学習法とその多重分類への応用
- 日本語語彙大系を用いたWikipediaからの汎用オントロジー構築
- 機械翻訳最新事情 : (下)評価型ワークショップの動向と日本からの貢献
- 機械翻訳最新事情 : (上)統計的機械翻訳入門
- 統計的機械翻訳(自然言語とコンピュータ)
- 意味的等価性検証に基づく記述式解答文の採点法(テキストの類似性・文処理モデル)
- 意味的等価性検証に基づく記述式解答文の採点法(テキストの類似性・文処理モデル)
- Wikipedia からの大規模な人オントロジー構築
- 無声子音発声時の舌・喉頭運動における発声の強さの影響(聴覚,音声,言語とその障害)
- 無声子音の発話運動における発声の強さの影響の分析
- 音声生成における発話協調動作機構
- 促音が先行する無声子音の調音・声門運動タイミングの分析
- 口蓋形摂動に対する調音補償動作の分析
- 無声子音の生成における声門運動の時間パタンの分析
- 無声子音生成における調音器官と声門の運動タイミングの分析
- 磁気センサシステムおよびフォトグロットグラフを用いた調音器官と声門の運動観測
- SLP・NL合同セッション「ここまでできるぞ音声/言語処理技術」 : 言語編
- SLP・NL合同セッション「ここまでできるぞ音声/言語処理技術」 : 言語編 : 1 言語処理技術の現状
- D-12-67 「領域抽出不要型文字認識」に基づく景観中単語認識(D-12. パターン認識・メディア理解, 情報・システム2)
- クロス言語情報検索と多言語情報アクセスシステム (特集論文1 高度検索技術)
- Support Vector Machine を使ったモーラ列からの日本語姓名のアクセント推定(音声, 聴覚)
- マルチメディア時代を支える言語処理技術 (特集論文 メディア処理技術)
- 音声翻訳実験システム(ASURA)のシステム構成と性能評価
- 発話タイプ付きコーパスを用いた確率的対話モデルの自動生成
- 単一化に基づく構文解析における制約の選択的適用
- 音声制御ブラウザ VCWeb の英日シームレス化
- 日本語語彙大系を用いた Wikipedia からの汎用オントロジー構築
- 経験強化を考慮したQ-Learningの提案とその応用
- 表層情報を利用したネットニュース領域構造解析
- 表層情報を利用したネットニュース領域構造解析
- チャートパーザによる音声認識候補の効率的解析手法
- 汎用的な意味解析技術への挑戦 (特集 ポータルサービスを支える自然言語処理技術)
- テキスト分類 : 学習理論の「見本市」(情報論的学習理論とその応用)
- ループを含む素性構造単一化における構造共有手法
- 日本語教育のための誤り訂正ローマ字かな変換
- 日本語OCRのための表記と読みの同時形態素解析
- 大規模データを用いた半教師あり学習による高精度係り受け解析モデルの学習
- 構文・照応・評価情報つきブログコーパスの構築
- 日本語語義曖昧性解消のための訓練データの自動拡張
- 再学習による翻訳モデルを用いた単語アライメントの向上
- 予測尤度最大化に基づく誤分類サンプルの検出 (情報論的学習理論と機械学習)
- 言語横断情報検索における画像手がかりを用いたインタラクティブな翻訳曖昧性解消の評価
- 統計的言語モデルとN-best探索を用いた日本語形態素解析法
- 未知語の確率モデルと単語の出現頻度の期待値に基づくテキストからの語彙獲得
- Pitman-Yor過程に基づく確率的木挿入文法モデル
- 予測尤度最大化に基づく誤分類サンプルの検出(ポスターセッション,第14回情報論的学習理論ワークショップ)
- カテゴリ名と記事名の意味属性分類に基づくWikipediaからの上位下位関係オントロジーの構築
- 統計的文法獲得モデルのための部分木ブロック化サンプリング法
- 予測尤度最大化に基づく誤分類サンプルの検出
- カテゴリ名と記事名の意味属性分類に基づく Wikipedia からの上位下位関係オントロジーの構築
- 統計的文法獲得モデルのための擬似部分木ブロック化サンプリング法
- 画像検索を用いた語義別画像付き辞書の構築
- 語順の相関に基づく機械翻訳の自動評価法