用例ベース翻訳の確率的モデル化
スポンサーリンク
概要
- 論文の詳細を見る
用例ベース翻訳は,これまで,経験則にもとづく指標/基準により用例を選択してきた.しかし,経験則に頼った場合,その修正を行うのが困難であり,また,アルゴリズムが不透明になる恐れがある.そこで,本研究では用例ベース翻訳を定式化するための確率モデルを提案する.提案するモデルは,翻訳確率の最も高い用例の組み合わせを探索することで,翻訳文を生成する.さらに,本モデルは用例と入力文のコンテキストの類似度を自然に翻訳確率に取り込む拡張も可能である.実験の結果,本モデルを用いたシステムは,従来の経験則によるシステムの精度を僅かに上回り,用例ベース翻訳の透明性の高いモデル化を実現することに成功した.Example-based machine translation (EBMT) systems, so far, rely on heuristic measures in retrieving translation examples, Such a heuristic measure costs time to adjust, and might make its algorithm unclear. This paper presents a probabilistic model for EBMT. Under the proposed model, the system searches the translation example combination which has the highest probability. The proposed model clearly formalizes EBMT process. In addition, the model can naturally incorporate the context similarity of translation examples. The experimental results demonstrate that the proposed model has a slightly better translation quality than state-of-the-art EBMT systems.
- 言語処理学会,The Association for Natural Language Processing,東京大学附属病院企画情報運営部,京都大学大学院情報学研究科,独立行政法人情報通信研究機構,NHK放送技術研究所,Department of Planning, Information and Management, University of Tokyo Hospital,Graduate School of Informatics, Kyoto University,National Instiの論文
- 2006-07-10
著者
-
黒橋 禎夫
情報通信研究機構
-
荒牧 英治
東京大学知の構造化センター
-
荒牧 英治
東京大学附属病院企画情報運営部
-
黒橋 禎夫
京都大学大学院情報学研究科知能情報学専攻
-
加藤 直人
Nhk放送技術研究所
-
加藤 直人
Atr音声言語コミュニケーション研究所:(現)nhk放送技術研究所
-
柏岡 秀紀
NiCT-ATR
-
柏岡 秀紀
独立行政法人情報通信研究機構
-
柏岡 秀紀
情報通信研究機構音声言語グループ:atr音声言語コミュニケーション研究所
-
柏岡 秀紀
Atr音声言語コミュニケーション研究所
-
黒橋 禎夫
京都大学大学院情報学研究科
関連論文
- Webページの情報発信者の同定
- 主要・対立表現の俯瞰的把握 : ウェブの情報信頼性分析に向けて(情報分析・要約(テーマセッション1))
- 格助詞付きWeb検索クエリを用いた関連のある概念間の関係抽出
- 依存関係確率モデルを用いた統計的句アライメント
- 情報検索尺度 Okapi-BM25 と交換可能語ペアを用いた自動ICDコーディングに関する研究
- 医学辞書を用いた用語間関係の自動抽出手法と用語の自動分類手法に関する研究
- 構文情報と医学用語属性を用いた画像診断所見オントロジーの構築の試み
- コミュニティ型コンテンツにおける重要だが無視されているコメントの抽出手法の提案
- コミュニティ型コンテンツのコンテンツホール検索の提案
- Wikipediaを用いたコンテンツホール検索の提案(セッション7a:Web解析)
- コンテンツホール検索のための掲示板対話の解析(jDBワークショップ)
- コミュニティ型コンテンツのコンテンツホール抽出手法の提案(夏のデータベースワークショップ2007(データ工学,一般))
- コミュニティ型コンテンツのコンテンツホール抽出手法の提案(ソーシャルWeb,夏のデータベースワークショップ2007(データ工学,一般))
- コミュニティ型コンテンツのコンテンツホール抽出手法の提案
- 大規模テキストコーパスからの知識獲得
- 情報爆発時代における情報管理・融合・活用基盤(情報爆発時代に向けた新しいIT基盤技術の研究)
- 表層・語彙的特徴量に基づくブログの面白さ分析(学生セッション I)
- 言語情報と映像情報の統合による物体のモデル学習と認識(自然言語,新しいパラダイムの中での分散システム/インターネット運用・管理)
- 翻訳用例の柔軟な結合に関する考察 (機械翻訳技術の向上)
- 自動通訳に向けた用語自動収集(翻訳,対話)
- 言葉が紡ぐデザイン : 意志抽出への認知言語学の構成論的アプローチ
- 小規模タグ付きコーパスと自動獲得した大規模語彙知識を用いた識別モデルに基づくゼロ照応解析
- 格フレームを考慮したWeb検索スニペット解析による動作関係抽出
- 文脈に依存した述語の同義関係獲得
- 1.キーワードサーチを超える情報爆発サーチ : 自然言語処理で価値ある未知をマイニング(パートI:情報爆発時代における新しい基盤技術,情報爆発時代におけるわくわくするITの創出を目指して)
- 用例ベース翻訳の確率的モデル化
- 機械翻訳最新事情 : (下)評価型ワークショップの動向と日本からの貢献
- 帰属文書数に基づく Web ページ情報発信者の専門性分析
- 帰属文書数に基づくWebページ情報発信者の専門性分析
- 帰属文書数に基づくWebページ情報発信者の専門性分析
- メッセージの背後に潜む「問い」の抽出
- 多言語コミュニティヘの用例ベース翻訳の適用(言語グリッドと異文化コラボレーション)
- 情報の信頼性分析に向けた評価データおよびプロトタイプシステムWISDOM
- 情報の信頼性分析に向けた評価データおよびプロトタイプシステムWISDOM(QA・Web検索)
- 事例の重み付けに基づく自動獲得されたコーパスの効果的な利用法と評価極性分類への応用(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 隠れ変数を持つ条件付き確率場による依存構造木の評価極性分類 (言語理解とコミュニケーション)
- コンテンツホール検索のための掲示板対話の解析(jDBワークショップ)
- 用例ベース翻訳のための日英アライメント確信度語類似度を用いた訳語選択
- 表層的語彙分布に基づく談話/テクストの主観性・主体性分析に向けて
- 用例ベース翻訳のための対訳文の句アライメント
- Webページの大規模収集・検索基盤の構築と運用
- Webページの大規模収集・検索基盤の構築と運用
- 隠れ変数を持つ条件付き確率場による依存構造木の評価極性分類
- E-001 Web文書からの主観的・客観的評価表現の抽出(自然言語・音声・音楽,一般論文)
- D-036 Web情報信頼性分析のためのページ外観情報の抽出(データベース,一般論文)
- D-035 Webページの著者の同定(データベース,一般論文)
- RE-002 二段階の機械学習を用いたボトムアップ型の固有表現認識(自然言語・音声・音楽,査読付き論文)
- 言語の理解へ
- キーワード蒸留型クラスタリングによる大規模ウェブ情報の俯瞰
- クエリの語句の重要度と係り受けを考慮した自然文検索(検索・対話)
- クエリの語句の重要度と係り受けを考慮した自然文検索(検索・対話)
- 依存関係確率モデルを用いた統計的句アライメント (機械翻訳技術の向上)
- 大域的情報を用いた日本語固有表現認識
- 主要・対立表現の俯瞰的把握 : ウェブの情報信頼性分析に向けて(情報分析・要約(テーマセッション1))
- 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報クラスタリングシステムの構築(Web情報アクセス)
- 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報クラスタリングシステムの構築(Web情報アクセス)
- 自動構築した大規模格フレームに基づく構文・格解析の統合的確率モデル
- 格フレームを用いた自然言語処理(下)格フレームに基づく構文・格解析とその応用
- 格フレームを用いた自然言語処理(上)基本語彙の整理と格フレームの自動獲得
- 高性能計算環境を用いたWebからの大規模格フレーム構築
- 名詞格フレーム辞書の自動構築とそれを用いた名詞句の関係解析
- 格フレーム辞書の漸次的自動構築
- 表層・語彙的特徴量に基づくブログの面白さ分析(学生セッション I)
- 自動獲得した名詞関係辞書に基づく共参照解析の高度化
- 会話コンテンツ獲得と管理(会話情報学)
- 依存関係確率モデルを用いた統計的句アライメント
- 形態論的制約を用いたオンライン未知語獲得
- クエリの語句の重要度と係り受けを考慮した自然文検索 (情報学基礎・自然言語処理)
- E-009 長い複合名詞の構造的な固有表現認識(自然言語・音声・音楽,一般論文)
- B33 科学技術文献を対象とする日中・中日機械翻訳 : 日中・中日言語処理技術の研究開発 その1(セッションB3情報システム構築2,一般発表概要,第7回情報プロフェッショナルシンポジウム)
- 4ZK-10 検索結果クラスタリングのためのページタイプの自動識別(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 言語情報と映像情報を統合した隠れマルコフモデルに基づくトピック推定(自然言語)
- 同位語を利用した不在インデックス
- 同位語を利用した不在インデックス
- 基本語ドメイン辞書の構築と未知語ドメイン推定を用いたブログ自動分類法への応用
- 述語項構造の共起情報と格フレームを用いた事態間知識の自動獲得
- 整合性尺度を用いた構造的アラインメント
- Web時代の音声・言語技術
- 3.情報爆発時代のWebのサーチ・分析技術(情報爆発が創り出すサイバーフィジカルな情報処理)
- 機械翻訳の現状と課題(機械翻訳)
- 構文・照応・評価情報つきブログコーパスの構築
- E-003 大規模ウェブ情報クラスタリングにおけるラベルの組織化(自然言語・音声・音楽,一般論文)
- 談話構造解析に基づくスライドの自動生成
- 料理教示発話の理解と作業構造の自動抽出(特別セッション「言語理解と行動」(2))
- 料理教示発話の理解と作業構造の自動抽出(特別セッション : 言語理解と行動(2))
- 大規模格フレームを用いた識別モデルに基づく日本語ゼロ照応解析
- 2.TSUBAKI : 深い言語処理を特長とするオープンサーチエンジン基盤(パートII:情報分野研究者のためのオンリーワン共有イノベーションプラットフォーム,情報爆発時代におけるわくわくするITの創出を目指して)
- 構造を持った定型表現の自動獲得と機械翻訳での利用 (機械翻訳技術の向上)
- 情報の信頼性評価に関する基盤技術の研究開発(情報の信頼性評価)
- 日本語未知語のテキストからの自動獲得(知識発見,第1回テキストマイニング・シンポジウム)
- 大規模語彙的知識に基づく受身形と能動形の表層格の対応付け
- 会話型知識プロセスのためのテキストの自動プレゼンテーション (2005年情報学シンポジウム講演論文集--社会システムを支える情報学) -- (セッション5:知識獲得・記述の支援)
- テキストの表層情報と潜在情報を利用した適合性フィードバック
- ユニット制約の緩和による柔軟な日本語文圧縮
- ユニット制約の緩和による柔軟な日本語文圧縮
- 日中共通漢字の整理とこれを利用した日中機械翻訳の高度化 (特許情報普及活動功労者表彰 発足記念版) -- (機械翻訳技術の向上)
- 言語コンピューティング(知能コンピューティングとその周辺〔第4回〕)
- 語彙と文脈情報を用いた反義の詳細クラス分類
- 言語のセマンティックス(セマンティックコンピューティング)
- 世界の言語研究所(19)言語資料コンソーシアム(Linguistic Data Consortium:LDC)(アメリカ合衆国)