用例ベース翻訳のための日英アライメント確信度語類似度を用いた訳語選択
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,内容レベルで対応のとれている対訳記事コーパスを用いて,用例ベース翻訳を実現する手法を提案する.まず,対訳コーパスの文・句アライメントを行い,確信度の高いものを抽出し,翻訳用例データベースに登録する.次に,与えられた入力文と類似しており,かつ,アライメント確信度の高い翻訳用例をデータベースから選択し,翻訳文を生成する.訳語選択という観点からおこなった実験は82%の精度であり,用例ベース翻訳が可能であることを実証的に示す.We propose a method of constructing an example-based machine translation (EBMT) system that exploits a content-aligned bilingual corpus. First, the sentences and phrases in the corpus are aligned across the two languages, and the pairs with high translation confidence are selected and stored in the translation example database. Then, for a given input sentences, the system searches for fitting examples based on both the monolingual similarity and the translation confidence of the pair, and the obtained results are then combined to generate the translation. Our experiments on translation selection showed the accuracy of 82% demonstrating the basic feasibility of our approach.
- 言語処理学会,The Association for Natural Language Processing,東京大学大学院情報理工学系研究科,ATR音声言語コミュニケーション研究所,Graduate School of Information Science and Technology, The University of Tokyo,ATR Spoken Language Translation Reserch Laboratoriesの論文
- 2004-01-10
著者
-
荒牧 英治
東京大学知の構造化センター
-
荒牧 英治
東京大学附属病院企画情報運営部
-
柏岡 秀紀
NiCT-ATR
-
柏岡 秀紀
独立行政法人情報通信研究機構
-
柏岡 秀紀
情報通信研究機構音声言語グループ:atr音声言語コミュニケーション研究所
-
柏岡 秀紀
Atr音声言語通信研究所
-
柏岡 秀紀
Atr音声言語コミュニケーション研究所
-
田中 英輝
ATR音声言語コミュニケーション研究所
-
田中 英輝
NHK放送技術研究所
-
黒橋 禎夫
東京大学大学院情報理工学系研究科
-
田中 英輝
ATR 音声言語コミュニケーション研究所
-
荒牧 英治
東京大学大学院情報理工学系研究科
関連論文
- 格助詞付きWeb検索クエリを用いた関連のある概念間の関係抽出
- 京都観光案内対話コーパスにおける対話行為タグの設計と分析(理解)
- 同調的対話システム構築のための音声対話コーパスの構築(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 情報検索尺度 Okapi-BM25 と交換可能語ペアを用いた自動ICDコーディングに関する研究
- 医学辞書を用いた用語間関係の自動抽出手法と用語の自動分類手法に関する研究
- 構文情報と医学用語属性を用いた画像診断所見オントロジーの構築の試み
- 言語獲得ロボットによる発話理解確率の推定に基づく物体操作対話 (第27回日本ロボット学会学術講演会論文特集号(2))
- コミュニティ型コンテンツにおける重要だが無視されているコメントの抽出手法の提案
- コミュニティ型コンテンツのコンテンツホール検索の提案
- Wikipediaを用いたコンテンツホール検索の提案(セッション7a:Web解析)
- コンテンツホール検索のための掲示板対話の解析(jDBワークショップ)
- コミュニティ型コンテンツのコンテンツホール抽出手法の提案(夏のデータベースワークショップ2007(データ工学,一般))
- コミュニティ型コンテンツのコンテンツホール抽出手法の提案(ソーシャルWeb,夏のデータベースワークショップ2007(データ工学,一般))
- コミュニティ型コンテンツのコンテンツホール抽出手法の提案
- 統計的対話モデルを用いたWFSTに基づく音声対話システム
- 同調的対話を実現するプロトタイプシステムの開発(対話・インタフェース・インタラクション)
- 関連記事を利用したテキストセグメンテーション
- 節の始境界検出に基づく独話文の係り受け解析
- 言葉が紡ぐデザイン : 意志抽出への認知言語学の構成論的アプローチ
- DiaLeague : 自然言語処理システムの総合評価
- 音声認識の信頼度・複数候補を利用したWFST対話システムの評価
- 相談型対話のモデル化と対話戦略の最適化
- 格フレームを考慮したWeb検索スニペット解析による動作関係抽出
- 科学技術コミュニケーションにおける対話のデザイン : 自律型対話の実践に向けて(実践的多人数インタラクションの動向と展望)
- 発話連鎖からみた情報要求発話の機能(分析、生成と評価)(音声とコミュニケーション及び一般)
- 発話連鎖からみた情報要求発話の機能
- 音声認職の信頼度・複数候補を利用したWFST対話システムの評価
- 用例ベース翻訳の確率的モデル化
- 多言語パラレルコーパスを利用した言い換え表現グループの構築と分析
- 対話者の社会的役割を利用した訳し分け手法
- 固有表現抽出器を用いた、非直訳文書対からの固有表現翻訳対獲得(対訳表現獲得)
- 階層化言語モデルによる音声ドキュメントの検索(言語モデル)
- 講演の同時通訳データ作成と分析
- 1N-7 異なる辞書を利用した意味コードの自動付与
- 詳細な文法を用いた統計的構文解析法
- 決定木学習による形態素解析 (言語・音声理解と対話処理研究会(第17回))
- Probabilistic Decision-Tree Tagging Without A Dictionary
- 対話システムの評価における一般的推論能力の要請
- The ATR/Lancaster General-American-English Treebank
- A New Approach To Treebank Creation
- 相互情報量を用いた単語の分類における出現頻度の低い単語の処理手法
- 構文木コーバスの再構成手法
- 構文木データべース作成用ツール
- 音声言語処理のためのコ-パスとタギング(チュ-トリアル講演)
- 4.ライフログに基づく実世界でのコンテンツ利活用(ライフログ)
- コンテンツホール検索のための掲示板対話の解析(jDBワークショップ)
- 独話データのポーズ単位を利用した節境界判定(言語解析, 対話)
- 文脈素性のベクタ空間モデルを用いた日英翻訳選択 : SENSEVAL-2 日本語翻訳タスク参加システムの開発
- 節の始端検出に基づく独話文の係り受け解析(一般(ポスターセッション),第9回音声言語シンポジウム)
- 節の始端検出に基づく独話文の係り受け解析(一般(ポスターセッション),第9回音声言語シンポジウム)
- 節の始端検出に基づく独話文の係り受け解析(一般(ポスターセッション),第9回音声言語シンポジウム)
- 節境界に基づく独話の漸進的係り受け解析(自然言語処理)
- 同時的な独話音声要約に基づくリアルタイム字幕生成(要約・分割)
- 節境界単位での漸進的な独話係り受け解析
- 節境界に基づく独話文係り受け解析の効率化(仮名漢字変換・形態素構文解析)
- 日本語節境界検出プログラムCBAPの開発と評価
- 用例ベース翻訳のための日英アライメント確信度語類似度を用いた訳語選択
- 単語類似度の尺度比較支援ツールの作成(言語知識・解析・言い換え)
- ATR-SLTシステム-SENSEVAL-2日本語翻訳タスク
- 用例ベース翻訳のための対訳文の句アライメント
- 用例ベース翻訳のためのパラレルコーパスからの対訳対発見
- 用例ベース翻訳のためのパラレルコーパスからの対訳対発見
- WikipediaとWebの情報を組み合わせたオントロジー構築の試み
- i2b2-NLPシェアードタスク・ワークショップに参加して
- WikipediaとWebの情報を組み合わせたオントロジー構築の試み(Web情報オントロジー,データ工学論文)
- DK-2-10 自然言語処理による診断支援技術の開発(DK-2.JSTさきがけセッション:人と社会のための情報処理,ソサイエティ企画)
- DK-2-10 自然言語処理による診断支援技術の開発(DK-2.JSTさきがけセッション:人と社会のための情報処理,ソサイエティ特別企画,ソサイエティ企画)
- 意志決定を支援する音声対話システムの構築と評価
- Twitter Catches the Flu:事実性判定を用いたインフルエンザ流行予測
- Twitter Catches the Flu:事実性判定を用いたインフルエンザ流行予測
- 災害時Twitterにおけるデマとデマ訂正RTの傾向
- 災害時Twitterにおけるデマとデマ訂正RTの傾向
- 音声対話型観光案内システムにおける誤応答リカバリー効果の評価
- 東日本大震災におけるTwitterの利用傾向の分析
- 東日本大震災におけるTwitterの利用傾向の分析
- 東日本大震災におけるTwitterの利用傾向の分析
- 言語獲得ロボットによる発話理解確率の推定に基づく物体操作対話
- Network-based spoken dialog system development platform: WFSTDM builder (音声)
- Web時代の音声・言語技術
- 機械翻訳の現状と課題(機械翻訳)
- Wikipedia と Web の情報を組み合わせたオントロジー構築の試み
- 22aGU-9 マイクロブログにおける日本語使用の変化と新語のモデル化(22aGU 生物・生態系・経済物理学1,領域11(統計力学,物性基礎論,応用数学,力学,流体物理))
- ネットワーク型音声対話システム開発ツール : WFSTDMビルダー(音声対話,認識,理解,対話,一般)
- 災害時と平常時Twitterにおけるデマとデマ訂正ツイートの特徴分析(ソーシャルネットワークモデルとツイッター,e-science and Big Data,一般)
- テキストのk-匿名化
- マイクロブログにおける流言の特徴分析
- 文章分類と疾患モデルの融合によるソーシャルメディアからの感染症把握 (特集号「不自然言語処理 枠に収まらない言語の処理」)
- 観光案内への音声対話システムの活用
- 災害時と平常時 Twitter におけるデマとデマ訂正ツイートの特徴分析
- ソーシャルメディア上の位置情報付きテキストを利用した行動分析
- ソーシャルメディア上の位置情報付きテキストを利用した行動分析
- Twitterを用いた電車遅延の自動通知
- Twitterを用いた電車遅延の自動通知
- 音声対話による観光案内システムの開発と多言語化 : 音声対話システムAssisTraの研究開発から得られた知見と課題(音声対話システムの実用化に向けて)
- マイノリティのための情報処理 -難病支援を題材に-
- 文章分類と疾患モデルの融合によるソーシャルメディアからの感染症把握
- 人間による訂正情報に着目した流言拡散防止サービスの構築
- 多言語音声翻訳システム"VoiceTra"の構築と実運用による大規模実証実験(音声,聴覚,システム開発論文)
- ソーシャルメディアからの地域固有表現の抽出(地域情報&ソーシヤルメデイア,第4回集合知シンポジウム)
- 患者と医師が使う言葉の違い : 闘病記の医学的な応用に向けて(パーソナルデータに基づく気付きの創発)