日英単言語Webコーパスからの対訳treebank自動獲得

概要

論文の詳細を見る
大規模な日本語と英語の単言語 Web コーパスから,動詞を含む頻出部分構文木を探索して対訳辞書を用いて対応付けし,対訳の部分構文木 (対訳 treebank) を幅広く獲得する手法を提案する.提案手法を用いた実験で,日本語 36 億文,英語 15 億文の単言語 Web コーパスから動詞と目的語を含む対訳の頻出部分構文木を幅広く獲得した.獲得した対訳を利用した機械翻訳の実験により,NTT 機械翻訳機能試験文の翻訳において自動獲得した対訳の有効性が確認された.
一般社団法人情報処理学会の論文
2009-07-15

著者

河原大輔
情報通信研究機構
鳥澤健太郎
情報通信研究機構
内元清貴
情報通信研究機構
内元清貴
独立行政法人情報通信研究機構
内元清貴
通信総合研
鳥澤健太郎
情報通信研究機構知識創成コミュニケーション研究センター
後藤功雄
情報通信研究機構知識創成コミュニケーション研究センター
鳥澤健太郎
情報通信研究機構知識創成コミュニケーション研究センター
河原大輔
情報通信研究機構知識創成コミュニケーション研究センター
後藤功雄
情報通信研究機構

関連論文

Webページの情報発信者の同定
主要・対立表現の俯瞰的把握 : ウェブの情報信頼性分析に向けて(情報分析・要約(テーマセッション1))
NICTにおける音声・言語研究拠点MASTARプロジェクトについて(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
日本語発話文の敬語の誤用を指摘するシステム(人工知能)
日本人英語における実践的コミュニケーション能力の発達段階の分析 : 誤りが通じやすさに及ぼす影響を指標として(言語と学習)
話し言葉の整形作業における削除箇所の自動同定(音声言語処理)
言語資源の用途情報の抽出と利用(情報抽出・評判分析)
日本語文生成における語彙選択に必要な要因とその性質
話し言葉における引用節・挿入節の自動認定および係り受け解析への応用
日英単言語Webコーパスからの対訳treebank自動獲得 (言語理解とコミュニケーション)
3D-1 言語資源メタデータデータベースSHACHIの構築と利用(自然言語処理,一般セッション,人工知能と認知科学)
日本語話し言葉コーパスとその構築技術 (ヒューマンコミュニケーション特集) -- (自然言語)
話し言葉における引用節の自動認定および引用符の付与(第8回音声言語シンポジウム)
話し言葉における引用節の自動認定および引用符の付与(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
話し言葉における引用節の自動認定および引用符の付与
学習者発話におけるintelligibilityに関する一考察(言語の学習・教育)
AS-4-3 敬語の誤用を指摘するシステム : GUIの実装(AS-4.円滑なコミュニケーション,シンポジウム)
LE-002 テンス・アスペクト・モダリティの翻訳における機械翻訳システムの誤りの調査(E分野:自然言語)
日本語話し言葉の係り受け解析と文境界推定の相互作用による高精度化
『日本語話し言葉コーパス』における自己修復部(Dタグ)の自動検出および修正に関する検討(合同セッション「対話」)
エラータグ付き学習者コーパスを用いた日本人英語学習者の主要文法形態の習得順序に関する分析
学習者コーパスからの表現バリエーションの抽出と言い換えストラテジー指導への利用
コーパス・シソーラスに基づいた英語形容詞の意味拡張の調査・分析 (ことば工学研究会(第19回)テーマ:ことばで/から/に表現出来ること)
自然言語処理技術を用いた大会プログラム作成支援について
用例ベースによるテンス・アスペクト・モダリティの日英翻訳
SENSEVAL2J 辞書タスクでのCRLの取り組み : 日本語単語の多義性解消における種々の機械学習手法と素性の比較
QAシステムのための音声入力インターフェース
情報爆発と音声アプリケーションの可能性 - 言語処理研究者の考察 -
日本語名詞の意味マップの自己組織化
SOMを用いた日本語意味マップの自己組織化
意味ソート msort : 意味的並べかえ手法による辞書の構築例とタグつきコーパスの作成例と情報提示システム例
意味ソートmsort : 意味的並べかえ手法による辞書の構築例とタグつきコーパスの作成例と情報提示システム例
機械学習を用いた日本語機能表現のチャンキング
メッセージの背後に潜む「問い」の抽出
正誤判別規則学習を用いた複数の日本語固有表現抽出システムの出力の混合
正誤判別規則学習を用いた複数の日本語固有表現抽出システムの出力の混合
特集「情報処理技術のフロンティア」の編集にあたって(情報処理技術のフロンティア)
1.機械翻訳を用いた異文化コラボレーション(異文化コラボレーション)
話し言葉における引用節の自動認定および引用符の付与(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
機械学習を用いた日本語複合辞のチャンキング(抽出, 言い換え)
『日本語話し言葉コーパス』における自己修復部(Dタグ)の自動検出および修正に関する検討(合同セッション「対話」)
最大エントロピーモデルに基づく形態素解析 : 未知語の問題の解決策
最大エントロピー法に基づくモデルを用いた日本語係り受け解析
文末から解析する統計的係り受け解析アルゴリズム
MEによる日本語係り受け解析
用例に基づく手法と機械学習モデルの組合せによる訳語選択
表層表現に着目した自由回答アンケートの意図に基づく自動分類
表層的語彙分布に基づく談話/テクストの主観性・主体性分析に向けて
言葉の背後に潜む『問い』の抽出 (ことば工学研究会(第14回)テーマ:ことばと身体性)
日英単言語Webコーパスからの対訳treebank自動獲得
日英単言語 Web コーパスからの対訳 treebank 自動獲得
Webページの大規模収集・検索基盤の構築と運用
Webページの大規模収集・検索基盤の構築と運用
D-035 Webページの著者の同定(データベース,一般論文)
文末表現に着目した自由回答アンケートの分類
モノの用途表現を手がかりとした Web からのノウハウの獲得
モノの用途表現を手がかりとしたWebからのノウハウの獲得
モノの用途表現を手がかりとしたWebからのノウハウの獲得
位置情報と分野情報を用いた情報検索
最大エントロピーモデルと書き換え規則に基づく固有表現抽出
話し言葉の整形作業における削除箇所の自動同定(音声言語処理)
格フレームの対応付けに基づく用言の言い換え
主要・対立表現の俯瞰的把握 : ウェブの情報信頼性分析に向けて(情報分析・要約(テーマセッション1))
日本語慣用句コーパスの構築と慣用句曖昧性解消の試み(語彙知識)
日本語慣用句コーパスの構築と慣用句曖昧性解消の試み(語彙知識)
自動構築した大規模格フレームに基づく構文・格解析の統合的確率モデル
格フレームを用いた自然言語処理(下)格フレームに基づく構文・格解析とその応用
格フレームを用いた自然言語処理(上)基本語彙の整理と格フレームの自動獲得
高性能計算環境を用いたWebからの大規模格フレーム構築
名詞格フレーム辞書の自動構築とそれを用いた名詞句の関係解析
格フレーム辞書の漸次的自動構築
自動構築した格フレーム辞書と先行詞の位置選好順序を用いた省略解析
用言と直前の格要素の組を単位とする格フレームの自動構築
用言と直前の格要素の組を単位とする格フレームの自動獲得
京都大学自然言語処理ツール
講演音声認識のための言語モデルの教師なし適応
講演音声認識のための言語モデルの教師なし適応
講演音声認識のための言語モデルの教師なし適応
日本語文と英語文における統語構造認識とマジカルナンバー7±2
構文・照応・評価情報つきブログコーパスの構築
翻訳メモリとコーパスを用いた学習に基づく訳語選択
SENSEVAL2J辞書タスクでのCRLの取り組み
種々の機械学習手法を用いた多義解消実験
サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳
サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳
言語横断共訓練による単語間の上位下位関係の獲得
用例ベースによるテンス・アスペクト・モダリティの日英翻訳
後方文脈を考慮した係り受けモデル
ニューラルネットとルールベース手法を統合した品詞タグづけシステム
コーパスからの語順の学習
統計的手法による換慮の解釈
決定リスト, 用例ベース手法を用いたコーパス誤り検出・誤り訂正
決定リスト, 用例ベース手法を用いたコーパス誤り検出・誤り訂正
統計的手法による換喩解析
モノの使われ方の情報がノウハウ獲得に与える影響(人工知能、データマイニング,学生論文)
言語資源の用途情報の獲得と利用(人工知能,電子情報通信分野における萌芽的研究論文)
Wikipedia を利用した上位下位関係の詳細化
言語資源の用途情報の獲得と利用
意味的極性と単語クラスを用いたWhy型質問応答の改善
名詞の類似表現拡張に基づくオープンドメイン音声質問応答システム用言語モデルの構築

日英単言語Webコーパスからの対訳treebank自動獲得

スポンサーリンク

概要

著者

関連論文

スポンサーリンク