World Wide Webからの対訳データの自動収集
スポンサーリンク
概要
- 論文の詳細を見る
World Wide Web(WWW)上には、膨大なテキスト情報が蓄積されており、同一の内容を複数の言語で提供しているページも数多く存在する。これらのWWW上の対訳ページを利用し、対訳コーパスを自動的あるいは半自動的に構築することができれば、コーパス作成に要する人的資源、時間、費用などを大幅に削減することができる。我々は、WWWから日本語と英語の対訳データを自動収集する実験的なシステムを構築した。本稿では、このシステムの概要について紹介する。
- 一般社団法人情報処理学会の論文
- 1998-11-05
著者
関連論文
- PPM^*言語モデルを用いた日本語単語分割
- PPM^*モデルによる日本語単語分割
- 単語の位置情報に基づくコーパスからのコロケーションの自動抽出
- 単語の出現位置情報を用いたコーパスからのコロケーションの自動抽出
- 文字クラスモデルによる日本語単語分割
- 文字クラスモデルに基づく日本語単語分割
- 講義映像配信システムにおける講義映像と資料の対応
- フィルタバンク特徴量とEarth Mover's Distanceを用いた音楽検索
- 教師あり学習によるベクトル空間情報検索モデルの精度改善
- 仕事量基準を用いたコーパスからの定型表現の自動抽出
- D-020 WWW画像検索システムにおける有害画像フィルタリング手法(D分野:データベース)
- 発話タイプ付きコーパスを用いた確率的対話モデルの自動生成
- 確率・統計的手法による対話構造のモデル化
- 確率・統計モデルの音声言語処理への応用 ( 「コーパスに基づく音声・自然言語処理」)
- 音声言語の確率モデル ( 「コーパスに基づく音声・自然言語処理」)
- 単語の出現位置情報を用いたコーパスからのコロケーションの自動抽出
- Earth Mover's Distance の高速検索ライブラリ fastEMD の開発
- 字幕付き映像データからの字幕領域の検出手法
- 中国の自然言語処理について
- MPEG映像データに対するカットシーンの高速検出手法
- 距離反比例型スコアを導入したコロケーションの自動抽出法
- 自由発話音声認識における音響分析の比較
- World Wide Webからの対訳データの自動収集
- 情報検索のための概念ベクトル生成手法
- PDDPによる概念ベクトルを用いた情報検索システム
- PDDPによる概念ベクトルを用いた情報検索システム
- ランダム・プロジェクションによるベクトル空間モデルの次元削減
- オーディオ指紋検索に適した高速なハミング空間検索
- LRパーザ制御によるOne-pass型連続音声認識アルゴリズム
- サポートベクターマシンによる適合性フィードバックを用いた情報検索
- ETSI標準分散音声認識フロントエンドを用いた音声認識実験
- 音素依存線形判別分析の検討
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- Non-negative Matrix Factorizationを用いた情報検索
- 情報検索システムの統計的手法による特徴と精度の分析
- ランダム・プロジェクションによるベクトル空間情報検索モデルの次元削除
- 解散フーリエ変換を用いたベクトル空間モデルの次元削減
- 教師あり学習によるベクトル空間モデルの精度改善
- 検索質問多重化による高速なオーディオ指紋検索