長い日本語表現の高速類似検索手法
スポンサーリンク
概要
- 論文の詳細を見る
著者らは用例提示型日英翻訳支援システムを開発している. この中にはユーザが入力する日本語表現の類似表現を検索し, これを含む日本語文と英訳を提示する機能がある. 著者らの日本語データベースの文は平均長88.9文字と長い. このような長文を対象に日本語表現の類似検索を行う場合, 従来のキーワードを使ったBoolean検索は適切でない. なぜならデータベースの一文中に同ーキーワードがいくつも出現するため雑音を検索しやすいからである. 特に入力が長いとこちらにも同一キーワードが出現して問題となる. これに対し著者らは入力キーワードの語順とその間隔を考慮した検索手法を提案する. これは構文解析を行わず近似的に構文を考慮する手法である. 本稿では(1)提案手法, (2)Boolean検索, (3)キーワードの語順を考慮する手法を考察して実験的に比較する. そして提案手法の検索結果の適合性が最も高いことを示す. さらに本手法が結果の提示手法としても優れていることを示す.
- 一般社団法人情報処理学会の論文
- 1997-09-11
著者
関連論文
- 単語格子とマルコフモデルによる日本語機能表現の解析 : 日本語機能表現辞書「つつじ」を用いて(解析)
- 部分文字列への最適な分割と文脈を考慮した変換による翻字処理(自然言語処理)
- 統計的特徴を利用した機能語の自動認定実験(多言語処理・質問応答)
- やさしい日本語によるニュースの書き換え実験
- 文融合法に基づいた放送ニュースリード文の具体化
- ニュース要約のための簡易文脈解析(情報抽出・ラベル付与)
- E-011 長さ制限のない未知語形態素候補の自動生成(E分野:自然言語・音声・音楽)
- World Wide Webを用いた外国人名の英訳自動獲得(自然言語)
- World Wide Webからの外国人名の英訳自動獲得 (放送サービスに応用される翻訳・要約技術 特集号)
- 最ゆう単語列逐次比較による音声認識結果の早期確定
- 翻訳用例提示システムの設計・開発・運用
- 音声認識を利用した放送用ニュース字幕制作システム
- 混合正規分布型HMMにおける混合数の増加法の検討
- ニュース解説を対象にした音声認識の検討-言語的特徴の利用の試み-
- 連続音声認識のためのスタックデコーダの作成
- 2段階クラスタリングを用いた適応化音響モデルの学習
- ニュース音声認識システム(音声処理技術のデモの紹介)
- 2000-SLP-31-8 ニュースの直前原稿を利用した音声認識誤りの自動検出法
- ニュース音声認識のための言語モデルの動的適応化
- ニュース音声認識における直前原稿の利用法
- 固有表現抽出器を用いた、非直訳文書対からの固有表現翻訳対獲得(対訳表現獲得)
- 階層分割型クラスタリングを使った文書ブラウザ
- 日英放送原稿翻訳者のための類似用例提示型翻訳支援システム
- ニュース音声認識における直前原稿を利用した認識性能の改善
- ニュース音声認識における直前原稿を利用した認識性能の改善
- ニュース音声認識における直前原稿を利用した認識性能の改善
- 英日機械翻訳のための基本語辞書の拡張
- 文脈素性のベクタ空間モデルを用いた日英翻訳選択 : SENSEVAL-2 日本語翻訳タスク参加システムの開発
- 節境界に基づく独話文係り受け解析の効率化(仮名漢字変換・形態素構文解析)
- 日本語節境界検出プログラムCBAPの開発と評価
- 用例ベース翻訳のための日英アライメント確信度語類似度を用いた訳語選択
- 単語類似度の尺度比較支援ツールの作成(言語知識・解析・言い換え)
- ATR-SLTシステム-SENSEVAL-2日本語翻訳タスク
- 放送ニュース文を対象とした効果的類似用例検索法
- 日英ニュース原稿の対訳コーパス化に関する基礎調査
- ニュース要約の実態調査と要約モデルの検討(コーパス, 学習, 対話, 要約)
- ニュース記事の日英翻訳支援システム--容易に翻訳例がさがしだせる (平成13年度 技研公開 特集号)
- 統計的手法を用いた日英放送原稿の単語対応づけ
- 木構造の属性を許す決定木学習アルゴリズム
- 長い日本語表現の高速類似検索手法
- 長い日本語表現の高速類似検索手法
- 衛星放送ワールドニュースの英日機械翻訳
- ニュース番組における認識率変動要因の検討
- GMMによる音響モデル用学習データの自動選択
- 木構造上の最適一般化を求める線形時間アルゴリズム
- 意味コード付き対訳データからの訳し分け情報の自動学習
- 日本語字幕作成用英日機械翻訳システムの研究経緯と今後
- 字幕作成のための翻訳ワークベンチ
- 対訳データからの「訳し分け情報」の自動学習
- 基本動詞と動作名詞の組み合わせ表現の英日機械翻訳手法
- 「基本動詞と動作名詞の組み合わせ表現」の英日機械翻訳手法(2)
- D-5-4 NHK年鑑を利用したニュースの構造化(D-5.言語理解とコミュニケーション,一般セッション)
- シソーラスを利用した言語データ最適一般化アルゴリズム
- シソーラスを利用した言語データ最適一般化アルゴリズム
- 動詞訳語選択のための「格フレーム木」の統計的な学習
- 類語国語辞典を介した意味マーカー付与
- 日本語「が」格の係り受け整合度の一計算法 : 基準名詞の個数に関する考察
- 日本語「が」格関係に関する考察
- 「やさしい日本語」ニュースの理解度テスト : ニュースのための「やさしい日本語」の設計に向けて(応用,自然言語処理)
- 「やさしい日本語」ニュースの理解度テスト : ニュースのための「やさしい日本語」の設計に向けて(応用,自然言語処理)
- ランダムウォークを利用した番組類似性評価
- やさしい日本語ニュースの公開実験サイト「NEWS WEB EASY」の評価実験
- やさしい日本語ニュースの公開実験サイト「NEWS WEB EASY」の評価実験
- 2-1 閲覧中のWebコンテンツを起点とした関連番組検索(第2部門 メディア処理2)
- 1-4 外部知識を用いたニュースオントロジー構築手法の検討(第1部門 メディア処理1)
- 21-1 多言語翻訳用例提示システムの開発と運用(第21部門 放送現業I)
- 11-3 放送ニュース翻訳を支援する自発的な情報提示へ向けて(第11部門 放送現業の今を見る)
- 18-6 ニュース原稿のやさしい日本語ニュースへの書き換え支援ツール : 日本在住外国人のために(第18部門[テーマ講演]人にやさしい情報メディア技術)
- 3-4 Wikipediaの変更履歴を利用した関連番組検索(第3部門 インタフェース・その他)
- D-025 更新履歴による注目度を利用した番組検索結果のリランキング(クラスタリング,D分野:データベース)