長い日本語表現の高速類似検索手法
スポンサーリンク
概要
- 論文の詳細を見る
著者らは用例提示型日英翻訳支援システムを開発している. この中にはユーザが入力する日本語表現の類似表現を検索し, これを含む日本語文と英訳を提示する機能がある. 著者らの日本語データベースの文は平均長88.9文字と長い. このような長文を対象に日本語表現の類似検索を行う場合, 従来のキーワードを使ったBoolean検索は適切でない. なぜならデータベースの一文中に同ーキーワードがいくつも出現するため雑音を検索しやすいからである. 特に入力が長いとこちらにも同一キーワードが出現して問題となる. これに対し著者らは入力キーワードの語順とその間隔を考慮した検索手法を提案する. これは構文解析を行わず近似的に構文を考慮する手法である. 本稿では(1)提案手法, (2)Boolean検索, (3)キーワードの語順を考慮する手法を考察して実験的に比較する. そして提案手法の検索結果の適合性が最も高いことを示す. さらに本手法が結果の提示手法としても優れていることを示す.
- 一般社団法人情報処理学会の論文
- 1997-09-11
著者
関連論文
- 単語格子とマルコフモデルによる日本語機能表現の解析 : 日本語機能表現辞書「つつじ」を用いて(解析)
- 部分文字列への最適な分割と文脈を考慮した変換による翻字処理(自然言語処理)
- 統計的特徴を利用した機能語の自動認定実験(多言語処理・質問応答)
- やさしい日本語によるニュースの書き換え実験
- 文融合法に基づいた放送ニュースリード文の具体化
- ニュース要約のための簡易文脈解析(情報抽出・ラベル付与)
- E-011 長さ制限のない未知語形態素候補の自動生成(E分野:自然言語・音声・音楽)
- World Wide Webを用いた外国人名の英訳自動獲得(自然言語)
- World Wide Webからの外国人名の英訳自動獲得 (放送サービスに応用される翻訳・要約技術 特集号)
- 最ゆう単語列逐次比較による音声認識結果の早期確定