テキスト構文構造類似度を用いた類似文検索手法(セッション3: メタデータとオントロジ応用)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では, 構文木付きコーパスから, 構文的に類似した文を検索する手法を提案した.構文的類似度の計算手法としてはTree Kernel(Collins)が提案されている.しかし, Tree Kernelの類似度計算は時間を要するため, これを類似文検索に応用すると, 検索速度が問題になる.検索時間短縮のためには, 予め検索対象のインデックスを作成しておくのが一般的だが, Tree Kernelではその性質上, 検索対象のインデックス化が困難である.そこで, Tree Kernelを近似する高速な新しいアルゴリズムとしてTree OverlappingとSubpath Setを提案した.これらのアルゴリズムは, Tree Kernelとは異なり, 検索対象のインデックス化が可能なため, 高速な検索が可能である.本論文ではTree Kernel, Tree Overlapping, Subpath Setの3種類のアルゴリズムについて述べ, 実験結果を示し, 比較した.
- 一般社団法人情報処理学会の論文
- 2005-05-19
著者
-
徳永 健伸
東京工業大学大学院情報理工科学研究科
-
田中 穂積
北陸先端科学技術大学院大学情報科学研究科
-
田中 穂積
東京工業大学工学部情報工学科
-
橋本 泰一
東京工業大学統合研究院
-
田中 穂積
中京大学情報科学部
-
橋本 泰一
東京工業大学
-
徳永 健伸
東京工大 大学院
-
徳永 健伸
東京工業大学
-
市川 宙
東京工業大学大学院情報理工学研究科
-
田中 穂積
中京大学情報理工学部
-
市川 宙
東京工業大学大学院情報理工学研究科計算工学専攻
関連論文
- 大域的な文章構造の類似性を利用したクローズドキャプション中の定型的な文章区間の抽出(自然言語処理)
- 格フレーム辞書を用いた日本語複合名詞の解析(学生セッション II)
- TREC-7参加報告
- 放送番組を素材としたマルチメディア百科事典の自動構築
- 岩波国語辞典を利用した語義タグ付きテキストデータベースの作成
- 格フレーム辞書を用いた日本語複合名詞の解析(学生セッション II)
- 日本語空間名詞の分類(特別セッション「言語理解と行動」(3))
- 日本語空間名詞の分類(特別セッション : 言語理解と行動(3))
- F-014 エージェントのための空間名詞の分類とその解釈方法について(F.人工知能)
- D-5-10 視界からの情報を用いた空間表現の理解に関する研究(D-5. 言語理解とコミュニケーション)