重要文抽出によるWebページ要約のためのHTMLテキスト分割
スポンサーリンク
概要
- 論文の詳細を見る
検索エンジンにおいて検索結果として表示される情報は,目的の情報を素早く獲得する上で重要なものである.特に,検索結果の各Webページの要約文は,各Webページの内容を知る上で重要であるとともに,ユーザが入力した検索語が各Webページ内でどのように使われているか,すなわち検索語と各Webページとのかかわりを知るために有効である.しかし,従来の検索エンジンにおける検索結果の要約文は,Webページの冒頭部分のテキストが抜き出されて検索語が含まれていなかったり,検索語を含んでいても文の途中で切れていて文として不完全で,文脈やWebページの内容を把握できないという問題点がある.そのため文を単位とした要約の出力が望まれるが,HTMLテキストにおいては,句点を含まない,文以外の記述が数多く含まれているため,そのまま文を単位とした重要文抽出システムによって要約文を提供することは困難である.そこで本論文では,各Webページのソースを文に相当する意味の切れ目において分割するHTMLテキスト分割システムを提案する.また,本システムにより生成されるテキストが,Webページの要約生成に有効に働くことを実験により検証した.
- 社団法人電子情報通信学会の論文
- 2004-12-01
社団法人電子情報通信学会 | 論文
- 福井大におけるCWジャイロトロンの開発(電子管と真空ナノエレクトロニクス及びその評価技術)
- 適応的拡散制御を伴うパーティクルフィルタを用いた頭部姿勢推定システム(顔・身体動作認識, 画像の認識・理解論文)
- 複数の計算量仮定を組み込んだメタ帰着技法による安全性解析 : ElGamal暗号の場合
- A-7-29 パスワードベース認証付き鍵交換の安全性における(不)可能性(A-7. 情報セキュリティ,一般セッション)
- 多重リング構造のk-out-of-n署名の修正提案(情報通信基礎サブソサイエティ合同研究会)