語彙的結束性と単語重要度に基づくテキストセグメンテーション
スポンサーリンク
概要
- 論文の詳細を見る
情報検索・文書要約・文書分類などに代表される文書処理技術の精度向上や文書の構造解析に必要な基盤技術としてテキストセグメンテーション技術が注目されている.テキストセグメンテーションの代表的な手法として, 文書内の同一語の繰り返しによる語の結束性を用いるTextTiling法が提案されている.しかし, TextTiling法では比較的短い文書を処理対象とした場合には十分に精度を得られれるとは限らない.本稿では, 文書内の単語の共起を考慮した結束性に基づくテキストセグメンテーション法と文書内における文の重要度の変化に基づくテキストセグメンテーション法をそれぞれ提案し, さらに, 両手法を相補的に統合することで短い文書でも適用可能である高精度なテキストセグメンテーション法を新たに提案する.1件が20文程度の新聞記事326件を対象として, その形式段落を話題境界の正解データに用いて提案手法を評価した.その結果, 形式段落との完全一致では適合率31.8%, 再現率21.3%, 形式段落の近傍での出力も正解に含めた場合には適合率64.7%, 再現率43.5%であり, 既存手法より高精度なテキストセグメンテーション法を実現できた.
- 一般社団法人情報処理学会の論文
- 2000-05-15
著者
-
木谷 強
株式会社NTTデータ
-
北内 啓
株式会社NTTデータ
-
木谷 強
株式会社nttデータ技術開発本部北米技術センタ
-
木谷 強
株式会社nttデータ北米技術センタ
-
木谷 強
Nttデータ通信株式会社
-
木谷 強
Ntt Dada Corp.
-
平尾 努
株式会社NTTデータ技術開発本部オープンシステムセンタ
関連論文
- 日本語情報検索システム評価用テストコレクションの構築
- 日本語情報検索システム評価用テストコレクション BMIR-J2
- 1105 ステップ数と工数に基づく生産性評価の一考察(一般セッション)
- 情報検索システム評価用ベンチマークVer.1.0(BMIR-J1)について (メディア統合および環境統合のための高機能データベースシステム、および一般)
- 意味情報に基づく検索と全文検索の統合
- 意味情報に基づく検索と全文検索の統合
- 共起単語間の関連性を考慮した文書重要度付与
- SGMLによる『情報管理』誌の冊子体・電子版同時作成の開始と全文検索の試み
- SGMLによる「情報管理」誌の冊子体・電子版同時作成の開始と全文検索の試み
- 新時代における情報提供術 : 全文データベースの事例紹介
- シソーラス掲載語の重要性を考慮した文書スコアリング
- フルテキストと抽出キーワードを利用した情報検索
- フルテキストと抽出キーワードを利用した情報検索
- 単語出現共起関係を用いた文書重要度付与の検討
- 分散環境における情報検索を支援するデータベース選択方式
- 異種分散環境におけるエージェント指向型情報検索システム : データベース選択方式の評価
- シソーラスと決定木学習アルゴリズムによる Rocchio feedback の高精度化
- 歴史オントロジー構築のための史料からの人物情報抽出
- 1106 過去データから算出した予測工数に基づく生産性メトリクス(一般セッション)
- テキストのフォーマットと単語の範囲内重要度を利用したキーワード抽出
- 単語共起と語の部分一致を利用したキーワード抽出法の検討
- 特徴的表現を利用した特許抄録作成法の検討
- レレバンスフィードバックにおける検索語の共起関係推定処理の高速化
- 検索語間における共起関係の特定によるレレバンスフィードバックの高精度化
- 単語の文書頻度を利用した決定木学習アルゴリズムによるrelevance feedbackの高精度化
- 単語の重要度に基づくテキストの要約
- 文ベクトル集合モデルに基づく文書類似尺度の評価
- 単語重要度と語彙的結束性を利用したテキストセグメンテーション
- 2113 ソフトウェア開発プロジェクトにおける生産性への影響評価手法(一般セッション)
- 情報検索、情報抽出テストコレクション
- 誤り駆動型の素性選択による日本語形態素解析の確率モデル学習
- 語彙的結束性と単語重要度に基づくテキストセグメンテーション
- 新時代における情報提供術 : 全文データベースの構築技法
- 冨田一般化LRパーザを用いた情報抽出
- パターンマッチング手法による名称特定処理の有効性の検討
- パターンマッチング手法による名称特定処理の有効性の検討
- OCRの認識結果に対する文字認識後処理方式の検討
- 住所の文字認識結果に対する後処理方式の検討