Detection of Paragraph Boundaries in Complex Page Layouts for Electronic Documents
スポンサーリンク
概要
- 論文の詳細を見る
The precision of paragraph segmentation is critical for the succeed information retrieval tasks in reverse engineering of paginated electronic documents such as PDF files. Current solutions to the layout analysis for simple layouts are not flexible enough to adapt to various complex layouts. Here we propose one method to determine the boundary of the paragraphs with machine learning techniques. We decide the paragraph boundaries based on the features of other parts of the paragraph which are not so ambiguous. A tree structure is also designed in order to enable the text content being grouped flexibly.
- 一般社団法人情報処理学会の論文
- 2012-03-06
著者
関連論文
- 特徴点軌跡の不均一性パターンに基づいた同一場面映像検出(メディア処理,第12回画像の認識・理解シンポジウム推薦論文,画像の認識・理解論文)
- 知識ベースを用いた人名検索時の曖昧性の解消(言語処理,夏のデータベースワークショップDBWS 2006)
- 知識ベースを用いた人名検索時の曖昧性の解消(言語処理)
- 外部知識を用いて同姓同名の曖昧解消
- 言い換え箇所と言い換え候補の提示による解説文リライト支援の書き手の評価実験(言い換え・略語・要約)
- 混合ディリクレ分布を用いた文書分類の精度について(情報融合)
- マージン最大化によるメトリック空間分割手法(一般,「ユビキタス,センサ環境におけるデータベース」,及び一般)
- 情報爆発時代の先端情報・通信技術
- 学術情報の統合に向けた大規模リンケージ基盤の構築
- 3.アカデミックリンケージ : 膨大な学術情報へのアクセスを支援するリンケージ基盤(パートII:情報分野研究者のためのオンリーワン共有イノベーションプラットフォーム,情報爆発時代におけるわくわくするITの創出を目指して)
- 6ZK-4 情報爆発時代におけるP2P情報検索向きデータ配置手法(情報爆発時代におけるストリームデータと実世界情報処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 6J-4 情報爆発時代のための制約つきクラスタリングを用いた制約つきフィードバック手法の提案(情報爆発時代における情報検索・推薦技術およびWebコミュニティ分析,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 5J-1 Name Disambiguation Using Topics Extracted from Web Directories in Information-explosion Era
- E-014 軽量のテキスト処理による複数文書要約システム(E分野:自然言語・音声・音楽)
- 書誌情報における著者名の曖昧性解消のためのクラスタリング
- P2P情報検索における索引とファイルの分散配置手法(分散ファイル・システム)
- 情報爆発時代における情報管理・融合・活用基盤(情報爆発時代に向けた新しいIT基盤技術の研究)
- 情報爆発時代に向けた新しいIT基盤技術の研究(情報爆発時代に向けた新しいIT基盤技術の研究)
- CSIとe-Science
- コンテンツの生産・活用に関する研究 : 科研「情報学」プロジェクトのコンテンツ研究を振り返って(「情報学を創る」-科研プロジェクトがめざしたもの)
- 発足の経緯とその展開(「情報学を創る」-科研プロジェクトがめざしたもの)
- 検索語の曖昧性解消のためのトピック指向単語抽出および単語クラスタリング
- P2P情報検索における単語の頻度情報に基づくデータ配置手法
- 共著関係に基づくグラフを用いた書誌情報における著者同定手法の提案と評価(データマイニング・学習, 夏のデータベースワークショップDBWS2005)
- 共著関係に基づくグラフを用いた書誌情報における著者同定手法の提案と評価(データマイニング・学習, 夏のデータベースワークショップ2005)
- D-008 類似検索の高速化を目的としたPivot選択手法の実験評価(D分野:データベース,一般論文)
- 2K-2 索引木の均衡を考慮した類似検索索引手法(情報爆発時代におけるアルゴリズム高率化,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 2K-1 高さ制約付き無順序木の高速類似検索アルゴリズムについて(情報爆発時代におけるアルゴリズム高率化,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 6ZC-2 コミュニティベースQ&Aからの類似質問検索手法(情報爆発時代におけるWebパーティカル検索,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- SPARC Japanの新たな展開
- 情報爆発時代の研究基盤構想 : データマイニング、次世代サーチなどの研究(「自動化:推論,発見,学習,データマイニング」及び一般)
- 検索語の曖昧性を解消するキーワードの提示手法(情報推薦, 夏のデータベースワークショップDBWS2005)
- 検索語の曖昧性を解消するキーワードの提示手法(情報推薦, 夏のデータベースワークショップ2005)
- 頻度情報を用いた類似文字列検索のための可変長N-gram
- 頻度情報を用いた類似文字列検索のための可変長N-gram
- メモリ上の全文検索システムのためのデータ構造と処理の効率化
- Suffix Array による可変長N-gramを用いた類似文字列検索
- 距離尺度の組み合わせによるTop-k検索の提案
- メトリック空間における最近傍ペア探索アルゴリズムの高速化
- 3 世界に向けての学術情報発信(学会から世界への学術情報発信-未来への展望-)
- 座談会 メディアの変化のなかで大学図書館はどこへ向かうか (特集 大学図書館のこれから)
- プローブカーデータを用いた自動交通異常検出 (ITS研究会 交通センシング,通信,情報処理,一般)
- プローブカーデータを用いた自動交通異常検出 (ITS)
- CRFによる和英文の参考文献文字列からの自動書誌要素抽出
- プローブカーデータを用いた高速道路における自動交通異常検出
- SCOAP^3の現状,課題そして展望(談話室)
- An Efficient Window-Based Methods Using N-gram Indexing for Approximate Entity Extraction
- プローブカーデータを用いた自動交通異常検出
- RD-001 類似文字列検索におけるLCP配列を用いた可変長N-gram抽出手法の効率化(情報アクセスとマイニング,D分野:データベース)
- D-010 類似文字列検索における可変長N-gramを用いたマージの効率化(ストレージと検索,D分野:データベース)
- D-022 クラスタリングを利用した距離尺度の組み合わせによるTop-k検索(クラスタリング,D分野:データベース)
- プローブカーデータを用いた自動交通異常検出(交通センシング,通信,情報処理,一般)
- CRFによる和英文の参考文献文字列からの自動書誌要素抽出(情報抽出と情報検索,ビッグデータとソーシャルコンピューティング,及び一般)
- クラスタリングを利用したTop-k Join処理
- Detection of Paragraph Boundaries in Complex Page Layouts for Electronic Documents
- 類似文字列検索におけるLCP配列を用いた索引の提案