既存文書のレイアウト情報付き構造化手法
スポンサーリンク
概要
- 論文の詳細を見る
近年、注目をあびているものに電子図書館システムがあるが、この電子図書館システムを実際に運用するためには、現在紙ベースで存在している既存文書を電子化して入力する必要がある。既存文書を電子化する方法として、文書をスキャナとOCRを用いてテキストデータに変換し、変換されたテキストデータから文書の持つ論理構造(タイトルや、段落である、といった情報)を抽出して論理構造情報を含んだデータ(構造化テキスト)として格納するやり方がある。しかし、文書には論理構造だけでなくレイアウトに関する情報も含まれているが、レイアウトの持つ意味は非常に大きいため、これを無視するわけにはいかない。本稿では、既存文書を電子化するときに、従来の論理構造情報記述手段の枠組の中で、文書のレイアウト情報も保存出来る情報構造化方式を提案し、試作システムについて述べる。
- 一般社団法人情報処理学会の論文
- 1996-09-04
著者
-
市山 俊治
NECヒューマンメディア研究所
-
石田 和生
NECヒューマンメディア研究所
-
市山 俊治
NEC 関西C&C研究所
-
市山 俊治
Nec 関西c&c研究所
-
石田 和生
NEC 関西C&C研究所
-
市山 俊治
Nec 関西c&c研
関連論文
- 3P-8 横断検索エージェントシステムの検索先推薦機能とその評価
- 競合型エージェントを用いた横断検索システムの開発
- 既存文書ディジタル化システムの構築 : 分散入力と評価
- 既存文書のディジタル化システム「情報ファクトリ」とSGML文書検索(イントラネットによるライブラリーサービス)
- 検索先の自動選択を行うWWWベース横断検索システム
- WWWにおけるダングリングリンクのメンテナンス方式
- 多様な再生環境に適応する流通コンテンツ・アーキテクチャの提案
- データベース日本語検索システムのための日本語表記からの対象分野知識獲得方式
- ユニバーサル図書館に向けての図書入力システム「情報ファクトリ」の試作
- 4Q-5 カプセル化コンテンツ流通における相互リソース利用の一手法
- カプセル化コンテンツ流通基盤(2) : チケットによる利用制御方式
- カプセル化コンテンツ流通基盤(1) : 全体構成と利用状況適応機能
- デジタル情報流通アーキテクチャMediaShellとその利用・課金制御
- 複数文書間のハイパーリンク自動生成とメンテナンス
- 既存文書のレイアウト情報付き構造化手法
- 多変量解析を用いたソーシャル情報フィルタリング
- 多変量解析を用いたソーシャル情報フィルタリング
- 内容に応じた配送を行なう情報流通システム:情報発信型エージェント
- 目利き利用者の発見と利用によるソーシャルフィルタリング方式
- 図書構造化入力システム「情報ファクトリ」の提案
- 3P-4 WWWにおけるダングリングリンクの自動メンテナンス
- 既存文書のレイアウト情報付き構造化とその利用
- 自然言語によるデータベース検索のための対象分野知識入力支援ツール
- 自然言語インタフェースにおける「と」による並列の意味解釈について
- タイプつき素性構造の拡張
- 対訳辞書に基づいた概念素設定手法とその評価
- 意味表現における関係概念の扱い
- 機械翻訳システムPIVOTの中間言語
- 自然言語インタフェースにおける制約ベース意味表現生成
- 自然言語インタフェース構成モジュールにおける領域知識共用
- 多様な文書タイプに適応可能な文書構造化システム
- WWWベ-ス電子図書館と文書入力蓄積システム"情報ファクトリ"について (特集 平成9年度全国研究集会) -- (第1分科会 イントラネット&電子図書館)
- 日本語インタフェ-スキットIF-Kit (日本語処理技術特集) -- (テキストデ-タベ-ス技術)