文書の見出し記号の解析に基づく木状論理構造生成の一手法
スポンサーリンク
概要
- 論文の詳細を見る
紙に印刷されている科学技術文献は膨大な量に及び、これをワークステーション等の計算機上に移しデータベース化するには多くの時間と人手を必要とする。このため、文献データベースの構築においては、紙面に印刷されている科学技術文献の文字を認識し、文字列の内容を解析し、所定の形式で自動的に登録することが期待されている。特に、科学技術文献では、文書の章、節、項といった論理的な構成も技術情報においては重要である。そのため、紙上の要素のレイアウトを基に、章、節の文書の論理的な構成を自動的に抽出することを行なっている。また、文書の構成要素を関係リンクで結合したハイパーテキストがテキストデータベースの知的システムとして注目されている。対象とする科学技術文献の論理構造では、章、節を表わす見出し記号に記載上のばらつきが文献ごとに存在するという問題があり、表記の上でのあいまい性、多様性を解消する必要がある。本研究の目的は、このような表記上のゆれがある章、節等の見出し文字列から文書の論理構造を自動的に生成することである。ここでは、本文中の章、節、項に対応した見出しを解析し、ツリー状の論理構造を自動的に生成するものであり、一次元に並んだ文字列で表現されているテキストファイルを階層的な木構造に変換することができ、文献データベースやハイパーテキストの自動構築に有効な技術である。
- 社団法人情報処理学会の論文
- 1991-02-25
著者
-
古賀 昌史
(株)日立製作所機械研究所都市・ロボティクスプロジェクト
-
村上 達也
(株)日立製作所 中央研究所
-
藤澤 浩道
(株)日立製作所中央研究所
-
嶋 好博
(株)日立製作所中央研究所
-
藤澤 浩道
(株)日立製作所
-
古賀 昌史
(株)日立製作所機械研究所
-
古賀 昌史
(株)日立製作所中央研究所
-
古賀 昌史
(株)日立製作所 中央研究所
関連論文
- 文字認識と単語レイアウト解析を用いた紙文書とディジタルデータの情報リンク手法(画像認識,コンピュータビジョン)
- 情報のら旋形成長を支援するコミュニケーション形電子図書館
- ハイパーメディア共有アーキテクチャ
- ハイパーメディア共有アーキテクチャにおけるバージョン管理方式
- 仮想個人図書館の構築を支援するユーザインタフェースの開発
- ヒューマノイド--ロボットがつなぐ人間・機械・情報 (特集 人間を指向した研究開発)
- D-11-93 文書画像に対する適応型 2 値化の一手法
- I-85 帳票画像からの下線抽出の一手法(画像レイアウト解析,I.画像認識・メディア理解)
- D-12-60 帳票画像からの点線抽出の一手法
- 刊行物目次解析のための書誌情報表現の分析
- 文字と交差した罫線の除去方式の一提案
- 細分化クラスタ法によるパタンマッチングの高精度化
- 逐次型階層的クラスタリングによる大量学習の一手法
- 認識機能の出力あいまい性を許容した情報検索手法の一検討 : 認識誤り特性に着目した検索手法の分析評価
- 表罫線の交差部におけるかすれ補正方式の一提案
- 表記規則を持った数字列の一認識方法
- 文書認識と全文検索の融合技術に関する実験的検討
- 構造特徴による前分類を用いたニューラルネットワークのパターン認識能力の検証
- 端点対接続型かすれ修復方法の手書き線図形認識への適用
- 表記規則を持つ数字文字列の認識における文字列チェック機能の一検討
- 手書き線図形のかすれ修復方法の一提案
- OCR誤認識後処理の効率化 : 補単語抽出方法と動詞活用処理を中心に
- 手書き漢字住所認識のためのエラー修正アルゴリズム
- 棒状図形に傾き検出のラン符号による高速化の一手法
- オートマトン型単語照合の姓名文字列への適用
- 文書の見出し記号の解析に基づく木状論理構造生成の一手法
- 文書画像理解における論理構造抽出の一方式
- 将来都市交通要素としての自律移動技術 (特集 次世代都市)
- 手話自動翻訳システムにおけるパターン認識・合成
- N-gram言語統計量を併用した島駆動型文字列認識方式(画像認識,コンピュータビジョン)
- 文字認識と単語レイアウト解析を用いた紙文書とデジタルデータの情報リンク手法(テーマセッション: マルチメディアコンテンツ, データ工学とメディア理解との融合)
- 文字認識と単語レイアウト解析を用いた紙文書とデジタルデータの情報リンク手法(テーマセッション: マルチメディアコンテンツ, データ工学とメディア理解との融合)
- D-12-35 OCR機能を応用した携帯電話向け電子辞書機能の開発(D-12.パターン認識・メディア理解A)
- トライ辞書を用いた語彙情報駆動型の印刷地名単語列認識方式(画像処理,画像パターン認識)
- チェックライタ金額文字列認識の一手法
- 金額文字列認識の後処理のためのボトムアップ型構文解析の一手法
- 単語探索型の文字列認識方式
- 超並列計算機の文字認識辞書構築処理への応用
- 自由語検索のための高速文字列検索方式
- 自由語検索のための同義語・異表記展開方式
- 自由語による全文検索のためのテキストサーチマシンTSM-I
- ハイパーメディア共有アーキテクチャ
- 回帰的遷移ネットワークを用いた文字経路探索方式の開発(テーマセッション,文字・文書の認識・理解)
- 日本語情報処理の諸相 : 日本語情報検索技術の系譜(日本の情報処理技術の足跡)
- 「仮想個人図書館」と個人情報環境
- 3. 情報検索における自然言語処理 ( 自然言語処理技術の応用)
- 人間共生ロボットの開発とデザイン(デザイン×技術=ものづくり)
- Bayesルールを用いた宛名記載領域抽出手法(文字とドキュメントの認識・理解)
- Bayesルールを用いた宛名記載領域抽出手法(文字とドキュメントの認識・理解))
- ベイズルールを用いた周辺情報統合による手書き漢数字の文字切出し手法(画像処理,画像パターン認識)
- 中国における文字認識の現状と将来
- 手書き文字認識における学習型2次識別関数
- 手書き文字認識における学習型2次識別関数
- 多重仮説方式を用いた宛名記載領域抽出手法
- 住所表示番号と棟・部屋番号の連続表記に対する照合方式
- D-12-19 縦横混在表記に対する住所表示番号照合方式
- 表記パターン知識を用いた住所表示番号照合方式
- 手書き接触漢字切出しに関する検討
- Bayesルールを用いた手書き漢数字の文字切出し手法
- 文書理解における論理構造抽出の一手法
- 6)文書理解の一方式とその応用(視覚情報研究会)
- 文書理解の一方式とその応用
- 知的ファイリングモデルシステムの開発(その3) : 自動ファイリングのための文書理解の一方式
- 知的ファイリングモデルシステムの開発(その1) : システムの設計思想と実現方法
- 人間共生ロボットEMIEW2の開発(トピックス)
- 文書ブラウジングにおけるヒューマンインターフェース
- 知的ファイリングモデルシステムの開発(その4) : 検索効率向上のためのイメージ表示方法
- 知的ファイリングモデルシステムの開発(その2) : 自由語検索における異表記、異表現解消法
- チェックライタで印字した金額の認識の一手法--ノイズ、かすれに強い文字認識の一方式
- 体験記録検索における文字認識の有効性の評価
- テクノトレンド カメラ付き携帯電話向けの漢字認識技術
- 文字認識における文脈情報利用技術の将来
- 電子図書館システムの技術動向
- SDAIRに見る文書解析と情報検索に関する研究状況
- SDAIRに見る文書解析と情報検索に関する研究状況
- オートマトン型単語照合の高速化手法
- 溝口理一郎著, 知の科学-オントロジー工学, 人工知能学会編集, 275頁, オーム社, 2005
- 知的ファイリングシステムのビジュアルインタフェース
- 部分パタ-ンマッチングにおける標準パタ-ンの選択方式
- 部分画像の出現確率を用いた高速化パタ-ンマッチング方式
- ランに対する座標演算に基づく2値画像の高速回転のための一手法
- 電子部品の捺印パタ-ン欠陥検出手法の一考察
- 部分画像の並列切出し照合方式に基づく捺印パタ-ンの欠陥検出
- スキャンマッチングデータ合成のためのGibbsサンプリングを用いたオフラインマップマッチング(地理空間情報とロボットと人と)
- スキャンマッチングデータ合成のための Gibbs サンプリングを用いたオフラインマップマッチング