冗長インデクスを用いた OCR テキスト検索システム
スポンサーリンク
概要
- 論文の詳細を見る
インターネット/イントラネットの爆発的な普及に伴い, テキスト資産の共有の重要度がますます高まっている. ローカルエリアでは情報を共有するためにグループウェアが用いられ, テキスト資産が活用されている. 本研究所では, 利用者のテキストに対する作業履歴やテキスト間の引用/参照関係を用いてテキストデータをインデクス化し, テキスト資産が増進的に共有/活用される環境の研究を行っている. OCR 認識技術は, 英語では非常に高い認識率になるが, 日本語では, 現在はそれほど高い認識率ではない. OCR 認識を行った後に, 言語的処理により辞書とマッチングし自動的に誤り訂正を行う技術もあるが, 認識誤りを完全に除くことはできていない. OCR 認識後の人手による修正作業のコストは非常に高いため, テキスト資産のオンライン化, 共有/活用を行う際の問題点となっている. 一般的な紙の文書を利用する場合を考えてみると, オープン世界のテキスト資産を活用する際の利用は, テキスト参照が主目的である(参照中のテキストの一部をカット&ぺーストして利用するというのは, 紙の文書では無理である). この点に着目し,低コストの OCR テキスト認識システムを構築するため, 本論文では, テキスト資産のイメージデータを正しいテキストに完全に変換するのではなく, 検索が可能なようにイメージに対してインデクスを張り, そのインデクスを利用してテキストイメージを検索/提示する方法を提案する.
- 一般社団法人情報処理学会の論文
- 1997-03-12
著者
-
村木 一至
NEC 情報メディア研究所
-
佐藤 研冶
Nec 情報メディア研究所
-
村木 一至
日本電気(株)パーソナルソフトウエア事業部
-
佐藤 研治
NEC 情報メディア研究所
-
赤峯 享
NEC 情報メディア研究所
関連論文
- 英日翻訳システムを基にした多言語翻訳システムの構築
- 5W1H情報を利用する情報分類・ナビゲーション
- 5W1H情報抽出・分類によるテキスト要約
- MIIDAS : 情報の選別とEasy Readingのためのエピソード
- MIIDAS:情報の適合的選別による文書フィルタリング
- MIIDAS : 情報の選別的共有のためのオントロジ構築とその増進的学習
- 5W1H分類・ナビゲーションによる情報活用プラットフォーム
- オントロジによる多次元情報集配信
- 日本語入力による英文作成支援インタフェース
- 文書参照/引用履歴を利用したノウハウ活用エージェント
- 冗長インデクスを用いた OCR テキスト検索システム
- 日本語入力による英文作成支援システム : 辞書学習
- 日本語入力による英文作成支援システム : 長文パターンによる翻訳
- 大規模データのセルフナビゲーショナルアクセス : SPIRAL Method
- 概念表現を用いた自動通訳システムINTERTALKER
- FEP型英文作成支援ツールにおける対話的曖昧性解消方式
- FEP型英文作成支援ツール : 外国語情報発信の効果的インタフェース
- FEP型英文作成支援ツール : 日英構文変換部
- 辞書中の語義例文に基づく事例ベース動詞意味選択
- 辞書に事例を付記することによる訳語選択・意味選択機能の強化
- 電子化辞書管理のための自然言語インターフェース : 質問文コーパスの機能分類
- 日本語文構造分類ツール
- 大規模テキスト並列検索エンジンRetrievalExpress (1) : 並列検索方式
- 商用機械翻訳ユーザ辞書の共通フォーマット設定に向けて (第54回全国大会 (平成9年前期 於 : 千葉工大) 大会優秀賞受賞論文 (11件)
- 機械翻訳ユーザ辞書データ流通のための共通フォーマット : アジア太平洋機械翻訳協会の活動報告
- 商用機械翻訳ユーザ辞書の共通フォーマット設定に向けて
- パーシング制御における多視点ヒューリスティックスの取扱い
- 日本語入力による英文作成支援システム : 仮名漢字変換から仮名英語変換へ
- 英語の副詞のシンタクス
- 対話文の英日機械翻訳における日本語待遇表現の生成
- 日本語文章からの文章骨格の抽出
- 文章執筆推敲支援システムIdeaPの概要
- 機械翻訳ユーザ辞書データ流通・相互利用のための共通フォーマット設定活動 : アジア太平洋機械翻訳協会の活動報告
- 日本語助数詞の分析 : 名詞と助数詞の統語的差異
- 程度表現の意味モデル
- 日本語助数詞の分析
- 機械翻訳システムPIVOTの中間言語
- 日本語生成に於ける対話文脈構造と代名詞省略
- 翻訳機能付きワープロ : 不安と疲れを感じさせないインタフェース
- PIVOT : ソフトウェアの構成と機能
- シソーラスによるクエリー展開を用いた大規模テキスト検索
- 高速全文検索システム RetrievalExpress
- 文字ベース凝縮テキストによる全文検索方式の評価
- 単語共起によるクエリー展開を用いた大規模テキスト検索
- 語順と省略に着目した自然な日本語対話文の生成
- 対訳用例に基づく対話文翻訳における日本語生成方式
- 高速全文検索のためのフレキシブル文字列インバージョン法(2)実装と評価
- PIVOT : 日本語接辞解析
- 機械翻訳システム
- 英語文型選択の並列化について
- 文脈理解 : 文脈理解の効果 (自然言語理解)
- アイデアインテグレーション環境
- 意識的探索作業からユーザを解放する情報提供法