認識誤りを含むテキストにおける検索手法 (システム分野)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では、OCRによる認識誤りを含む和文のテキストに対する3つの確率的な全文検索手法を提案する。提案手法では、認識誤りの存在を考慮に入れた上で検索を行なうため、OCRによる文書認識後に必要だった手作業による修正編集を行なう必要がない。検索時に認識誤りを吸収するために、誤る可能性のある文字とその確率を保持した類似文字テーブル及び文字の2-gram統計に基づいた文字の接続確率を保持した2-gramテーブルを用いる。検索の手順は、1つの入力検索語に対して類似文字テーブルを参照することで複数の検索文字列を生成し、それぞれの検索文字列を用いて全文検索を行なう。検索された文字列の適否は、類似文字テーブルによるOCRの誤り易さに基づいた確率と2-gramテーブルによる文字の接続確率によって判断する。具体的にはこれら2つの確率に基づいた得点を各検索結果に与え、その得点が閾値を越えていれば検索条件を満足するとし、さもなくば棄却する。本手法を用いて検索効率(再現率と適合率)に関する実験を行なった結果、認識誤りを考慮しない場合と比較してはるかに検索効率が改善されることを示せた。
- 国立情報学研究所の論文
著者
関連論文
- 関係データベースを利用したXMLリポジトリのためのアクセス管理手法
- Max Flowアルゴリズムを用いたWebページのクラスタリング方法とその評価
- 差異を意識したクラスタリングとその特徴量集約手法の検討(クラスタリング, 夏のデータベースワークショップDBWS2005)
- Max FlowアルゴリズムによるWebページのクラスタリング方法(Web検索, 夏のデータベースワークショップDBWS2005)
- 差異を意識したクラスタリングとその特徴量集約手法の検討(クラスタリング, 夏のデータベースワークショップ2005)
- Max FlowアルゴリズムによるWebページのクラスタリング方法(Web検索, 夏のデータベースワークショップ2005)
- 斜交基底を用いたメタ検索におけるランクリストの統合方法の提案(情報フィルタリング・情報要約, データ工学論文)
- 「マルチメディア情報べース技術の研究」が目指すもの (メディア統合および環境統合のための高機能データベースシステム、および一般)
- 単語間の係受け情報を用いた文献検索手法
- 単語間の係受け情報を用いた文献検索手法 (システム分野)
- 表題の意味構造を考慮した文献検索手法
- 格文法を用いた複数文書融合手法(応用・事例2)(夏のデータベースワークショップDBWS2004)
- 格文法を用いた複数文書融合手法(セッション9C : 応用・事例2)(夏のデータベースワークショップ : DBWS2004)
- 格文法を用いた複数文書融合手法
- 総合目録オンラインDBと情報検索システムの連携方式 (学術情報分野)
- 学術情報センターにおけるオンラインDBとIRシステムの連携 : 目録系データベースの構成
- 大型計算機センター群の共通利用番号制の運用と実現方式について
- 大型計算機センター群の共通利用番号システムのネットワークプロトコルについて
- 大型計算機センター群の共通利用番号システムの基本概念について
- 東洋医学と情報処理 (第50回日本東洋医学会学術総会)
- 4P-3 英文曖昧検索へのHMMの適用とその評価
- OCR認識誤りの学習方法について
- 英文曖昧検索における拡張検索文字列数の削減
- 認識誤りを含む和文テキストにおける全文検索手法
- 英文認識誤り特性に基づいた曖昧検索手法
- 文字誤りを含む英文検索手法
- 認識誤りを含むテキストにおける検索手法 (システム分野)
- 統計的手法による文字誤りテキスト検索
- 誤りを含むテキストにおける検索の一手法
- グラフの連結性に基づくMessmerらの部分グラフ同型判定手法の改良
- 関係データベース上の階層関係を持つ妥当なXMLビューの設計法
- P2Pにおける静的負荷分散方式の提案(P2P)(夏のデータベースワークショップDBWS2004)
- SAX-GTR : 高速XMLストリーム読み込み手法(XML 1)(夏のデータベースワークショップDBWS2004)
- P2Pにおける静的負荷分散方式の提案(セッション10B : P2P)(夏のデータベースワークショップ : DBWS2004)
- SAX-GTR : 高速XMLストリーム読み込み手法(セッション3B : XML1)(夏のデータベースワークショップ : DBWS2004)
- B-treeの分散配置とその性能評価
- テキストイメージのテクスチャ性を利用した領域分割法
- データ従属性に基づくデータベースの合成
- オブジェクト指向モデルに基づくマルチメディア文書データベース
- 学術情報センターの電子図書館システムの概要と試行実験
- 学術情報センターにおける電子図書館システムの試行
- 文献情報を対象としたスキーマ統合の一手法とシステムの構築
- マルチデータベース環境における問い合わせ処理
- 情報検索におけるスキーマの統合と質問処理
- 異種スキーマをもつデータベースへの統合的なアクセス手法
- クライアント-サーバモデルによる情報検索システムの提案
- 大型計算機センター群の共通利用番号システムの実現方式について
- 世界の電子図書館の研究動向について
- メロディからの自動インデクシングと音楽検索への応用
- 音楽検索における自動インデクシング法
- データベースサーバ上での目録データベースの論理設計
- SGML文書の論理構造変換手法
- 文書の論理構造の変換におけるデータ形式の指定法
- SGML文書による全文データベースのための文法的処理を用いた論理構造の変換手法
- SGML文書本体部の論理構造の変換
- SGML文書構造の文法を用いた変換処理
- 多様な構成を持つ文書を対象とする全文データベースの処理方式
- OCR認識誤りを含む書誌情報の認識(システム分野)
- OCR認識誤りを含む書誌情報の確率的パターン解析手法
- 文書画像データからの書誌情報の抽出とマッチング
- 文法記述によるデータベース入力支援法
- 知的情報検索のための文献同定システム
- 文書画像理解を用いた電子図書館ユーザインタフェースの自動生成
- 文書画像データベースのためのハイパーテキスト構築手法
- データベース入力支援を目的とする文献画像の分類方法
- 学術文献を対象とした電子図書館システムの構成法
- 学術情報データベースの構成と利用 欧米における「電子図書館」プロジェクト (学術情報データベースの構成と利用)
- TSS接続による仮想画面転送(VTSS)方式
- ルール抽出手法のテキスト解析への適用
- 人間からの指示を含めたルール抽出過程の検討
- テキスト処理に向けた自己構築型記憶モデルの提案
- 目次表題を利用した情報検索手法の検討
- 情報検索におけるインデックスの構造化
- 5K-1 関連性の重ね合わせモデルによる問い合わせ表現の自動拡張手法
- 関連性の重ね合わせモデルに基づく問い合わせ表現の拡張
- 関連性の重ね合わせモデルに基づく問い合わせ表現の拡張
- 3V-07 文書関連性に基づく検索モデルの提案
- 文書関連性に基づく検索モデルの提案
- 文書関連性を考慮した検索方式
- 単語間の係受け関係を用いた情報検索手法の評価
- 2P-6 抄録検索における構造化インデクスの効果
- 構造化インデクスの全文検索への適用
- 構造化インデクスの全文検索への適用
- 構造化インデクスを用いた情報検索手法の評価
- 分散電子図書館における情報アクセス機構
- CRFによる和英文の参考文献文字列からの自動書誌要素抽出
- PS-024-7 miRNAアレイ解析による大腸癌肝転移機構(PS-024 大腸 基礎2(バイオマーカー),第112回日本外科学会定期学術集会)
- VD-026-4 食道再建術におけるICG蛍光血管造影を用いた術中血流評価の有用性(VD-026 ビデオセッション(26)食道 手術手技,第112回日本外科学会定期学術集会)
- SF-067-4 GIST治療個別化へ向けたバイオマーカーの探索(SF-067 サージカルフォーラム(67)食道 基礎-6,第112回日本外科学会定期学術集会)
- ハイパーメディア型のネットワーク構造に基づく記憶システムの設計と実装