文節文法を用いたイメージスキャナの読み取り結果の誤り検出
スポンサーリンク
概要
- 論文の詳細を見る
近年, イメージスキャナを用いた文字認識システム(以下, OCRとする)がいくつか商品化されている. これらのOCRは, 文字を一文字毎に切り出し, 正規化してパターンマッチングを行なっている. 文字認識の精度は商品や環境によりまちまちであるが, だいたい95∼98%を示している. この認識率はA4用紙1枚に1200文字程度書いてある文書を認識させた場合, 1枚あたり24∼60文字程度の誤りが生じることになる. OCRが出力する文字の誤りも最終的に人間が訂正して正しい文にするが, 誤りの出現に規則性がなく, 訂正作業の負担は大きい. この作業量を減少させるため, コンピュータ支援による文の誤りを検出するシステムが望まれている. 最近の日本語の誤り検出及び訂正に関する研究としては, [1, 2]などが挙げられる. これらの研究はいずれも、単語あるいは文字の単位の前後の接続確率を考慮し, 尤もらしい検出または訂正を行っている. このような手法は, 誤りの特徴がはっきりしている場合や, 誤り訂正の作業が数種の単語あるいは文字の選択に置き換えることができるのであれば, 非常に有効な手段である. しかしながら, 一般にOCRが出力する誤りには規則性がなく, またOCRから得られる情報を出力結果のテキストのみとしたため, 単語あるいは, 文字単位の接続確率を用いた手法は不向きであると考えられる. そこで, 本研究では何らかの文法を導入することにより, 大局的な制限をうまく利用する誤り検出手法について考察する. 今回は, 文節文法を用いた形態素解析を行うことで, 誤り検出をする手法について考察する. この手法は, 形態素解析の手法として知られている最小単語法に文節文法を組み込んだ手法で形態素解析を行い, 文節が成立するか否かを判定基準として誤り検出を行う. 本稿では, この手法に基づいたプログラムを作成し, 誤り検出に関する評価実験を行なったので, その結果について報告する.
- 1994-03-07
著者
関連論文
- 係り元文節からの相対的な距離を反映した統計的日本語係り受け解析(自然言語処理)
- Cross-Bootstrapping:特許文書からの課題・効果表現対の自動抽出手法(テキストマイニング,情報爆発論文)
- 公開特許公報の特許権成立の成否に関するテキスト情報を用いた推定手法の基礎的検討(自然言語処理)
- Techniques to accelerate request processing for Byzantine fault tolerance (コンピュテーション)
- 高専入学直後の学生に対する情報化社会に関する講義とその試験方法について(インターネットと情報教育-シングルセッション,インターネットと情報倫理教育,一般)
- 高専入学直後の学生に対する情報化社会に関する講義とその試験方法について(インターネットと情報倫理教育-シングルセッション,インターネットと情報倫理教育,一般)
- 改良taintモデルに基づくオブジェクト指向言語を用いたアプリケーション開発
- オブジェクトごとにセキュリティ制御可能なtaintモデル
- 校内LANの現状 : 構成変更についての報告
- オブジェクト毎にセキュリティ制御可能なtaintモデルのRuby言語への実装について
- オブジェクト毎にセキュリティ制御可能な taint モデルの Ruby 言語への実装について
- ヘテロなクラスタ環境に適した並列誤差逆伝搬アルゴリズム(数値計算2)
- 1-B-3 新幹線の終端駅に着目した列車発着スケジューリング(輸送・交通)
- 経済新聞記事内容の個々の企業におけるインパクトの判定(文書分類・評判分析)
- 可読性の向上を目的とした片仮名表記外来語の換言知識獲得(自然言語処理)
- 日本語語彙大系と日本語ウィキペディアにおける知識の自動結合による汎用オントロジー構築手法(単語・事象・オントロジー)
- ニュース番組における字幕生成のための文内短縮による要約
- 結束チャートを用いた日本語文章の語彙的結束構造の解析
- 2-A-4 企業の業績発表記事から抽出した業績要因への極性付与(金融工学(3))
- 完全2部グラフK_においてp+q+1本以下の辺を持つ連結全域部分グラフの個数に関する計算式
- グラフK_n-e、k_n・eにおいてn+1本以下の辺を持つ連結全域部分グラフの個数に関する計算式
- 完全グラフK_nにおいてn+1本以下の辺を持つ連結全域部分グラフの個数に関する計算式
- 節点数がn、辺数が「(3-2√)n^2+n-(7-2√)/(2√)」以上の単純無向グラフにおける連結全域部分グラフの個数系列の単峰性に関する証明
- 全節点間のネットワーク信頼性多項式における係数の性質について
- On the Importance of Each Edge with Respect to Minimum spanning Trees in a Weighted Graph
- On the Importance of Each Edge Using Its Traffic along Shortest Paths in a Network
- ネットワークにおける辺の重要度の評価について(計算量理論)
- 確率付きグラフ上の点素な s-t 路の期待最大本数の計算問題
- 辺の長さを持つグラフに対する各辺を通る最短路本数の計算問題
- 確率付きグラフ上の辺素な s-t 路の最大本数の期待値計算問題の計算量について
- 確率付グラフ上の辺素なs-t路の期待最大本数の下界値
- A Lower Bound of the Expected Maximum Number of Edge-disjoint s-t Paths on Probabilistic Graphs
- Computing the Expected Maximum Number of Vertex-disjoint s-t Paths in a Probabilistic Basically Series-parallel Digraph
- A Lower Bound of the Expected Maximum Number of Vertex-disjoint s-t Paths on Probabilistic Graphs
- 確率付グラフ上の点素なs-t Disjoint Pathsの期待最大本数の計算問題(理論計算機科学とその周辺)
- 確率付グラフ上の2節点間の辺素な路の最大本数の確率分布の計算に関する一考察(組合せ・グラフ・ネットワーク)
- 確率付グラフ上の点素なs-t路の最大本数の期待値計算問題
- 高専入学直後の学生に対する情報化社会に関する講義とその試験方法について(インターネットと情報教育-シングルセッション,インターネットと情報倫理教育,一般)
- 10-213 携帯端末からCMSを用いたe-ラーニング授業の試み((13)e-ラーニング,口頭発表論文)
- DS-1-1 有向閉路型走行経路を用いたAGVシステムにおける総移動距離を最小化する確率的オンラインアルゴリズムに関する競合比解析(DS-1.計算理論における学生の研究パワー:COMP学生シンポジウム,シンポジウムセッション)
- 1-D-7 Circular Permutation Graphの関節点,橋検出アルゴリズム(離散・組合せ最適化(3))
- 1-D-2 台形グラフにおけるMFVS問題のための効率的アルゴリズム(離散・組合せ最適化(1))
- 2-D-22 ラダー型走行経路を用いたAGVシステムにおけるデッドロック回復問題の計算複雑さの解析(物流)
- 語の意味分類の出現傾向を考慮したキーワード抽出の試み
- 分類の出現傾向を考慮したキーワード抽出
- Wikipediaと汎用シソーラスを用いた汎用オントロジー構築手法(人工知能,データマイニング)
- 2-E-1 AGVシステムにおけるオンライン搬送スケジューリングに対する完了時間和最小化オンラインアルゴリズムの競合比解析(離散最適化(1))
- 2-E-10 Circular Permutation Graph上の要節点導出のための最適並列アルゴリズム(離散最適化(3))
- 決定的な解析と相対的な比較による解析の二側面を持つ日本語係り受け解析
- 特許文書からのブートストラップ手法を用いた課題・効果表現対の抽出
- Unrestricted $LR(k)$ Grammars and its Parser, where $k=0,1$ (New Developments of Theory of Computation and Algorithms)
- 確率一般化LR構文解析の先読み方式変更による拡張 (計算機科学の基礎理論 : 21世紀の計算パラダイムを目指して)
- LC文法とその構文解析の拡張(情報基礎理論ワークショップ(LAシンポジウム)論文小特集)
- $LC$文法とその構文解析法の拡張について (計算モデルとアルゴリズム)
- LC構文解析法を拡張した構文解析法について
- LR構文解析の並列アルゴリズム
- 単純順位文法に対する並列構文解析アルゴリズム
- unrestricted LR 文法及び unrestricted LR 構文解析法の提案(計算モデルと計算の複雑さに関する研究)
- LR属性を拡張したR-L属性の提案
- LR構文解析の並列アルゴリズムについて(計算量理論)
- 属性文法に基づく意味解析の並列アルゴリズム
- L属性文法に基づく意味解析の並列アルゴリズムの開発
- 重要文抽出, 自由作成要約に対応した新聞記事要約システムYELLOW
- ニュース文の音声要約のための韻律情報の利用
- 語順を考慮した格フレームの提案と獲得手法
- 非対訳コーパスを用いた日本語複合名詞の英訳語推定
- 重複部・冗長部削除による複数記事要約手法
- 名詞の連接情報を用いた関連文書検索手法
- 名詞を中心とした連接に着目した新聞の関連記事検索手法
- 日本語新聞記事を対象とした関連記事検索の一手法
- Online Passive-Aggressive Algorithmを用いたクラスタリング
- 係り先候補の相対的な距離を反映した統計的日本語係り受け解析(評価表現・構文解析)
- Weblog内のリンクに対する感情推定の試み : Webコミュニティ発見法改善の基礎として(WWW,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 梯子型走行経路を用いたAGVシステムにおけるデッドロック回復問題の計算複雑さ
- 有向グラフにおけるある種の線形配列の順序付け手法 : スーパースケーラ プロセッサ上の並列度非依存なスケジューリング(組み合わせ最適化(1))
- 語彙的結束性に着目した文章抄録法の提案
- 結束チャートの自動生成と日本語文章の語彙的結束構造解析への応用
- 結束チャートの自動生成と日本語文章の語彙的結束構造解析への応用
- Byzantine Agreement on the Order of Processing Received Requests is Solvable Deterministically in Asynchronous Systems
- 係り受け関係を用いた重複表現削除
- 動詞型連体修飾表現の"N_1のN_2"への言い換え
- テレビニュース番組の字幕作成のための重複部削除による要約
- 要約のための連体修飾節の"AのB"への言い換え
- フラクタルブロック符号化の高速化 : 放送方式,画像処理・コンピュータビジョン,映像表現,画像通信システム,画像応用
- フラクタルブロック符号化の高速化
- 重要文抽出,自由作成要約に対応した新聞記事要約システム YELLOW(情報の検索とテストコレクション)
- 学生レポート採点支援のためのレポート類似部分発見手法(一般,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 冗長度削減による関連新聞記事の要約
- 参加者から見たNTCIR(NTCIR : 情報アクセスに関わるテキスト処理技術の評価ワークショップ)
- モバイルエージェント実行計画問題について (計算機科学基礎理論とその応用)
- 情報資産間の依存性を考慮した情報リスクセスメント法(サービス管理, ビジネス管理, 料金管理, 及び一般)
- 情報資産間の依存性を考慮した情報リスクセスメント法(5月13日, サービス管理, ビジネス管理, 料金管理, 及び一般)
- n-gram によるOCR誤り検出の能力検討のための適合率と再現率の推定に関する実験と考察
- OCRの誤り検出における2重マルコフ連鎖の一般的な能力の検討
- 文脈自由文法上のある非文訂正技術を用いたOCR出力後の誤り検出
- 文節文法を用いたイメージスキャナの読み取り結果の誤り検出
- 確率文脈自由文法が持つ解析木の生成数抑制能力に関する検証
- 確率文脈自由文法が持つ解析木の生成数抑制能力に関する検証
- 確率文脈自由文法におけるk best parser における妥当なkの検討
- 構文解析上の自由度をもった非文訂正法の一提案