統計的形態素解析と文字n-gramを利用したOCR誤り訂正
スポンサーリンク
概要
- 論文の詳細を見る
近年, インターネットの普及により, OCRを用いたテキストの電子化がますます重要な課題となってきた。日本語OCR誤り訂正の先行研究において統計的言語モデルを利用して訂正対象と同じ分野の学習コーパスを用意することで高精度の訂正能力を示す研究がある。しかし, 電子化された大量テキストコーパスを期待できない場合が多い。そこで電子化されたコーパスがない分野に対して, OCR処理された誤りを含むテキストから学習を行なうモデルを構築する。この時, 辞書に無い未知語獲得もOCR処理されたテキストから行なう。実際にOCR処理されたテキストに対する訂正実験の結果, 学習コーパスと訂正対象の分野が一致していた先行研究に比べ約1/4程度の訂正精度を示したことを報告する。
- 一般社団法人情報処理学会の論文
- 1999-03-04
著者
関連論文
- テキスト情報分析のための判断情報アノテーション(自然言語処理,意味解析,情報爆発論文)
- 現場発想による自然言語処理ブレークスルーの探求(平成21年度論文賞の受賞論文紹介)
- Espresso 型ブートストラッピング法における意味ドリフトのグラフ理論に基づく分析 : 語義曖昧性解消における評価
- バイパス付き編集グラフを用いた日本語並列構造解析(学習・系列解析・構文解析)
- グラフを用いたバイオ医療専門用語の類義語獲得(語彙・知識獲得)
- 系列ラベリングのための前向き後ろ向きアルゴリズムの一般化(学習・系列解析・構文解析)
- 被験者判定のゆれと要約モデル(コンテンツ処理)
- 係り受け解析器の部分解析精度評価とその利用(形態素・係り受け解析・感情)
- トーナメントモデルを用いた日本語係り受け解析
- Semi-Markov Conditional Random Fields のための損失関数スムージング
- 動詞項構造辞書への大規模用例付与
- 語彙概念構造に基づく言い換え生成 : 機能動詞構文の言い換えを例題に(自然言語)
- Web文書集合からの意見情報抽出と着眼点に基づく要約生成(Webマイニング)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- Web文書集合からの意見情報抽出と着眼点に基づく要約生成(Webマイニング)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- 自動生成された言い換え文における不適格な動詞格構造の検出(自然言語)
- 自動生成した言い換え文における動詞結合価誤りの自動検出手法(言語知識・解析・言い換え)
- 自動点訳サーバeBrailleを用いた病院内バリアフリー対応の試み(視覚障害,HCGシンポジウム)
- 自動点訳サーバeBrailleの医療文書点訳精度の向上に向けたIPADICの最適化(解析・言語資源)
- 自動点訳サーバ eBraille の開発
- 自動点訳サーバeBrailleの開発
- Particle Filterによる文脈の動的ベイズ推定(意味(言語モデル・文書分類))
- 複数文書から抽出した言明間の意味的関係の整理と関係付与(コーパス)
- 事象間関係知識の整備と類似・対立認識への応用(単語・事象・オントロジー)
- E-053 言論マップ生成のための事象間類似・対立関係の認識(自然言語・音声・音楽,一般論文)
- E-052 テキスト情報の事実性解析(自然言語・音声・音楽,一般論文)
- E-040 含意・矛盾認識のための事象間関係知識の整備(自然言語・音声・音楽,一般論文)
- 言論マップ生成課題 : 言説間の類似・対立の構造を捉えるために(情報分析・要約(テーマセッション1))
- Markov Logicを利用した時間的順序関係の同時推論
- 部分的かつ曖昧なラベル付き構造データからのマルコフ条件付確率場の学習(情報抽出・ラベル付与)
- GENIAコーパスからのネスト並列句同定(解析・抽出)
- 4J-3 経験マイニングのための事実性解析(情報爆発時代におけるデータマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- アラインメントと機械学習を応用した並列句解析 : 医学生物学論文からの情報抽出に向けて
- MEDLINE概要文の役割分類に対する信頼度の異なるデータからの学習の適用(情報抽出・検索)
- 統計的学習モデルによる分かち書き解析器の自動点訳での有効性の解析
- 圧縮ファイルへの直接照合を可能にする符号化法の提案
- 圧縮ファイルへの直接検索を可能にする符号化法の考案
- 辞書の語彙構成と点訳精度の関係の解析(点字,福祉情報工学一般,地域におけるITサポート(シンポジウムテーマ))
- テキスト情報分析のための判断情報アノテーション
- 機械学習による点字表記の解析 : 点訳支援システム構築に向けて
- 競合事物間における比較関係認識
- 競合事物間における比較関係認識
- 関連性理論を用いた発話の解釈
- 意見抽出を目的とした機械学習による属性-評価値対同定(属性抽出)
- 現場発想による自然言語処理ブレークスルーの探求
- 日本語単語分割の分野適応のための部分的アノテーションを用いた条件付き確率場の学習
- 係り受け木を利用した単語類似度計算方法とそのシソーラス拡張への応用
- 文間の弱い対立関係の認識
- 形態素・係り受け解析済みコーパス管理・検索ツール「茶器」
- WWWページからの手順に関する箇条書きの抽出
- 手順の説明を含む箇条書きを抽出するための手がかり分析
- Webフィルタリング処理時における表記ゆれの動的解決
- Webフィルタリング処理時における表記ゆれの動的解決
- ハブを作らないグラフ構築法を用いた半教師あり語義曖昧性解消
- Markov Logicによる日本語述語項構造解析
- オンライン最大マージン学習アルゴリズムに基づく多言語依存構造-述語項構造解析
- 係り受け解析器の部分解析精度評価とその利用(形態素・係り受け解析・感情)
- オンライン最大マージン学習アルゴリズムに基づく多言語依存構造--述語項構造解析 (言語理解とコミュニケーション)
- 係り受け解析器の部分解析精度評価とその利用 (情報学基礎・自然言語処理)
- 推移律を考慮した機械学習手法による時間的順序関係推定(解析・抽出)
- グラフ構造を持つ条件付確率場によるWikipedia文書中の固有表現分類
- HTMLの木構造を利用した条件付確率場による固有表現分類 : Wikipediaからのシソーラス半自動構築(学生セッション II)
- 依存構造を用いた中国語事象の時間関係のタグ付きコーパスの構築(学生セッション I)
- HTMLの木構造を利用した条件付確率場による固有表現分類 : Wikipediaからのシソーラス半自動構築(学生セッション II)
- 依存構造を用いた中国語事象の時間関係のタグ付きコーパスの構築(学生セッション I)
- 条件付確率場による日本語未知語処理(語と慣用句)
- 日本語文章の事象に対する判断情報アノテーション
- 言論マップ生成課題 : 言説間の類似・対立の構造を捉えるために(情報分析・要約(テーマセッション1))
- 共参照関係を用いた医学生物学文書中の事象抽出
- 文間関係認識のための局所構造アライメント
- 文間関係認識のための局所構造アライメント
- 文間関係認識のための局所構造アライメント
- 文間関係認識のための局所構造アライメント
- 共起パターンの学習による事態間関係知識の獲得
- パラレルコーパスからの機械翻訳向け同義表現抽出(自然言語)(「インタラクション:理論,技術,応用,評価」)
- D-2 Support Vector Machineを用いた地域情報ページの自動分類(Webコンテンツ処理,D.データベース)
- 半教師あり語義曖昧性解消のためのグラフスパース化
- 半教師あり語義曖昧性解消のためのグラフスパース化
- 半教師あり語義曖昧性解消のためのグラフスパース化
- 発話を対象とした類似文検索と機械翻訳への適用
- 自動評価を用いた機械翻訳規則のフィードバッククリーニング(自然言語)
- 直訳性を利用した機械翻訳知識の自動構築
- 機械学習に基づく決定性の中国語依存構造解析器(文構造解析)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 言語理解・意味理解の先駆者田中穂積先生の想い出(11)
- Webから獲得した感情生起要因コーパスに基づく感情推定
- 雑談対話のための評価表現を利用する相槌
- ウェブニュースを利用した雑談対話システム
- 結束性と首尾一貫性から見たゼロ照応解析(解析・抽出)
- 統計情報と文法制約を統合した統語解析手法
- 係り受け情報を利用したパーザの効率化とロバスト解析への応用
- 統計的言語モデルを用いたOCR誤り訂正システムの構築 (新しいシステムソフトウェア)
- 統計的形態素解析と文字n-gramを利用したOCR誤り訂正
- 共起情報と統計的形態素解析によるOCR誤り訂正
- 隠れマルコフモデルによる日本語形態素解析のパラメータ推定
- HMMによる日本語形態素解析システムのパラメータ学習
- HMMによる日本語形態素解析システムのパラメータ学習
- HMMを用いた形態素解析のパラメータ学習
- 意見抽出のための評価表現の収集
- テキストマイニングによる評価現象の収集
- 自動文節対応付けを用いた要約中の文再構成操作の調査
- 自動文節対応付け手法を用いた要約生成操作の調査