ブートストラップ型文書構造化のためのLabel学習方式の開発
スポンサーリンク
概要
- 論文の詳細を見る
医療,金融,製造で扱われる業務情報は文書の形で記録,閲覧,祈用される。業務情報の分析・整期に携わる知識労働者の生産性向上のためには,大量の非構造文書を利活用可能な形式へ構造化する技術が必須である。文書構造化においては,に本文領域の他,表の構造化が有効だが,表構造化のための Label (項目名) 辞書を業務に合わせて構築する必要があり,辞書構築のコストが導入ネックとなる。本研究では,Label 辞書構築のコスト削減のため,既知の Label 辞書を基に新規 Label 単語を獲得し,Label 辞書を随時更新していく,Label 学科型の表構造化技術を開発した。これにより,表構造の抽出率 80% を達成した。
- 2013-07-19
著者
関連論文
- H-012 仮説検証型アプローチを用いた定義レス帳票認識技術(H分野:画像認識・メディア理解,一般論文)
- 非構造化データ利活用のためのメディア処理技術(ビッグデータとAI)
- ブートストラップ型文書構造化のためのLabel学習方式の開発
- 非構造化データ利活用のためのメディア処理技術