確率伝播法を用いた文書検索用キーワードの自動抽出(単語・語彙(I))
スポンサーリンク
概要
- 論文の詳細を見る
カーナビや携帯電話などの電子機器の高機能化に伴い,製品の操作説明書などを電子化して機器上で検索・閲覧するニーズが高まっている.そのためキーボードがなく文字入力が困難な機器上でも,簡単に文書を検索できるインターフェースが求められている.そこで本報告では,ユーザの読み入力に応じてキーワードを自動提示するインターフェースの実現を目的として,検索対象文書からキーワードを自動抽出する方式を提案する.本方式は対象文書の論理構造を利用したブートストラップ手法により重要語句を求め,確率伝播法を用いたスコア付けにより重要語句からキーワードを高精度に抽出する.機器の操作説明書を用いた評価の結果,人間が説明書を読んで人手で抽出したキーワードの84%を本方式により自動抽出できた.また,読みを1文字入力して得た上位20個のキーワードに対して70%の適合率を得た.
- 一般社団法人情報処理学会の論文
- 2008-03-27
著者
-
三上 崇志
三菱電機株式会社情報技術総合研究所
-
相川 勇之
三菱電機株式会社情報技術総合研究所
-
岡田 康裕
三菱電機インフォメーションシステムズ(株)
-
三上 崇志
三菱電機株式会社情報技術総合研究所音声言語処理技術部
-
平野 敬
三菱電機株式会社情報技術総合研究所
-
岡田 康裕
三菱電機株式会社情報技術総合研究所
-
三上 崇志
三菱電機株式会社 情報技術総合研究所
-
平野 敬
三菱電機株式会社 情報技術総合研究所
関連論文
- FAX-OCRシステムにおける自由帳票読取り技術について
- 文字認識・文書画像解析技術の課題と応用 : 電子文書の解析と映像認識に向けて(複合現実感のためのパターン認識・理解)
- ダブル配列を用いた文書検索用キーワード提示の高速化(セッション3:キーワード付与)
- 概念抽出型テキストマイニングによるアンケート分析手法の提案
- D-5-2 CRM 向けテキストマイニング方式の提案
- eCRM向け概念抽出型テキストマイニング
- D-37 大規模検索システムにおける概念辞書自動更新(辞書・シソーラス,D.データベース)
- 言語事例推論を用いたネットワーク障害対応ガイダンス
- 2U-1 ヘルプデスク支援システムにおける言語事例データの類似検索
- コーパスからの同義語の獲得(1) : 近傍単語頻度統計によるアプローチ
- ダブル配列を用いた文書検索用キーワード提示の高速化(セッション3:キーワード付与)
- eCRM向け概念抽出型テキストマイニング
- 言語事例推論を用いたネットワーク障害対応ガイダンス
- 自由書式文書からの属性自動抽出・視覚化手法の検討(一般セッション(1))(ユビキタスコンピューティングのためのパターン認識・理解)
- ヘルプデスク支援システムにおける問題解決機能
- 1P-4 ヘルプデスク支援システムにおける言語事例検索 : 全体構成
- 1P-3 ヘルプデスク支援システムにおける言語事例検索 : 類似文照合
- ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出(画像認識,コンピュータビジョン)
- 確率伝播法を用いた文書検索用キーワードの自動抽出(単語・語彙(I))
- D-13-1 表形式UIモデル記述からのWeb画面プログラム自動生成方式(D-13. 知能ソフトウェア工学,一般セッション)
- D-9-5 ルールの部分構造再利用による設計文書チェックルール作成方式(D-9. オフィスインフォメーションシステム,一般セッション)
- D-5-6 文書の論理構造を用いたブートストラップ手法による重要語句の抽出(D-5. 言語理解とコミュニケーション,一般セッション)
- 技術文書からの用語知識の自動獲得方式の検討(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 技術文書からの用語知識の自動獲得方式の検討(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- D-13-8 注釈付きXMLスキーマを利用したデータ変換プログラム生成方式(D-13.知能ソフトウェア工学,一般講演)
- D-5-8 表層格解析を用いた業務文書チェック方式(D-5.言語理解とコミュニケーション,一般講演)
- D-5-7 設計文書における同義語辞書自動作成方式 : 表記ゆれ抽出の検討(D-5.言語理解とコミュニケーション,一般講演)
- 設計品質向上・開発力強化のための設計書チェック技術とその応用ソリューション"naviQ" (特集 企業・社会の発展を支えるITソリューション)
- D-13-7 設計知識のグラフ表現に基づくプッシュ型文書作成支援システム(D-13.知能ソフトウェア工学,一般講演)
- D-12-87 電子文書からの表領域抽出方式基礎検討(D-12.パターン認識・メディア理解,一般講演)
- D-11-126 図面画像内シンボル抽出方式の検討(D-11.画像工学D(画像処理・計測),一般講演)
- D-12-64 図面内文字列抽出における抽出誤り推定方式の検討(D-12. パターン認識・メディア理解, 情報・システム2)
- PDLデータの解析による多様な形式の文書からの情報抽出方式の検討(一般セッション(3))
- PDLデータの解析による多様な形式の文書からの情報抽出方式の検討(一般セッション(3))(CVのためのパターン認識・学習理論の新展開)
- K-080 1次元タッチセンサを用いたジェスチャ認識の検討(K.ヒューマンコミュニケーション&インタラクション)
- I-080 構造情報を用いた白線・横断歩道検出に関する検討(I.画像認識・メディア理解)
- 木の編集距離を用いた文の類似度計算方式
- 木の編集距離を用いた文の類似度計算方式
- D-13-8 適合性フィードバックに基づいた文書チェックルール作成支援方式(D-13.知能ソフトウェア工学,一般講演)
- D-5-13 多次元絞込み検索機能によるテキストマイニング(D-5.言語理解とコミュニケーション,一般講演)
- D-5-6 意味構造抽出のための係り受け解析に関する考察(D-5.言語理解とコミュニケーション,一般講演)
- D-5-8 単語の連想関係に基づく概念検索方式の評価(D-5. 言語理解とコミュニケーション, 情報・システム1)
- 車載カメラでの移動物体検出による超音波センサ検出領域の動的拡大
- 木の編集距離を用いた文の類似度計算方式
- D-12-51 多言語文書内の画像に対する言語種類判定処理の検討(D-12.パターン認識・メディア理解,一般セッション)
- HMMを用いた路面標示認識方式に関する検討(テーマセッション,CV・パターン認識のための学習・最適化)
- FAXOCRにおける一般帳票の読み取り--ロバストなモデル照合に基づく劣化した一般帳票画像の解析
- ロバストなモデル照合に基づくFAX送信された一般帳票の読取り
- 形状特徴併用検索とその並列処理による大量文書検索方式の検討
- 形状特徴併用検索とその並列処理による大量文書検索方式の検討
- 形状特徴併用検索とその並列処理による大量文書検索方式の検討
- FAX送信された既存帳票画像からの認識フィールド抽出方式の検討
- 表の構造解析によるFAX送信帳票からの文字認識フィールド抽出法
- オンライン特徴とパターンマッチング手法によるオンライン文字認識
- オンライン特徴とパターンマッチング手法によるオンライン文字認識
- 低品質画像データによる形状特徴併用検索方式の評価
- 既存帳票からの文字認識フィールド抽出に関する検討
- 4D-2 OCR手法を用いたオンライン手書き文字認識
- 外郭ゼロ交差特徴と正準判別分析法による低品質印刷文字認識
- 文字認識誤りを含むテキストからの全文検索方式の一検討
- FAXOCR装置における帳票画像からのノイズ除去
- 文字認識を利用したホームページ自動作成
- 文書読取における棄却判定方式の検討
- 文書画像からの罫線抽出方式
- A-20-3 携帯端末向けバーコード読取り支援機能の基礎検討(A-20. スマートインフォメディアシステム)
- D-12-32 携帯端末向け文字認識方式の基礎検討
- D-5-6 単語の接続情報を用いた予測入力方式の基礎検討
- D-5-4 検索用キーワード提示による文書検索の操作性向上(D-5. 言語理解とコミュニケーション,一般セッション)
- D-12-27 省メモリオンライン中国語文字認識
- 印刷文書読取システムの試作
- D-9-7 文書検索システムにおける検索結果可視化方式の検討(D-9. オフィスインフォメーションシステム)
- D-12-21 形状特徴照合と形態素解析による文書情報抽出方式の検討
- 情報化オフィスにおける文書インタフェース技術 (特集 IT時代のヒューマンインタフェース技術)
- D-12-17 手書き文書への形状特徴併用検索方式の適用検討
- D-5-7 情報検索のタスク評価手法に関する一考察(D-5. 言語理解とコミュニケーション)
- D-12-33 カラー文書からの文字列検出方式
- 双方向Feature Mapによるアーム制御
- 文字認識における距離計算の高速化の検討
- レイアウト情報と記述内容による文書項目の自動分類
- Gaborフィルタを用いた線分特徴抽出手法による手書き数字認識
- 複合改良LVQ方式を用いた手書き漢字認識
- 表形式伝票からの読取領域抽出
- 統計情報とコスト最小法に基づいた形態素解析
- A-10-2 奇数次高調波の再利用による高速擬似重低音再生アルゴリズム(A-10.応用音響,一般セッション)
- D-9-34 単語間の連接情報を用いた階層入力方式(D-9.ライフインテリジェンスとオフィス情報システム,一般セッション)
- A-11-1 超音波センサの指向性と強度比を利用した開口合成画像からの虚像除去(A-11.超音波,一般セッション)
- D-12-1 領域内の最適化に基づく文字列抽出手法(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成))
- D-12-2 文字認識処理におけるガベージデータを考慮した特徴次元圧縮法(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成))