木の編集距離を用いた文の類似度計算方式
スポンサーリンク
概要
- 論文の詳細を見る
業務の効率化や知識獲得を目的として文書の自動分類技術や類似文検索技術の要求が高まっている.従来これらの技術に対して,ベクトル空間モデルによる研究が行われてきたが,文構造を考慮することができない.そこで本稿では,自然文を木構造グラフに変換して解析し,同型構文や意味が類似する文の距離計算方式を提案する.提案方式では木の編集距離を応用して文と文の距離を計算する.木構造内のノード移動を考慮したコスト計算や子ノードのソートを行うなどの改良により,180 文を 20 クラスタに分類する実験において F 尺度 0.738 を得た.
- 2010-05-20
著者
-
三上 崇志
三菱電機株式会社情報技術総合研究所
-
川又 武典
三菱電機株式会社情報技術総合研究所
-
川又 武典
三菱電機(株)情報技術総合研究所
-
三上 崇志
三菱電機株式会社情報技術総合研究所音声言語処理技術部
-
平野 敬
三菱電機株式会社情報技術総合研究所
-
三上 崇志
三菱電機株式会社 情報技術総合研究所
-
平野 敬
三菱電機株式会社 情報技術総合研究所
-
川又 武典
三菱電機株式会社 情報技術総合研究所
関連論文
- FAX-OCRシステムにおける自由帳票読取り技術について
- 文字認識・文書画像解析技術の課題と応用 : 電子文書の解析と映像認識に向けて(複合現実感のためのパターン認識・理解)
- ダブル配列を用いた文書検索用キーワード提示の高速化(セッション3:キーワード付与)
- アナログタッチパネルによるマルチタッチインタフェース
- マルチタッチインタフェース技術 (特集 デジタルメディアを支える先進技術)
- マルチタッチインタフェース (特集 今,タッチパネルがおもしろい)
- ダブル配列を用いた文書検索用キーワード提示の高速化(セッション3:キーワード付与)
- 自由書式文書からの属性自動抽出・視覚化手法の検討(一般セッション(1))(ユビキタスコンピューティングのためのパターン認識・理解)
- 指の近接/接触検知が可能な3次元タッチパネル(セッション1,あったかいインタラクション)
- ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出(画像認識,コンピュータビジョン)
- 確率伝播法を用いた文書検索用キーワードの自動抽出(単語・語彙(I))
- D-9-5 ルールの部分構造再利用による設計文書チェックルール作成方式(D-9. オフィスインフォメーションシステム,一般セッション)
- D-5-6 文書の論理構造を用いたブートストラップ手法による重要語句の抽出(D-5. 言語理解とコミュニケーション,一般セッション)
- 技術文書からの用語知識の自動獲得方式の検討(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 技術文書からの用語知識の自動獲得方式の検討(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- D-5-7 設計文書における同義語辞書自動作成方式 : 表記ゆれ抽出の検討(D-5.言語理解とコミュニケーション,一般講演)
- 設計品質向上・開発力強化のための設計書チェック技術とその応用ソリューション"naviQ" (特集 企業・社会の発展を支えるITソリューション)
- D-13-7 設計知識のグラフ表現に基づくプッシュ型文書作成支援システム(D-13.知能ソフトウェア工学,一般講演)
- D-12-87 電子文書からの表領域抽出方式基礎検討(D-12.パターン認識・メディア理解,一般講演)
- D-11-126 図面画像内シンボル抽出方式の検討(D-11.画像工学D(画像処理・計測),一般講演)
- D-12-64 図面内文字列抽出における抽出誤り推定方式の検討(D-12. パターン認識・メディア理解, 情報・システム2)
- PDLデータの解析による多様な形式の文書からの情報抽出方式の検討(一般セッション(3))
- PDLデータの解析による多様な形式の文書からの情報抽出方式の検討(一般セッション(3))(CVのためのパターン認識・学習理論の新展開)
- K-080 1次元タッチセンサを用いたジェスチャ認識の検討(K.ヒューマンコミュニケーション&インタラクション)
- I-080 構造情報を用いた白線・横断歩道検出に関する検討(I.画像認識・メディア理解)
- 木の編集距離を用いた文の類似度計算方式
- 木の編集距離を用いた文の類似度計算方式
- D-5-13 多次元絞込み検索機能によるテキストマイニング(D-5.言語理解とコミュニケーション,一般講演)
- 車載カメラでの移動物体検出による超音波センサ検出領域の動的拡大
- 木の編集距離を用いた文の類似度計算方式
- D-12-51 多言語文書内の画像に対する言語種類判定処理の検討(D-12.パターン認識・メディア理解,一般セッション)
- HMMを用いた路面標示認識方式に関する検討(テーマセッション,CV・パターン認識のための学習・最適化)
- FAXOCRにおける一般帳票の読み取り--ロバストなモデル照合に基づく劣化した一般帳票画像の解析
- ロバストなモデル照合に基づくFAX送信された一般帳票の読取り
- D-12-76 オンライン中国語文字認識
- 形状特徴併用検索とその並列処理による大量文書検索方式の検討
- 形状特徴併用検索とその並列処理による大量文書検索方式の検討
- 形状特徴併用検索とその並列処理による大量文書検索方式の検討
- FAX送信された既存帳票画像からの認識フィールド抽出方式の検討
- オンライン文字列認識精度向上に関する検討
- D-12-20 ストローク間情報を用いたオンライン文字認識の改良
- 表の構造解析によるFAX送信帳票からの文字認識フィールド抽出法
- オンライン特徴とパターンマッチング手法によるオンライン文字認識
- オンライン特徴とパターンマッチング手法によるオンライン文字認識
- 低品質画像データによる形状特徴併用検索方式の評価
- 既存帳票からの文字認識フィールド抽出に関する検討
- オンライン文字認識における言語情報の効果について
- ストローク情報による文字認識結果の信頼度判定精度向上に関する一検討
- 2L-5 OCR手法を用いたオンライン手書き文字認識の改良
- 中国語オンライン手書き文字認識 : 日本語のオンライン手書き漢字認識との比較と認識性能・文字入力効率の改善 (画像の認識・理解)
- 4D-3 ストローク情報を用いた検定によるオンライン文字認識精度向上の検討
- 4D-2 OCR手法を用いたオンライン手書き文字認識
- 外郭ゼロ交差特徴と正準判別分析法による低品質印刷文字認識
- 文字認識誤りを含むテキストからの全文検索方式の一検討
- FAXOCR装置における帳票画像からのノイズ除去
- セグメント特徴を使用したオンライン署名照合方式
- ピンイン情報を併用したオンライン中国語文字認識
- 文書画像からの罫線抽出方式
- A-20-3 携帯端末向けバーコード読取り支援機能の基礎検討(A-20. スマートインフォメディアシステム)
- D-12-32 携帯端末向け文字認識方式の基礎検討
- D-5-6 単語の接続情報を用いた予測入力方式の基礎検討
- オンライン手書き文字データ(TUAT)の分析
- 大局的整合法とDPによるストロークの対応付けを併用したオンライン手書き文字認識
- D-5-4 検索用キーワード提示による文書検索の操作性向上(D-5. 言語理解とコミュニケーション,一般セッション)
- 1F-2 加速度センサを用いたモーション入力機能に関する検討(ジェスチャ・手描き,一般セッション,インターフェース)
- H-047 オンライン文字認識における文字推測機能の検討(H分野:画像認識・メディア理解)
- D-12-27 省メモリオンライン中国語文字認識
- I-77 クラスタリング手法による文字認識辞書圧縮の検討(手書き文字入力,I.画像認識・メディア理解)
- 印刷文書読取システムの試作
- D-9-7 文書検索システムにおける検索結果可視化方式の検討(D-9. オフィスインフォメーションシステム)
- D-12-21 形状特徴照合と形態素解析による文書情報抽出方式の検討
- 情報化オフィスにおける文書インタフェース技術 (特集 IT時代のヒューマンインタフェース技術)
- D-12-17 手書き文書への形状特徴併用検索方式の適用検討
- 方向コード特徴とストローク特徴を用いたオンライン文字認識方式
- 中国語単語知識処理方式の開発
- 中国語オンライン手書き文字データの分析
- 2F-2 車載カメラによる追い越し車両検出方式の検討(モバイル通信とITS(2),一般セッション,ネットワーク,情報処理学会創立50周年記念)
- 大局的特徴と局所的特徴とを併用したオンライン筆者識別方式
- 双方向Feature Mapによるアーム制御
- Gaborフィルタを用いた線分特徴抽出手法による手書き数字認識
- 複合改良LVQ方式を用いた手書き漢字認識
- 表形式伝票からの読取領域抽出
- D-11-102 デザイン性を維持したGUI部品の再配置手法(D-11.画像工学,一般セッション)
- D-11-14 建築物ビットマップテクスチャのベクトル化(D-11.画像工学,一般セッション)
- D-12-7 ロバストな隠線処理方式の開発(D-12.パターン認識・メディア理解,一般セッション)
- 図形のデフォルメ技術 (特集 ヒューマンインタフェースを支える先端技術 : 新たな価値創造に向けて)
- A-10-2 奇数次高調波の再利用による高速擬似重低音再生アルゴリズム(A-10.応用音響,一般セッション)
- D-21-7 情報家電向け異種サービスコンテンツ横断検索システムの検討(D-21.マルチメディア情報ハイディング・エンリッチメント,一般セッション)
- A-11-1 超音波センサの指向性と強度比を利用した開口合成画像からの虚像除去(A-11.超音波,一般セッション)
- D-12-1 領域内の最適化に基づく文字列抽出手法(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成))
- D-12-2 文字認識処理におけるガベージデータを考慮した特徴次元圧縮法(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成))