単語を単位とした文書間差分抽出方式およびその高速化手法
スポンサーリンク
概要
- 論文の詳細を見る
ワープロ等の上で、旧文書より新文書を編集する際に、新旧文書の差分文字列を機械的に把握することは、編集作業の効率化につながる。しかし、一般にワープロソフトの文書比較機能は、文書の段落、行等のある程度の文字列のまとまりで比較しており、頻繁に使用される単語を置換した場合などでは差分箇所を把握し難い。そこで、単語を単位とした差分を抽出することが適切であるが、日本語文書の単語分割処理の計算量は大きく、単語単位の差分を迅速に抽出することは困難であった。本稿では旧文書のみ単語分割し、分割されていない新文書との差分を抽出する〔単語一文字列〕間差分抽出方式を提案する。これにより、差分抽出時に単語分割することなく、迅速に単語単位の差分を抽出できる。また、従来の2種類の差分抽出手法を〔単語一文字列〕間に拡張した方式を組み合わせて、高速に差分抽出する手法ついて述ベる。
- 一般社団法人情報処理学会の論文
- 1994-09-20
著者
-
青山 ゆき
(株)日立製作所情報・通信開発本部
-
東野 純一
(株)日立製作所システム開発研究所
-
青山 ゆき
(株)日立製作所システム開発本部
-
東野 純一
(株)日立製作所 中央研究所
-
東野 純一
(株)日立製作所 情報・通信開発本部
関連論文
- HyTime文書解析エンジンの試作
- 5P-8 知識指向文書管理基盤の開発(2) : 文書管理ミドルウェアDocumentBrokerにおける文書管理モデル
- キーワードの統計分布情報を用いた文書の多重分類システム
- 特許CD-ROMライブラリ検索システム
- 文書理解における論理構造抽出の一手法
- 6)文書理解の一方式とその応用(視覚情報研究会)
- 文書理解の一方式とその応用
- 最短経路問題のホップフィールド型ニューラルネットワークによる解法(交通運輸)
- 0-1整数計画問題を解くホップフィールド型ニューラルネットワーク
- 上・下流の交通量および速度を考慮したニューラルネットワークによる交通量予測
- ニューラルネットワークを用いた交通量予測
- 部品・参照の編集を支援する構造化文書エディタの提案
- 差分DTD生成型の構造化文書差分抽出方式
- 単語を単位とした文書間差分抽出方式およびその高速化手法
- 遺伝アルゴリズムによる外部ピン数最小を目標とする論理回路分割
- ファジィ化した一般化Hough変換およびマッチングによる顔画像からの唇輪郭線抽出
- ランに対する座標演算に基づく2値画像の高速回転のための一手法
- B-8 SGML文書の変換・再利用のための言語"AEsop"(文書構造・SGML)