構造化文書対応全文検索システムBibliotheca2 TextSearchの開発 (3) : 構造指定全文検索方式
スポンサーリンク
概要
- 論文の詳細を見る
本稿では, 構造化文書対応全文検索システムBibliotheca2 TextSearchにおける, SGML文書の論理構造を指定した検索(構造指定全文検索)の処理方式について述べる。Bibliotheca2 TextSearchでは, 登録時にSGML文書の木構造を重ね合わせることにより, 登録済み文書に対して論理構造を一意に識別するためのSGML構造インデクスを生成する。また, 登録文書から抽出した各n-gramに対し, 文書番号, 構造番号, 文字位置を格納したn-gramインデクスを生成し登録する。そして, 検索時にはSGML構造インデクスを参照することにより検索対象とする論理構造の構造番号を取得する。次に, ここで得た構造番号を基に n-gramインデクスを参照することにより, 指定された論理構造中に検索タームが含まれる文書を高速に検索することが可能になる。
- 一般社団法人情報処理学会の論文
- 1997-09-24
著者
-
多田 勝己
(株)日立製作所情報通信開発本部
-
加藤 寛次
(株)日立製作所情報通信開発本部
-
岡本 卓哉
(株)日立製作所システム開発本部
-
菅谷 奈津子
(株)日立製作所 情報・通信開発本部
-
川下 靖司
(株)日立製作所
-
加藤 寛次
(株)日立製作所情報・通信開発本部
-
多田 勝己
(株)日立製作所システム開発本部
-
菅谷 奈津子
(株)日立製作所システム開発本部
-
加藤 寛次
(株)日立製作所
-
川下 靖司
(株)日立製作所ソフトウェア事業部
関連論文
- 文字成分表を用いた大規模全文検索方式の開発 : ハッシュレス文字成分表の高精度化方式
- 文字成分表を用いた大規模全文検索方式の開発 : ハッシュレス文字成分表の構成方式
- 高速UNIXファイルシステムの性能評価
- 高速UNIXファイルシステムの開発における多重アクセス制御方式の実現
- 高速UNIXファイルシステムの開発における非同期I/O制御方式の実現
- 高速UNIXファイルシステムの開発におけるインタフェース仮想化方式の実現
- 高速UNIXファイルシステムの基本構想
- ストライプド高速UNIXファイルシステムの開発 : バーチャルアレイ・ファイルシステム(VAFS)
- バーチャルアレイ・ファイルシステム(vafs)の基本構想
- n-gram型大規模全文検索方式の開発 : 文字種適応型n-gramインデクス方式
- n-gram型大規模全文検索方式の開発 : インクリメンタル型n-gramインデクス方式
- フルテキストサーチ用フィルタリング型高速文字列照合方式
- フルテキストサーチシステムBibliotheca/TSの開発(2) : サーチアルゴリズム
- フルテキストサーチシステムBirliotheca/TSの開発(1) : システムの概要
- 文書検索向き数値検索方式の提案
- 高速先頭照合方式によるストリングサーチ高速化の検討
- 自由語検索のための高速文字列検索方式
- 自由語検索のための同義語・異表記展開方式
- 自由語による全文検索のためのテキストサーチマシンTSM-I
- 5P-10 知識指向文書管理基盤の開発(4) : ORDB向け構造化文書全文検索プラグイン
- 5P-9 知識指向文書管理基盤の開発(3) : 文書管理ミドルウェアDocumentBrokerにおける構造化文書管理方式
- 5P-8 知識指向文書管理基盤の開発(2) : 文書管理ミドルウェアDocumentBrokerにおける文書管理モデル
- 紙面法規文書からSGML文書への変換システムの開発(2) : 文字認識結果のSGML変換
- 紙面法規文書からSGML文書への変換システムの開発(1) : 概要と文書認識
- 戸籍紙面の高精度認識方式
- 構造化文書対応全文検索システムBibliotheca2 TextSearchの開発 (4) : 検索機能および検索性能
- 構造化文書対応全文検索システムBibliotheca2 TextSearchの開発 (3) : 構造指定全文検索方式
- 構造化文書対応全文検索システムBibliotheca2 TextSearchの開発 (2) : 構造化文書処理方式
- 構造化文書対応全文検索システムBibliotheca2 TextSearchの開発 (1) : システムの概要
- 黒画素方向性特徴のずらしマッチングによる印刷文字認識方式の開発
- 大規模ユーザ向け情報クリッピングシステム
- 5P-7 知識指向文書管理基盤の開発(1) : 文書管理ミドルウェアDocumentBrokerのシステムアーキテクチャ
- 知識工学の必要性
- 5P-11 知識指向文書管理基盤の開発(5) : n-gram方式に基づく概念検索