大規模テキスト並列検索エンジンRetrievalExpress (1) : 並列検索方式
スポンサーリンク
概要
- 論文の詳細を見る
今日, インターネットを介して極めて膨大なテキスト情報にアクセスすることが可能になり, また, 新聞・特許などの大規模なテキスト情報をデジタル出版(CD-ROMなど)の形態で利用することも可能になっている。このようなテキスト情報を有効活用するためには, 高速な全文検索技術が不可欠である。高速全文検索の要となるのは, インデックス(インバーテッドファイル)の形式とそのマッチングアルゴリズムである。日本語のようなべた書きテキストを対象として高速かつ洩れのない全文検索を実現するには, 文字組をキーとして, その出現位置(テキストID+オフセット)を記録するインデックス形式が有効なことが知られている。筆者らの開発したフレキシブル文字列インバージョン法では, 字種別キー文字列長, 縮退文脈, 高頻度キー文字列用サブインデックスなどを, 検索対象テキストの文字列統計に適合させることで, 検索レスポンスを改善した。このようなインデックス形式/マッチングアルゴリズムの工夫に加え, 検索プロセスあるいはマシン構成を並列化することでスケーラブルな検索性能を提供することが, 応用システム構築においては非常に重要である。すなわち, 次第に増加していく検索対象テキスト量や, 同時アクセスするユーザ数などに応じて, 高速な検索レスポンスを確保できるような拡張性のあるアーキテクチャが必要になる。全文検索における並列化のアプローチは, 既にインターネット上のディレクトリサービスなどで実績があるようだが, 並列化の単位・方式・効果などに関する議論は必ずしも十分ではない。そこで, 本稿では, フレキシブル文字列インバージョン法をベースとした検索エンジンRetrievalExpressについて, 並列検索方式(インデックス分割による並列化, 多重処理による並列化)とその評価結果を報告する。
- 1997-09-24
著者
-
福島 俊一
NECインターネットシステム研究所
-
福島 俊一
Nec
-
赤峯 享
NEC 情報メディア研究所
-
赤峯 享
NECインターネットシステム研究所
-
赤峯 享
NEC C&C情報研究所
-
中塚 敏之
Nec情報システムズ
-
田村 美保子
Nec情報システムズ
-
会森 清
NEC
-
柴田 茂明
NEC情報システムズ
関連論文
- Web文書集合からの意見情報抽出と着眼点に基づく要約生成(Webマイニング)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- Web文書集合からの意見情報抽出と着眼点に基づく要約生成(Webマイニング)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- 日本語情報検索システム評価用テストコレクション BMIR-J2
- 意見抽出を目的とした機械学習による属性-評価値対同定(属性抽出)
- 文字タグ法による手書き住所読み取りの評価
- 手書き住所読取りのための町名検索アルゴリズム : 文字タグ法
- D-2 Support Vector Machineを用いた地域情報ページの自動分類(Webコンテンツ処理,D.データベース)
- モバイルサーチエンジンWithAirの試作と評価
- モバイルサーチエンジンWithAirの試作と評価
- 日本語入力による英文作成支援インタフェース
- 冗長インデクスを用いた OCR テキスト検索システム
- 日本語入力による英文作成支援システム : 辞書学習
- 日本語入力による英文作成支援システム : 長文パターンによる翻訳
- 概念表現を用いた自動通訳システムINTERTALKER
- 情報検索システム評価用データベースの構築の提案
- 意見抽出のための評価表現の収集
- インターネットからの評判情報検索(WWW上の情報の知的アクセスのためのテキスト処理)
- テキストマイニングによる評価現象の収集
- D-1 意見分析システムにおける意見抽出方式の検討と評価(Webコンテンツ処理,D.データベース)
- インターネットからの評判情報検索
- インターネットからの評判情報検索
- 冗長分散格納によるPCクラスタ上の動的負荷均衡化
- 4T-3 WWW検索サービスにおけるトレンド語抽出
- 日本語文構造分類ツール
- 大規模テキスト並列検索エンジンRetrievalExpress (1) : 並列検索方式
- 全文検索用文字成分表の一圧縮方式
- 文章解析アクセラレータ(2) : 接続検定マシンMONCの試作と評価
- 形態素抽出マシンMEX-IIの試作と評価
- 形態素抽出マシンMEX-IIの概要
- ア***ロセッサによる文脈自由言語の並列認識アルゴリズム
- 文章解析アクセラレータ(1) : 形態素抽出マシンの試作
- 多重照合型形態素抽出方式に関する検討
- 文字列検索LSIを用いた国語辞書システムの構築法
- 文構造を有する日本語テキストエディタJESS
- 日本語文章作成支援システムCOMET
- 日本語入力による英文作成支援システム : 仮名漢字変換から仮名英語変換へ
- 対話文の英日機械翻訳における日本語待遇表現の生成
- 招待講演:新世代検索ポータル技術 (2001年情報学シンポジウム講演論文集--21世紀の情報化社会・ネットビジネスを支える情報学/情報技術) -- (セッション5:情報技術の視点から)
- 「情報検索の新たな展開 : テストコレクションからサーチエンジンまで」
- WWWサーチエンジン (特集 情報検索)
- Webサーチエンジンの基本技術と最新動向(上)基本技術
- Webサーチエンジンの基本技術と最新動向(下)最新技術
- WWW情報検索技術と評価の問題(情報検索システムの力くらべ : テストコレクションによる評価)
- 農業情報の検索・ナビゲーション (特集 情報化がもたらす新しい農業・農村)
- 日本語生成に於ける対話文脈構造と代名詞省略
- 翻訳機能付きワープロ : 不安と疲れを感じさせないインタフェース
- 検索エンジンの仕組みと技術の発展(インターネット検索エンジン)
- モバイルユーザ向け情報選別配信技術
- 目的および個人に特化したサーチエンジンの開発 (「Webシステムにおける情報獲得支援技術」)
- 4P-9 組合せ情報フィルタ方式の信頼度を用いた精度改良
- シソーラスによるクエリー展開を用いた大規模テキスト検索
- 情報検索におけるサーチャの知識を用いた自然言語からの検索式生成
- 高速全文検索システム RetrievalExpress
- 文字ベース凝縮テキストによる全文検索方式の評価
- 単語共起によるクエリー展開を用いた大規模テキスト検索
- 語順と省略に着目した自然な日本語対話文の生成
- 対訳用例に基づく対話文翻訳における日本語生成方式
- 大規模テキスト並列検索エンジンRetrievalExpress (2) : 構造化テキスト検索方式
- 高速全文検索のためのフレキシブル文字列インバージョン法(1) 方式概要
- 高速全文検索のためのフレキシブル文字列インバージョン法(2)実装と評価
- 高速全文検索のためのフレキシブル文字列インバージョン法(1)方式概要