N.M-gram : ハッシュ値付きN-gram索引による全文検索の一手法
スポンサーリンク
概要
- 論文の詳細を見る
全文検索システムの転置索引を実現するにあたり,テキストデータからN-gram法によって切り出したトークンを検索キーにする手法が広く用いられている.この手法には,言語中立性や再現率の完全性という利点がある反面,索引ファイルのサイズが肥大化して空間効率が悪化するという欠点がある.検索の際にクエリから切り出した各トークンが対象文書のテキスト内でも連接しているかどうかを判断するためには,索引ファイル内にトークンの文書内での出現位置を記録しておくことが必要となるが,この位置情報が索引ファイルの肥大化の一因となっている.本稿では,N-gram法の欠点である索引ファイルの空間効率を改善する手法として,N.M-gram法を提案する.N.M-gram法では,各トークンの文書内での位置情報のかわりに後続のトークンのハッシュ値を用いることによって,N-gram法の利点である言語中立性や再現率の完全性を保持したまま,空間効率を改善することができる.
- 2007-03-15
著者
-
江渡 浩一郎
独立行政法人産業技術総合研究所
-
平林 幹雄
株式会社ミクシィ
-
江渡 浩一郎
(独)産業技術総合研究所 社会知能技術研究ラボ
-
江渡 浩一郎
独立行政法人産業技術総合研究所社会知能技術研究ラボ
関連論文
- メディアアート紀行(No.6)世界を変える力を持ったメディアアート
- Sequential Graphics : 動く静止画を表現するペイントソフト
- N.M-gram : ハッシュ値付きN-gram索引による全文検索の一手法
- N.M-gram : ハッシュ値付きN-gram法による転置インデックスの実現(言語処理,夏のデータベースワークショップDBWS 2006)
- N.M-gram : ハッシュ値付きN-gram法による転置インデックスの実現(言語処理)
- 世界を変える力を持ったメディアアート
- WWW衛星画像カタログデータベースの構築
- 表現活動のためのコンテキスト情報技術
- Modulobe:多数のモジュールによる動く表現物の創造と共有環境
- だれでも構築運営できるコラボレーションシステムの実現--qwikWebを用いたコミュニケーション・パターンの実践
- qwikWeb : メーリングリストとWikiを統合したコミュニケーション・システム(セッション1 : コミュニケーションデザイン)
- メディアアートとHCI研究
- インターネット経済社会と合意形成 (特集 交渉と合意形成)
- 集合知によるWebページの構造情報の収集(「社会的インタラクションにおける知」及び一般)
- 粒子の物理運動による音色合成の試み
- Wikiの起源と進化(セッション1:インタラクションデザイン:理論と実践(1))
- PodCastleの実現 : Web 2.0に基づく音声認識性能の向上について(セッション2 : 理解るインタフェース : 音声+ソーシャル+コミュニティ)
- PodCastleの提案 : 音声認識研究2.0を目指して(セッション2 : 理解るインタフェース : 音声+ソーシャル+コミュニティ)
- PodCastleの実現 : Web 2.0に基づく音声認識性能の向上について(セッション2 : 理解るインタフェース : 音声+ソーシャル+コミュニティ)
- PodCastleの提案 : 音声認識研究2.0を目指して(セッション2 : 理解るインタフェース : 音声+ソーシャル+コミュニティ)
- Wiki的都市は構想可能か?--江渡浩一郎インタヴュー (特集 アルゴリズム的思考と建築)
- N.M-gram : ハッシュ値付きN-gram法による空間効率の改善(データ構造,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- N.M-gram : ハッシュ値付きN-gram法による空間効率の改善(データ構造,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- WWW圃場画像獲得システム
- テキストファイルによる情報整理(私の情報整理術)
- アート・エンターテインメントにおける音インタフェース(音インタフェース)
- アート・エンターテインメントにおける音インタフェース(特別講演)
- プログラミング・メディア (特集 CODE/コモンズ/ソフトウェア--創造の原理と権利)
- Wikiを利用したコラボレーションのトリガーとしてのメーリングリストの役割
- ソフトウェアパターン-時を超えるソフトウェアの道-:2.パターンランゲージからソフトウェアパターンへ
- MaterialReader:デザイン視点で作る電子書籍プラットフォーム
- Webサイトの構造情報を集約する集合知データベースの構築(Web・データベース,第2回集合知シンポジウム)
- 表現の連鎖を支える技術(参加型表現ワークショップ)
- ネットワークとアート : または、メディア・アートはヒューマン・インタフェースの夢を見るか(マルチモーダルインタフェース特集1 : 招待講演1)
- 集合知によるLinked Dataの構築(Linked Dataとオントロジー)
- ユーザー参加型の価値を追究する新しい学会 ニコニコ学会βの試み
- インターネット経済社会と合意形成
- [第6回] 世界を変える力を持ったメディアアート(メディアアート紀行)