HTML形式の表構造に対する一索引化手法
スポンサーリンク
概要
- 論文の詳細を見る
WWW空間上のHTML文書には, 形式的な情報を容易に伝達するために, 数多くの表が含まれており, 行列方向の単語間の関係や単語の意味情報など, 非常に有益な情報を含んでいる.本研究では, これら表構造から固有名詞が有する意味的多義性に関する情報を抽出することを目的としており, その第一段階として, 本稿ではHTML形式の表構造内の関係を保持したまま各項目を効率的に索引化する手法を提案する.本手法は, 複雑な表にも適用できるセグメンテーション法により, 表内での各項目の位置情報をコンパクトなビット列で表現する.また, 本手法で表現した位置情報は, 奇数ビットが行方向, 偶数ビットが列方向の関係を表すため, 行列方向の位置関係を高速に照合できる.WWW空間上から収集した200個の表構造(4, 836個の項目数)に対して, 表内の座標を索引化する手法と比較実験を行った結果, 本手法による索引が87%コンパクトであり, また, 各項目間の照合速度に関しては, 本手法が訳5.4倍高速であり, 表構造が複雑になる程, 本手法の方が有効であった.
- 社団法人電子情報通信学会の論文
- 2001-07-11
著者
-
獅々堀 正幹
徳島大学大学院ソシオテクノサイエンス研究部情報ソリューション部門
-
青江 順一
徳島大学 工学部 知能情報工学科
-
獅々堀 正幹
徳島大学 工学部 知能情報工学科
-
青江 順一
徳島大学大学院ソシオテクノサイエンス研究部
-
岩口 義広
徳島大学工学部知能情報工学科
-
鄭 眠洙
徳島大学工学部知能情報工学科
-
岩口 義広
徳島大学 工学部 知能情報工学科
-
鄭 眠洙
徳島大学 工学部 知能情報工学科
-
青江 順一
徳島大学大学院 ソシオテクノサイエンス研究部
-
獅子堀 正幹[他]
徳島大学工学部
関連論文
- 複合語の分野連想語の効率的決定法
- 距離索引VP-treeにおける解絞込みの一改良手法(マルチメディアデータベース,データ工学論文)
- ダブル配列におけるキー削除の効率化手法
- WWW画像検索システムを用いた関連語の自動収集手法(検索)
- 講義映像配信システムにおける講義映像と資料の対応
- 接頭辞ダブル配列における空間効率を低下させないキー削除法(情報検索)
- ダブル配列におけるキー削除の効率化手法
- ダブル配列における動的更新の効率化アルゴリズム
- 複合語生成規則を用いたキーワード導出手法
- Earth Mover's Distanceを用いたハミングによる類似音楽検索手法(音楽情報検索,便利で身近な音楽情報処理)
- 符号化音声認識のための合成音声を用いた不特定話者音響モデルの適応法(音声,聴覚)
- 分散音声認識における実時間周波数特性正規化手法(音声言語)
- ハミングによる検索機能を備えた音楽配信システムの開発
- サフィックス・アレイに基づく言語モデルを用いた音声認識に関する研究
- 検索質問と字幕の文字画像特徴量間の距離に基づく字幕検索手法
- G-003 距離尺度にEarth Mover's Distanceを用いたハミングによる類似音楽検索手法(G分野:音声・音楽)
- 多属性項目の履歴情報に基づく電子メイル文書のフィルタリング手法
- 多属性項目の履歴情報に基づく電子メイル文書のフィルタリング手法
- 各個人のプロファイルを用いたメイル文書のフィルタリング手法
- 履歴情報を考慮したメイル文書のフィルタリング手法
- WWW画像検索システムにおける有害画像フィルタリング手法
- D-020 WWW画像検索システムにおける有害画像フィルタリング手法(D分野:データベース)
- D-030 WWW画像検索システムを用いた有害サイトURLデータベースの構築手法(D.データベース)
- 距離索引VP-treeにおける解絞り込みの一改良法(基盤・要素技術)(セマンティックウェブと自然言語処理その他一般)
- 距離索引VP-treeにおける解絞り込みの一改良法
- 分野連想語の出現位置に基づく話題分野の特定手法
- 分野連想語を用いたパッセージ特定手法
- 6A-7 順序木の簡潔表現を用いたトライ辞書の評価(アルゴリズム,一般セッション,ソフトウェア科学・工学,情報処理学会創立50周年記念)
- RD-002 重複レコードの多い大規模トライ辞書の圧縮(データベース,査読付き論文)
- 転置ファイルによる大規模 n-gram データの検索システム
- 転置ファイルによる大規模 n-gram データの検索システム
- 2S-5 共起関係に基づく階層型単語概念体系の動的構築法(自然言語処理一般,学生セッション,人工知能と認知科学)
- 3B-6 ダブル配列による動的辞書の構成と評価(アルゴリズムとその応用,一般セッション,ソフトウェア科学・工学)
- パトリシアトライに対する簡潔な配列表現
- LD_008 ダブル配列におけるキャッシュの効率化(D分野:データベース)
- 2次記憶上のダブル配列の効率的検索法
- キーワードの遅延抽出を考慮した文書検索構造の効率的構成法
- トライ構造を用いた共起情報の効率的検索アルゴリズム
- 特徴ベクトルによる全文検索の一改善法
- 文書レイアウトにおける自動図表配置手法
- ストリングパターンマッチングマシンにおける検索キー追加方法
- LRパーサを用いた文字列置換アルゴリズム
- テキストと画像のクロスメディア情報検索に向けた画像キーワード登録システムの開発
- 時間推移を考慮した単語の重要度決定手法
- 質問応答システムにおける質問文内の漢字文字列に対する用語特定手法(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- URLの類似性を考慮したWWW空間からの関連語収集手法(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 質問応答システムにおける質問文内の用語特定(思考と知識検索・獲得,一般)
- Earth Mover's Distance の高速検索ライブラリ fastEMD の開発
- 字幕付き映像データからの字幕領域の検出手法
- WWW検索エンジンを用いた質問文内の用語特定手法
- WWW検索エンジンを用いた質問文内の用語特定手法(QA・Web検索)
- URLの類似性に着目したWWW空間からの関連語自動収集手法
- 順位キューを用いた多次元データの高速近傍検索アルゴリズム
- 出現URLの類似性に着目したWWW空間からの関連語自動収集手法(抽出, 言い換え)
- D-019 WWW画像検索システムにおける検索質問拡張に基づくフィードバック検索(D分野:データベース)
- 長・短期間における音声の話者内変動に関する検討
- ETSI標準分散音声認識フロントエンドにおける入力系の周波数特性正規化手法
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- MPEG映像データに対するカットシーンの高速検出手法
- D-040 領域分割画像に基づく言語メタデータの自動生成手法(D.データベース)
- 多次元データの高速近傍検索アルゴリズム(基盤・要素技術)(セマンティックウェブと自然言語処理その他一般)
- 1次元自己組織化マップを用いた高次元データの高速近傍検索
- 1次元自己組織化マップを用いた高次元データの高速近傍検索
- ソフトウエア製品ニュースからの開発傾向の抽出(抽出(1))
- 大学で育成すべき自然言語処理技術者とは?
- 画像,音声,テキストに対するマルチデータ処理技術の統合化とその応用
- HTML形式の表構造に対する一索引化手法
- HTML形式の表構造に対する一索引化手法
- WWW空間上に存在する表構造の一索引化手法
- キーワード構成の分析とその応用
- 接続情報を加味した形態素辞書による形態素解析の高速化
- 定型表現を利用した効率的な形態素解析の実現
- 日本語時間表現の一解釈法
- 日本語文における時間表現の形式化手法
- 携帯電話情報サービスのための新聞記事要約の研究
- 新製品ニュース管理システムのための文と段落のタイプ抽出方法
- 4V-6 技術解説記事データベースのためのXML文書作成ツールの開発
- テキストベースの一提案
- 画像,音声,テキストに対するマルチデータ処理技術の統合化とその応用
- サポートベクターマシンによる適合性フィードバックを用いた情報検索(情報検索)
- サポートベクターマシンによる適合性フィードバックを用いた情報検索
- 二つのトライを用いた自然言語辞書検索技法
- 知識表現モデルMERMにおける心理現象の一表現法
- ダブル配列による有限状態機械の記憶アルゴリズム
- 混合ガウス分布モデルを用いた画像検索
- Non-negative Matrix Factorization を用いたベクトル空間情報検索モデルの次元削減手法
- 画像知識データベースを用いたWWW画像検索システムの開発(画像検索・映像データベース)
- 1次元自己組織化マップを用いた高次元データの高速近傍検索
- HTML形式の表構造の内容解析手法とその応用に関する研究
- Non-negative Matrix Factorizationを用いた情報検索モデルの次元圧縮および検索質問拡張
- 大規模顔画像データベースに対する印象語による類似顔画像検索技術に関する研究
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- 分類知識表現を用いたキー検索アルゴリズムの決定法
- Non-negative Matrix Factorizationを用いた情報検索
- コンセプト・プロジェクションにおける関連性フィードバックを用いた概念ベクトルの更新手法
- 拡張ハッシングにおけるディレクトリの圧縮アルゴリズム
- 局所的な形状特徴量とEMDを用いた類似画像検索手法
- J-010 接触機能を持つ音声対話ロボットに関する研究(HCI(2),J分野:ヒューマンコミュニケーション&インタラクション)