レコード同定問題に関する研究の課題と現状(<特集>データ工学論文)
スポンサーリンク
概要
- 論文の詳細を見る
単一あるいは異なる情報源の間で重複するレコードを見つけ出す「レコード同定」は, データベースの品質管理やデータ統合に必須の技術である.しかしながら, このレコード間の照合は一般に容易には実現できない.というのも多くの場合, レコード同士は統一的な識別子をもたず, レコードの属性や値の間にも厳密な対応関係が存在しないためである.特に, 長期間にわたり分散化した環境のもとで構築された大規模なデータベースにおいて, 信頼性高くレコードを同定することはコストのかかる困難な作業となる.そこで本論文では, 重複レコードを検出するためのレコード同定手法に注目し, 研究動向を概観する.
- 社団法人電子情報通信学会の論文
- 2005-03-01
著者
-
安達 淳
国立情報学研究所
-
高須 淳宏
National Institute of Informatics
-
高須 淳宏
国立情報学研究所
-
相澤 彰子
国立情報学研究所
-
大山 敬三
学術情報センター
-
大山 敬三
国立情報学研究所
-
相澤 彰子
国立情報学研究所コンテンツ科学研究系
-
大山 敬三
National Institute Of Informatics The Graduate School For Advanced Studies(sokendai)
-
Keizo Oyama
National Institute of Informatics
-
相澤 彰子
国立情報学研
-
安達 淳
国立情報学研
関連論文
- 特徴点軌跡の不均一性パターンに基づいた同一場面映像検出(メディア処理,第12回画像の認識・理解シンポジウム推薦論文,画像の認識・理解論文)
- 知識ベースを用いた人名検索時の曖昧性の解消(言語処理,夏のデータベースワークショップDBWS 2006)
- 知識ベースを用いた人名検索時の曖昧性の解消(言語処理)
- 外部知識を用いて同姓同名の曖昧解消
- 言い換え箇所と言い換え候補の提示による解説文リライト支援の書き手の評価実験(言い換え・略語・要約)
- 情報リンケージのための統計的文字列類似度
- 高さの制限された無順序木の編集距離問題に対する近似アルゴリズム
- 混合ディリクレ分布を用いた文書分類の精度について(情報融合)
- 文書間類似度によるソフトウェアパターン間関連分析と複合関連の導出
- マージン最大化によるメトリック空間分割手法(一般,「ユビキタス,センサ環境におけるデータベース」,及び一般)
- 情報爆発時代の先端情報・通信技術
- 学術情報の統合に向けた大規模リンケージ基盤の構築
- 3.アカデミックリンケージ : 膨大な学術情報へのアクセスを支援するリンケージ基盤(パートII:情報分野研究者のためのオンリーワン共有イノベーションプラットフォーム,情報爆発時代におけるわくわくするITの創出を目指して)
- 6ZK-4 情報爆発時代におけるP2P情報検索向きデータ配置手法(情報爆発時代におけるストリームデータと実世界情報処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 6J-4 情報爆発時代のための制約つきクラスタリングを用いた制約つきフィードバック手法の提案(情報爆発時代における情報検索・推薦技術およびWebコミュニティ分析,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 5J-1 Name Disambiguation Using Topics Extracted from Web Directories in Information-explosion Era
- E-014 軽量のテキスト処理による複数文書要約システム(E分野:自然言語・音声・音楽)
- 書誌情報における著者名の曖昧性解消のためのクラスタリング
- P2P情報検索における索引とファイルの分散配置手法(分散ファイル・システム)
- 情報爆発時代における情報管理・融合・活用基盤(情報爆発時代に向けた新しいIT基盤技術の研究)
- 情報爆発時代に向けた新しいIT基盤技術の研究(情報爆発時代に向けた新しいIT基盤技術の研究)
- CSIとe-Science
- コンテンツの生産・活用に関する研究 : 科研「情報学」プロジェクトのコンテンツ研究を振り返って(「情報学を創る」-科研プロジェクトがめざしたもの)
- 発足の経緯とその展開(「情報学を創る」-科研プロジェクトがめざしたもの)
- 検索語の曖昧性解消のためのトピック指向単語抽出および単語クラスタリング
- XQueryでのcontains()の早期評価によるXML集約ビューへの問合せ最適化手法(電子文書処理)
- SPARC/JAPANにみる学術情報の発信と大学図書館(学術情報流通としての出版)
- SPARC/JAPANにみる学術情報の発信と大学図書館 (特集=学術情報流通としての出版)
- SVM/HMMによる引用文献データの同定(情報抽出・構造分析)(ユビキタス社会における情報流通および一般)
- 効率的能動学習のための能動サポートカーネルマシン(人工知能,認知科学)
- 高さの制限された2個の無順序木に対する最大共通部分木の近似アルゴリズムの改良
- 2J-3 確率モデルに基づく木の類似度のパラメータ学習について(情報爆発時代におけるマルチメディアデータと交通情報システム,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- Statistical learning algorithm for tree similarity (特集「知識発見の諸科学への応用」および一般)
- 木の編集距離の文字列の編集距離による近似
- 文書中のパターン間の文書類似度による関連分析
- 映像処理評価用映像データベースについて
- 無順序木の編集距離計算のための厳密アルゴリズム
- 言語処理における尤度比の問題点:対訳コーパスからの訳語対抽出を例として
- パラメータ化された連結成分分解を用いたWeb情報の有効利用(セッション9A : Web(1))
- パラメータ化された連結成分分解を用いたWeb情報の有効利用(Web(1))(「夏のデータベースワークショップ(DBWS2003)」一般)
- P2P情報検索における単語の頻度情報に基づくデータ配置手法
- 司書資格取得者に対する追跡調査 : 仕事・満足度を中心として
- 共著関係に基づくグラフを用いた書誌情報における著者同定手法の提案と評価(データマイニング・学習, 夏のデータベースワークショップDBWS2005)
- 共著関係に基づくグラフを用いた書誌情報における著者同定手法の提案と評価(データマイニング・学習, 夏のデータベースワークショップ2005)
- D-12-48 様々な学術論文誌OCRテキストからの書誌要素抽出(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成),一般セッション)
- D-008 類似検索の高速化を目的としたPivot選択手法の実験評価(D分野:データベース,一般論文)
- 2K-2 索引木の均衡を考慮した類似検索索引手法(情報爆発時代におけるアルゴリズム高率化,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 2K-1 高さ制約付き無順序木の高速類似検索アルゴリズムについて(情報爆発時代におけるアルゴリズム高率化,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 評価ワークショップによるテキスト処理研究 : 第3回NTCIRワークショップを例として(NTCIR : 情報アクセスに関わるテキスト処理技術の評価ワークショップ)
- 6ZC-2 コミュニティベースQ&Aからの類似質問検索手法(情報爆発時代におけるWebパーティカル検索,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- SPARC Japanの新たな展開
- 信頼度の高いタイトル情報を利用した固有ページ発見(セッション2 : Web文書の蓄積とアクセス)
- 信頼度の高いタイトル情報を利用した固有ページ発見(セッション2 : Web文書の蓄積とアクセス)
- 情報爆発時代の研究基盤構想 : データマイニング、次世代サーチなどの研究(「自動化:推論,発見,学習,データマイニング」及び一般)
- 検索語の曖昧性を解消するキーワードの提示手法(情報推薦, 夏のデータベースワークショップDBWS2005)
- 検索語の曖昧性を解消するキーワードの提示手法(情報推薦, 夏のデータベースワークショップ2005)
- リンク情報の利用によるWeb検索性能の改善
- レコード同定問題に関する研究の課題と現状(データ工学論文)
- リンク情報の利用による Web検索性能の改善
- 論文特集「Webコンテンツの知的処理」まえがき
- 非構造Peer-to-Peerシステム上でのピアの有用性に基づいた問い合わせ処理(P2P)(夏のデータベースワークショップDBWS2004)
- 非構造Peer-to-Peerシステム上でのピアの有用性に基づいた問い合わせ処理(セッション10B : P2P)(夏のデータベースワークショップ : DBWS2004)
- 検索語の曖昧性を解消するキーワードの提示手法
- Peer-to-Peerシステム上での効率的なデータ配置による問合せ処理とロードバランスへの寄与(情報融合)
- 複数書誌データベース統合における重複エントリーの高速検出法(セッション5 : 文書データベース)
- 日本語専門分野テキストコーパスからの複合語用語の抽出(抽出)
- 文法パターンに基づく用語抽出モデルの構築(言語理解とコミュニケーション一般)
- 新しい連結性概念とWebページのグループ化への応用
- D-12 パラメータ化された連結性に基づくWebページのグループ化(Web構造分析,D.データベース)
- パラメータ化された連結成分分解によるWebページのグループ化
- パラメータ化された連結成分分解によるWebページのグループ化
- 頻度情報を用いた類似文字列検索のための可変長N-gram
- 頻度情報を用いた類似文字列検索のための可変長N-gram
- メモリ上の全文検索システムのためのデータ構造と処理の効率化
- Suffix Array による可変長N-gramを用いた類似文字列検索
- 距離尺度の組み合わせによるTop-k検索の提案
- メトリック空間における最近傍ペア探索アルゴリズムの高速化
- 情報検索における単語間の関係の効果
- 複数書誌データベース統合における重複エントリーの高速検出法(セッション5 : 文書データベース)
- Webページ群の構造解析とグループ化
- 学術文献画像の書誌情報の近似マッチング法
- 異種データベース間でのレコード照合に関する研究動向
- 講演要旨 SPARCの活動とSPARC/JAPANの今後
- HTMLからの情報抽出と統合(電子文書処理)
- 3 世界に向けての学術情報発信(学会から世界への学術情報発信-未来への展望-)
- 日英言語横断検索における関連性の重ね合わせモデルの効果(情報の検索とテストコレクション)
- 関連性の重ね合わせモデルを用いた日英言語横断検索
- 2000-DBS-122-8 英語テキストにおける関連性の重ね合わせモデルの検索特性
- DE2000-30 英語テキストにおける関連性の重ね合わせモデルの検索特性
- 座談会 メディアの変化のなかで大学図書館はどこへ向かうか (特集 大学図書館のこれから)
- プローブカーデータを用いた自動交通異常検出 (ITS研究会 交通センシング,通信,情報処理,一般)
- プローブカーデータを用いた自動交通異常検出 (ITS)
- CRFによる和英文の参考文献文字列からの自動書誌要素抽出
- プローブカーデータを用いた高速道路における自動交通異常検出
- SCOAP^3の現状,課題そして展望(談話室)
- An Efficient Window-Based Methods Using N-gram Indexing for Approximate Entity Extraction
- プローブカーデータを用いた自動交通異常検出
- RD-001 類似文字列検索におけるLCP配列を用いた可変長N-gram抽出手法の効率化(情報アクセスとマイニング,D分野:データベース)
- D-010 類似文字列検索における可変長N-gramを用いたマージの効率化(ストレージと検索,D分野:データベース)
- D-022 クラスタリングを利用した距離尺度の組み合わせによるTop-k検索(クラスタリング,D分野:データベース)