書誌情報における著者名の曖昧性解消のためのクラスタリング
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,書誌情報に現れる省略著者名を,フルネームに正しく対応付けるためのクラスタリング手法を提案する.クラスタリングには,ナイーヴ・ベイズ混合モデルと,新たに提案する2 変数混合モデルとを用いた.実験ではDBLPデータ・セットを用い,50 以上のフルネームに対応する47の省略名で評価した.その結果,2 変数混合モデルは,適合率と再現率の良いバランスを実現することが分かった.In this paper, we propose a clustering method for disambiguating abbreviated author names appearing in citation data by finding the correct full name for each instance of an abbreviated name. We use the standard naive Bayes mixture model and the two-variable mixture model, which is a newly proposed model having two hidden variables. In the experiment, we have used the DBLP data set and have selected 47 abbreviated author names corresponding to more than or equal to 50 full names for evaluation. The results show that our model can achieve a good balancing of precisions and recalls.
- 日本データベース学会の論文
- 2007-06-29
著者
関連論文
- 特徴点軌跡の不均一性パターンに基づいた同一場面映像検出(メディア処理,第12回画像の認識・理解シンポジウム推薦論文,画像の認識・理解論文)
- 知識ベースを用いた人名検索時の曖昧性の解消(言語処理,夏のデータベースワークショップDBWS 2006)
- 知識ベースを用いた人名検索時の曖昧性の解消(言語処理)
- 外部知識を用いて同姓同名の曖昧解消
- 言い換え箇所と言い換え候補の提示による解説文リライト支援の書き手の評価実験(言い換え・略語・要約)
- 混合ディリクレ分布を用いた文書分類の精度について(情報融合)
- マージン最大化によるメトリック空間分割手法(一般,「ユビキタス,センサ環境におけるデータベース」,及び一般)
- 情報爆発時代の先端情報・通信技術
- 学術情報の統合に向けた大規模リンケージ基盤の構築
- 3.アカデミックリンケージ : 膨大な学術情報へのアクセスを支援するリンケージ基盤(パートII:情報分野研究者のためのオンリーワン共有イノベーションプラットフォーム,情報爆発時代におけるわくわくするITの創出を目指して)
- 6ZK-4 情報爆発時代におけるP2P情報検索向きデータ配置手法(情報爆発時代におけるストリームデータと実世界情報処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 6J-4 情報爆発時代のための制約つきクラスタリングを用いた制約つきフィードバック手法の提案(情報爆発時代における情報検索・推薦技術およびWebコミュニティ分析,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 5J-1 Name Disambiguation Using Topics Extracted from Web Directories in Information-explosion Era
- E-014 軽量のテキスト処理による複数文書要約システム(E分野:自然言語・音声・音楽)
- 書誌情報における著者名の曖昧性解消のためのクラスタリング
- P2P情報検索における索引とファイルの分散配置手法(分散ファイル・システム)
- 情報爆発時代における情報管理・融合・活用基盤(情報爆発時代に向けた新しいIT基盤技術の研究)
- 情報爆発時代に向けた新しいIT基盤技術の研究(情報爆発時代に向けた新しいIT基盤技術の研究)
- CSIとe-Science
- コンテンツの生産・活用に関する研究 : 科研「情報学」プロジェクトのコンテンツ研究を振り返って(「情報学を創る」-科研プロジェクトがめざしたもの)
- 発足の経緯とその展開(「情報学を創る」-科研プロジェクトがめざしたもの)
- 検索語の曖昧性解消のためのトピック指向単語抽出および単語クラスタリング
- XQueryでのcontains()の早期評価によるXML集約ビューへの問合せ最適化手法(電子文書処理)
- SPARC/JAPANにみる学術情報の発信と大学図書館(学術情報流通としての出版)
- SPARC/JAPANにみる学術情報の発信と大学図書館 (特集=学術情報流通としての出版)
- SVM/HMMによる引用文献データの同定(情報抽出・構造分析)(ユビキタス社会における情報流通および一般)
- 映像処理評価用映像データベースについて
- パラメータ化された連結成分分解を用いたWeb情報の有効利用(セッション9A : Web(1))
- パラメータ化された連結成分分解を用いたWeb情報の有効利用(Web(1))(「夏のデータベースワークショップ(DBWS2003)」一般)
- P2P情報検索における単語の頻度情報に基づくデータ配置手法
- 共著関係に基づくグラフを用いた書誌情報における著者同定手法の提案と評価(データマイニング・学習, 夏のデータベースワークショップDBWS2005)
- 共著関係に基づくグラフを用いた書誌情報における著者同定手法の提案と評価(データマイニング・学習, 夏のデータベースワークショップ2005)
- D-008 類似検索の高速化を目的としたPivot選択手法の実験評価(D分野:データベース,一般論文)
- 2K-2 索引木の均衡を考慮した類似検索索引手法(情報爆発時代におけるアルゴリズム高率化,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 2K-1 高さ制約付き無順序木の高速類似検索アルゴリズムについて(情報爆発時代におけるアルゴリズム高率化,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 評価ワークショップによるテキスト処理研究 : 第3回NTCIRワークショップを例として(NTCIR : 情報アクセスに関わるテキスト処理技術の評価ワークショップ)
- 6ZC-2 コミュニティベースQ&Aからの類似質問検索手法(情報爆発時代におけるWebパーティカル検索,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- SPARC Japanの新たな展開
- 信頼度の高いタイトル情報を利用した固有ページ発見(セッション2 : Web文書の蓄積とアクセス)
- 信頼度の高いタイトル情報を利用した固有ページ発見(セッション2 : Web文書の蓄積とアクセス)
- 情報爆発時代の研究基盤構想 : データマイニング、次世代サーチなどの研究(「自動化:推論,発見,学習,データマイニング」及び一般)
- 検索語の曖昧性を解消するキーワードの提示手法(情報推薦, 夏のデータベースワークショップDBWS2005)
- 検索語の曖昧性を解消するキーワードの提示手法(情報推薦, 夏のデータベースワークショップ2005)
- リンク情報の利用によるWeb検索性能の改善
- レコード同定問題に関する研究の課題と現状(データ工学論文)
- リンク情報の利用による Web検索性能の改善
- 論文特集「Webコンテンツの知的処理」まえがき
- 非構造Peer-to-Peerシステム上でのピアの有用性に基づいた問い合わせ処理(P2P)(夏のデータベースワークショップDBWS2004)
- 非構造Peer-to-Peerシステム上でのピアの有用性に基づいた問い合わせ処理(セッション10B : P2P)(夏のデータベースワークショップ : DBWS2004)
- 検索語の曖昧性を解消するキーワードの提示手法
- Peer-to-Peerシステム上での効率的なデータ配置による問合せ処理とロードバランスへの寄与(情報融合)
- 複数書誌データベース統合における重複エントリーの高速検出法(セッション5 : 文書データベース)
- 新しい連結性概念とWebページのグループ化への応用
- D-12 パラメータ化された連結性に基づくWebページのグループ化(Web構造分析,D.データベース)
- パラメータ化された連結成分分解によるWebページのグループ化
- パラメータ化された連結成分分解によるWebページのグループ化
- パラメータ化された連結性に基づくWebページのグループ化
- 頻度情報を用いた類似文字列検索のための可変長N-gram
- 頻度情報を用いた類似文字列検索のための可変長N-gram
- メモリ上の全文検索システムのためのデータ構造と処理の効率化
- Suffix Array による可変長N-gramを用いた類似文字列検索
- 距離尺度の組み合わせによるTop-k検索の提案
- メトリック空間における最近傍ペア探索アルゴリズムの高速化
- 情報検索における単語間の関係の効果
- 複数書誌データベース統合における重複エントリーの高速検出法(セッション5 : 文書データベース)
- Webページ群の構造解析とグループ化
- 学術文献画像の書誌情報の近似マッチング法
- 異種データベース間でのレコード照合に関する研究動向
- 講演要旨 SPARCの活動とSPARC/JAPANの今後
- HTMLからの情報抽出と統合(電子文書処理)
- 3 世界に向けての学術情報発信(学会から世界への学術情報発信-未来への展望-)
- 日英言語横断検索における関連性の重ね合わせモデルの効果(情報の検索とテストコレクション)
- 関連性の重ね合わせモデルを用いた日英言語横断検索
- 2000-DBS-122-8 英語テキストにおける関連性の重ね合わせモデルの検索特性
- DE2000-30 英語テキストにおける関連性の重ね合わせモデルの検索特性
- 座談会 メディアの変化のなかで大学図書館はどこへ向かうか (特集 大学図書館のこれから)
- プローブカーデータを用いた自動交通異常検出 (ITS研究会 交通センシング,通信,情報処理,一般)
- プローブカーデータを用いた自動交通異常検出 (ITS)
- CRFによる和英文の参考文献文字列からの自動書誌要素抽出
- プローブカーデータを用いた高速道路における自動交通異常検出
- SCOAP^3の現状,課題そして展望(談話室)
- An Efficient Window-Based Methods Using N-gram Indexing for Approximate Entity Extraction
- プローブカーデータを用いた自動交通異常検出
- RD-001 類似文字列検索におけるLCP配列を用いた可変長N-gram抽出手法の効率化(情報アクセスとマイニング,D分野:データベース)
- D-010 類似文字列検索における可変長N-gramを用いたマージの効率化(ストレージと検索,D分野:データベース)
- D-022 クラスタリングを利用した距離尺度の組み合わせによるTop-k検索(クラスタリング,D分野:データベース)
- プローブカーデータを用いた自動交通異常検出(交通センシング,通信,情報処理,一般)
- CRFによる和英文の参考文献文字列からの自動書誌要素抽出(情報抽出と情報検索,ビッグデータとソーシャルコンピューティング,及び一般)
- クラスタリングを利用したTop-k Join処理
- Detection of Paragraph Boundaries in Complex Page Layouts for Electronic Documents
- 類似文字列検索におけるLCP配列を用いた索引の提案