軽量のテキスト処理による部分類似単語列検出手法(「自動化:推論,発見,学習,データマイニング」及び一般)

概要

論文の詳細を見る
同一の話題に関して書かれた文書中には類似した表現や文字列が頻出する。完全に同一の文字列であれば、検索用インデックス作成手法などでそれらがどこに出現したかを特定することは容易だが、部分的に違う単語や違う表現などが含まれるとそれらは完全に別のものとして扱われる。既存の曖昧検索などではユーザがクエリーを与え、システムがそれに対するレスポンスを返すのであるが、本研究では任意のコーパスに対して、どの部分とどの部分が類似しているのかのマッピングを行う。
2007-05-24

著者

高須淳宏
National Institute of Informatics
高須淳宏
国立情報学研究所
竹田隆治
総合研究大学院大

関連論文

知識ベースを用いた人名検索時の曖昧性の解消(言語処理,夏のデータベースワークショップDBWS 2006)
知識ベースを用いた人名検索時の曖昧性の解消(言語処理)
外部知識を用いて同姓同名の曖昧解消
情報リンケージのための統計的文字列類似度
高さの制限された無順序木の編集距離問題に対する近似アルゴリズム
混合ディリクレ分布を用いた文書分類の精度について(情報融合)
文書間類似度によるソフトウェアパターン間関連分析と複合関連の導出
マージン最大化によるメトリック空間分割手法(一般,「ユビキタス,センサ環境におけるデータベース」,及び一般)
情報爆発時代の先端情報・通信技術
学術情報の統合に向けた大規模リンケージ基盤の構築
3.アカデミックリンケージ : 膨大な学術情報へのアクセスを支援するリンケージ基盤(パートII:情報分野研究者のためのオンリーワン共有イノベーションプラットフォーム,情報爆発時代におけるわくわくするITの創出を目指して)
6ZK-4 情報爆発時代におけるP2P情報検索向きデータ配置手法(情報爆発時代におけるストリームデータと実世界情報処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
6J-4 情報爆発時代のための制約つきクラスタリングを用いた制約つきフィードバック手法の提案(情報爆発時代における情報検索・推薦技術およびWebコミュニティ分析,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
5J-1 Name Disambiguation Using Topics Extracted from Web Directories in Information-explosion Era
E-014 軽量のテキスト処理による複数文書要約システム(E分野:自然言語・音声・音楽)
P2P情報検索における索引とファイルの分散配置手法(分散ファイル・システム)
検索語の曖昧性解消のためのトピック指向単語抽出および単語クラスタリング
SVM/HMMによる引用文献データの同定(情報抽出・構造分析)(ユビキタス社会における情報流通および一般)
効率的能動学習のための能動サポートカーネルマシン(人工知能,認知科学)
高さの制限された2個の無順序木に対する最大共通部分木の近似アルゴリズムの改良
2J-3 確率モデルに基づく木の類似度のパラメータ学習について(情報爆発時代におけるマルチメディアデータと交通情報システム,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
Statistical learning algorithm for tree similarity (特集「知識発見の諸科学への応用」および一般)
木の編集距離の文字列の編集距離による近似
文書中のパターン間の文書類似度による関連分析
カテゴリ階層構造を考慮した確率的トピックモデルとその応用
カテゴリ階層構造を考慮した確率的トピックモデルとその応用
学術論文文書画像からのページレイアウトに依存しない自動書誌要素抽出
テキスト分類における訓練データと性能の実験的考察(電子文書処理)
無順序木の編集距離計算のための厳密アルゴリズム
言語処理における尤度比の問題点:対訳コーパスからの訳語対抽出を例として
パラメータ化された連結成分分解を用いたWeb情報の有効利用(セッション9A : Web(1))
パラメータ化された連結成分分解を用いたWeb情報の有効利用(Web(1))(「夏のデータベースワークショップ(DBWS2003)」一般)
P2P情報検索における単語の頻度情報に基づくデータ配置手法
司書資格取得者に対する追跡調査 : 仕事・満足度を中心として
複製文字列検知に基づいた Splog フィルタリング手法
Web資源を利用した学術論文閲覧支援システム
CRFを用いた学術論文OCRテキストからの自動書誌要素抽出
オーソライズされた文献に基づくドメインの視覚化
共著関係に基づくグラフを用いた書誌情報における著者同定手法の提案と評価(データマイニング・学習, 夏のデータベースワークショップDBWS2005)
共著関係に基づくグラフを用いた書誌情報における著者同定手法の提案と評価(データマイニング・学習, 夏のデータベースワークショップ2005)
D-12-48 様々な学術論文誌OCRテキストからの書誌要素抽出(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成),一般セッション)
D-008 類似検索の高速化を目的としたPivot選択手法の実験評価(D分野:データベース,一般論文)
2K-2 索引木の均衡を考慮した類似検索索引手法(情報爆発時代におけるアルゴリズム高率化,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
2K-1 高さ制約付き無順序木の高速類似検索アルゴリズムについて(情報爆発時代におけるアルゴリズム高率化,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
6ZC-2 コミュニティベースQ&Aからの類似質問検索手法(情報爆発時代におけるWebパーティカル検索,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
テキスト認識エラーモデルによる引用文献文字列からの書誌要素の抽出(画像認識,コンピュータビジョン)
Web 資源を利用した学術論文閲覧支援システム
信頼度の高いタイトル情報を利用した固有ページ発見(セッション2 : Web文書の蓄積とアクセス)
信頼度の高いタイトル情報を利用した固有ページ発見(セッション2 : Web文書の蓄積とアクセス)
検索語の曖昧性を解消するキーワードの提示手法(情報推薦, 夏のデータベースワークショップDBWS2005)
検索語の曖昧性を解消するキーワードの提示手法(情報推薦, 夏のデータベースワークショップ2005)
リンク情報の利用によるWeb検索性能の改善
レコード同定問題に関する研究の課題と現状(データ工学論文)
非構造Peer-to-Peerシステム上でのピアの有用性に基づいた問い合わせ処理(P2P)(夏のデータベースワークショップDBWS2004)
非構造Peer-to-Peerシステム上でのピアの有用性に基づいた問い合わせ処理(セッション10B : P2P)(夏のデータベースワークショップ : DBWS2004)
検索語の曖昧性を解消するキーワードの提示手法
芸術家の技術保存用ビデオデータベースの構築・公開・研究計画
複数書誌データベース統合における重複エントリーの高速検出法(セッション5 : 文書データベース)
日本語専門分野テキストコーパスからの複合語用語の抽出(抽出)
文法パターンに基づく用語抽出モデルの構築(言語理解とコミュニケーション一般)
語彙概念構造を利用した助詞「に」に関する複合名詞の分析
総理大臣国会演説における基本的文体特徴量の探索的分析
総理大臣演説における語彙多様性の変化(セッションN-13(MK301) 一般セッション言語)
D-12 パラメータ化された連結性に基づくWebページのグループ化(Web構造分析,D.データベース)
パラメータ化された連結成分分解によるWebページのグループ化
パラメータ化された連結成分分解によるWebページのグループ化
コミュニケーションメディアの情報伝達性能の包括的比較
日本語専門語彙の有契性構造の分析
言語の工学--言語実務専門家の実践と言語の科学の間で (特集言語処理研究の新展開--計算機と言語学の対話に向けて)
生きた言葉と図書館の課題 : 粗悪言語を売りつけられる時代に : 2007年11月8日、臨光館204番教室において
近代的主体の成立と図書・図書館による近代の存立
日本語専門語彙の構成における外来語語基の位置づけ
いわゆる順位頻度分布と頻度度数分布との関係について : Baayen(2001)からの紹介を中心に(短信)
自然言語処理と言語実体化の効用 (特集空の言語学--言語に実体はあるか)
未出現事象の比率を推定する--Good-Turing推定の直感的意味付け
The Dynamics of Morphemes in Japanese Terminology
頻度情報を用いた類似文字列検索のための可変長N-gram
頻度情報を用いた類似文字列検索のための可変長N-gram
メモリ上の全文検索システムのためのデータ構造と処理の効率化
Suffix Array による可変長N-gramを用いた類似文字列検索
距離尺度の組み合わせによるTop-k検索の提案
メトリック空間における最近傍ペア探索アルゴリズムの高速化
情報検索における単語間の関係の効果
複数書誌データベース統合における重複エントリーの高速検出法(セッション5 : 文書データベース)
Webページ群の構造解析とグループ化
名詞の分布特徴量を用いた政治テキスト分析
学術文献画像の書誌情報の近似マッチング法
異種データベース間でのレコード照合に関する研究動向
HTMLからの情報抽出と統合(電子文書処理)
HTML Table情報のXMLによる統合
HTML Table情報のXMLによる統合
日英言語横断検索における関連性の重ね合わせモデルの効果(情報の検索とテストコレクション)
関連性の重ね合わせモデルを用いた日英言語横断検索
2000-DBS-122-8 英語テキストにおける関連性の重ね合わせモデルの検索特性
軽量のテキスト処理による部分類似単語列検出手法(「自動化:推論,発見,学習,データマイニング」及び一般)
戦後日本における印刷メディア受容量変化の数量的検証
プローブカーデータを用いた自動交通異常検出 (ITS研究会交通センシング,通信,情報処理,一般)
プローブカーデータを用いた自動交通異常検出 (ITS)
CRFによる和英文の参考文献文字列からの自動書誌要素抽出
翻訳を通して「言葉」を見ると?

軽量のテキスト処理による部分類似単語列検出手法(「自動化:推論,発見,学習,データマイニング」及び一般)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク