コーパス検索支援のための動的同義語候補抽出

概要

論文の詳細を見る
This paper proposes a method for implementing real-time synonym search systems. Our final aim is to provide users with an interface with which they can query the system for any length strings and the system returns a list of synonyms of the input string. We propose an efficient algorithm for this operation. The strategy involves indexing documents by suffix arrays and finding adjacent strings of the query by dynamically retrieving its contexts (i.e., strings around the query). The extracted contexts are in turn sent to the suffix arrays to retrieve the strings around the contexts, which are likely to contain the synonyms of the query string.

著者

吉田稔
東京大学情報基盤センター
中川裕志
東京大学情報基盤センター
寺田昭
（株）日本航空

関連論文

テキストマイニングの活用(データマイニングの活用)
多クラス識別問題におけるPassive-Aggressiveアルゴリズムの効率的厳密解法(自然言語処理,知識獲得,情報爆発論文)
2P-8 ソーシャルブックマークにおけるスパムの検出(Webマイニング,学生セッション,データベースとメディア)
同義語辞書作成支援システム
Word 2003 XML文書への情報ハイディングシステム
〈情報処理学会情報学基礎研究会 (F1) 第96回発表論文〉接尾辞配列とディリクレ過程混合モデルを用いたテキスト中の数値表現マイニング（筑波大学東京キャンパス（秋葉原地区）. 2009年11月19日）
コーパス検索支援のための動的同義語候補抽出
コンテンツの生産・活用に関する研究 : 科研「情報学」プロジェクトのコンテンツ研究を振り返って(「情報学を創る」-科研プロジェクトがめざしたもの)
A22 三段階で脱ガスした雲仙普賢岳溶岩(火山の化学,日本火山学会2006年秋季大会)
25aQL-9 量子アニーリング法を用いた変分ベイズ推定(情報統計力学,領域11,統計力学,物性基礎論,応用数学,力学,流体物理)
HTMLの表形式データの構造認識と携帯端末表示への応用
HTMLの表形式データの変換と携帯端末表示への応用
単語類似度ネットワークを通じた自動同義語獲得(語彙・固有表現・同義語)
スケーラブルで汎用的なブログ著者属性推定手法(web情報抽出)
中文版「言選Web」の評価(Webからの知識発見とネット応用)
自然言語処理(NL)研究会(研究会千夜一夜)
係り受けの2部グラフと共起関係を利用した同義表現抽出(抽出(2))
出現頻度と連接頻度に基づく専門用語抽出
E-004 トピッククラスタを利用した協調フィルタリングに基づくWeb情報推薦システム(自然言語・音声・音楽,一般論文)
改行位置を利用したテキストステガノグラフィ(セキュリティと社会)(プライバシを保護するコンピュータセキュリティ技術)
ドキュメントへのインフォメーションハイディング(インフォメーションハイディング)
中文版「言選Web」の評価(Webからの知識発見とネット応用)
文字列検索に基づく同義語・類義語抽出ツールとその性能評価
文字列検索に基づく同義語・類義語抽出ツールとその性能評価
図書館における自動レファレンスサービスシステムの実現 : Web上の二次情報と図書館の一次情報の統合(セッション1:文化・知的財産情報の統合と管理,学生チャレンジ特集)
図書館における自動レファレンスサービスシステムの実現 : Web上の二次情報と図書館の一次情報の統合(セッション1:文化・知的財産情報の統合と管理,学生チャレンジ特集)
接尾辞配列とディリクレ過程混合モデルを用いたテキスト中の数値表現マイニング
機械学習を用いた Web 表情報の例示検索方式とその評価
単語類似度ネットワークを通じた自動同義語獲得(語彙・固有表現・同義語)
4J-4 UT-Kiwi : 検索支援としてのテキストマイニングシステム(情報爆発時代におけるデータマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
D-5-8 Web表情報の例示検索方式とその評価(D-5. 言語理解とコミュニケーション,一般セッション)
E-013 数値による新聞記事テキストマイニングシステムの提案(E分野:自然言語・音声・音楽)
D-046 Web上の表情報を対象とした例示検索 : 表の構造的特徴の利用(D分野:データベース)
文脈情報による同義語辞書作成支援ツール(語彙・概念の獲得と同義語)
D_049 機械学習を用いたWeb上の表情報の例示検索方式(D分野:データベース)
専門用語抽出方法のテストコレクション依存性(抽出)
語彙空間の構造に基づく専門用語抽出(抽出(2))
スペイン植民地下のキューバの法制度
中国における幹部の集団的生産労働への参加制度
国立国会図書館リサーチ・ナビにおけるテーマグラフの生成
ユーザが知らない語を予測する読解支援システムSocialDictとそのリーダビリティ測定への拡張
ユーザが知らない語を予測する読解支援システムSocialDictとそのリーダビリティ測定への拡張
Wikipediaを介した関連ニュース・ブログの対応付け? Wikipediaエントリの分析?
特定トピックの日英ブログ収集・分析・類型化:事例研究
1.キーワードサーチを超える情報爆発サーチ : 自然言語処理で価値ある未知をマイニング(パートI:情報爆発時代における新しい基盤技術,情報爆発時代におけるわくわくするITの創出を目指して)
確率的潜在意味解析における特異値行列の非対角化の解釈とその評価
Web文書中の単語クリックログの解析から未知単語を予測する語義注釈システム
ポスト電子図書館 : 東京大学情報基盤センター図書館電子化研究部門のスタンス(図書館生き残り作戦)
Latent Dirichlet Allocationにおける決定論的オンラインベイズ学習
Web上の人名検索結果の同姓同名問題における二段階クラスタリングを用いた再現率向上
Web上の人名検索結果の同姓同名問題における二段階クラスタリングを用いた再現率向上
出現頻度と連接頻度に基づく専門用語抽出
出現頻度と連接頻度に基づく専門用語抽出
意味保存型の情報ハイディング : 日本語文書への適用
1S-6 日中英ニュース記事比較のための収集と検索(情報検索・評価分析,学生セッション,人工知能と認知科学)
D-5-10 Web情報推薦システムにおけるトピック分類クラスタの結合と分割(D-5. 言語理解とコミュニケーション,一般セッション)
E-018 世界の多言語ニュースの収集と分類(E分野:自然言語・音声・音楽)
D-031 Bloggerの嗜好を利用した協調フィルタリングと内容類似性によるWeb情報推薦システムのためのクラスタリング手法の検討(D分野:データベース)
E_007 Bloggerの嗜好を利用した協調フィルタリングと内容類似性によるWeb情報推薦システム(E分野:自然言語)
5J-6 キーワードのバースト特性を利用したスパムブログデータセットの作成と分析(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
4ZK-9 図書館とWebの分類体系を統合的に活用したテーマグラフ可視化インタフェース(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
Wikipedia を介した関連ニュース・ブログの対応付け : Wikipedia エントリの分析
5ZE-3 Anti-Collusion Privacy-Preserving Data Mining
3K-5 Wikipediaと図書館情報資源による調べ方自動提示システム(情報爆発時代におけるテキスト処理・Wikipedia,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
自動レファレンスサービスにむけて(レファレンス再考)
6ZC-1 半教師有り学習に基づくWeb上の人物クラスタリングシステム(情報爆発時代におけるWebパーティカル検索,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
文字列検索に基づく同義語・類義語抽出ツールとその性能評価
ユーザが知らない語を予測する読解支援システム SocialDict とそのリーダビリティ測定への拡張
en. newikipedia. org : 英語版 Wikipedia 中のユーザが知らない英単語を予測するユーザ参加型読解支援システム
3W-7 多クラス識別問題におけるオンライン学習のための厳密なPAアルゴリズム(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
5D-7 Web文書中のユーザが知らない語を予測する読解支援システム(自然言語処理(2),一般セッション,人工知能と認知科学,情報処理学会創立50周年記念)
サポートクラスによる Passive-Aggressive アルゴリズムの多クラス化
サポートクラスによるPassive-Aggressiveアルゴリズムの多クラス化
5ZN-6 Wikipediaにおける言語間の差異マイニング(情報爆発時代におけるWebマイニング,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
文書頻度と節長を利用した図書概要縮約方式
単語の文書頻度と文の長さを利用した抄録縮約方式
単語の文書頻度と文の長さを利用した抄録縮約方式
E-015 多国多言語ニュース記事の検索・比較システム(自然言語・音声・音楽,一般論文)
階層Pitman-Yorトピックモデル(一般講演(学習の理論),機械学習とその応用)
3K-4 ネットワーク構造を利用したWikipediaからの意外性のある情報の抽出(情報爆発時代におけるテキスト処理・Wikipedia,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
個人適応型Splogフィルタリングの実現に向けて : Splog判定データセットの構築と機械学習を用いたシステムの実装(第1回集合知シンポジウム〜言語処理が紡ぎ出す未来〜)
Succinct semi-structured data mining based on FREQT
SPAアルゴリズムの半教師あり学習への応用
SPAアルゴリズムの半教師あり学習への応用
Latent Dirichlet Allocation における決定論的オンラインベイズ学習
無限混合Dirichletトピックモデル (「学習」および一般発表)
Dirichlet Process Unigram Mixture Modelに対するCollapsed Variational Bayes Inferenceの適用
係り受け関係を考慮したテキストマイニングのための半構造マイニング手法の提案(言語処理)
D-015 ソーシャルブックマークにおけるスパム検出のための特徴とその評価(データベース,一般論文)
O_002 Word 2003文書への情報ハイディングシステム(O分野:情報システム)
Word 2003 XML文書への情報ハイディングシステム
Word 2003 XML文書への情報ハイディングシステム
論文特集「Webコンテンツの知的処理」まえがき
1B1-3 時系列テキスト集合からの社会的関心の分析(1B1 OS:共創・価値創成)
ユーザ適応型Splogフィルタリングのためのユーザ固有Splog空間の分析(ウェブ情報とデータベースに関して(ポスター講演))
E-002 実験的評価に基づくユーザ固有Splog空間の検証 : ユーザ適応型Splogフィルタリングに向けて(自然言語・音声・音楽,一般論文)
5J-7 スパムブログに関する定量的調査支援ツールの開発(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
Lin,F.and Cohen,W.W.:Power iteration clustering(べき乗法クラスタリング),27th Int.Conf.on Machine Learning(ICML 2010),pp.655-662(2010)
姶良カルデラ大規模火砕活動による噴出物のフッ素,塩素含有量
ソーシャルメディアからの地域固有表現の抽出(地域情報&ソーシヤルメデイア,第4回集合知シンポジウム)

コーパス検索支援のための動的同義語候補抽出

スポンサーリンク

概要

著者

関連論文

スポンサーリンク