同義語辞書作成支援システム
スポンサーリンク
概要
- 論文の詳細を見る
同義語の同定は,情報検索,テキストマイニングなどのテキスト処理を行う上で必要な作業である.同義語辞書を作成することにより,テキスト処理の効率や精度の向上を期待できる.特定分野における文書には,専門の表現が多く用いられており,その中には,分野独特の同義語が多量に含まれている.例えば,日本語の航空分野では,漢字・ひらがなだけでなく,カタカナ,アルファベット,およびそれらの略語が同義語として用いられている.この分野の同義語は,汎用の辞書に登録されていないものが多く,既存の辞書を使用できないので,辞書を新たに作成する必要がある.また,辞書作成後も常に新しい語が発生するので,辞書の定期的な更新が必要となるが,それを人手で行うのは大変な作業である.本論文では,同義語辞書作成を半自動化するシステムを提案する,システムは,クエリが与えられると意味的に同じ候補語を提示する.辞書作成者は,その中から同義語を選択して,辞書登録を行うことができる.候補語のクエリに対する類似度は,同義語の周辺に出現する語の頻度情報を文脈情報とし,その余弦から計算する.文脈情報のみでは十分な精度が得られない場合,既知の同義語を知識としてシステムに与えることにより,文脈語の正規化を行い,精度を向上できることを確認した.実験は,航空分野の日本語のレポートを対象とし,システムの評価には平均精度を用いて行い,満足できる結果が得られた.To identify a synonym is a necessary procedure for text processing such as information retrieval and text mining. We can expect to improve the proficiency and performance in text processing by constructing a synonym dictionary. Same words might possibly be used as a different meaning if the target field differs, so a synonym dictionary has to be constructed for each field. In some fields in Japanese, such as in aviation, synonym nouns include kanjijhiragana, katakana, alphabet and their abbreviations. Many of these words are not registerd in a general dictionary. In addition, as new words always come to be used, the dictionary update is a big issue. In this paper, we propose a system for constructing a synonym dictionary. The system will return synonym candidates on the descending order of similarity against a query. A synonym can be easily registered in a dictionary by looking the synonym candidates generated by the proposed system. We define a context information as words frequency appearing around a target word. Then a similarity is calculated by cosine measure using context information. We confirmed that the system performance was remarkably improved by providing the system with known synonym set to make context word nominalization, especially when the performance was low. We experimentally evaluated the system performance by aviation safety reports in Japanese and evaluated it by average precision, and got promising results.
- 2008-04-10
著者
-
吉田 稔
東京大学情報基盤センター
-
中川 裕志
東京大学情報基盤センター
-
寺田 昭
(株)日本航空インターナショナル
-
吉田 稔
Department Of Chemistry Faculty Of Science Tokyo Institute Of Technology
-
寺田 昭
(株)日本航空
-
中川 裕志
東京大学情報基盤センタ
関連論文
- テキストマイニングの活用(データマイニングの活用)
- 多クラス識別問題におけるPassive-Aggressiveアルゴリズムの効率的厳密解法(自然言語処理,知識獲得,情報爆発論文)
- 2P-8 ソーシャルブックマークにおけるスパムの検出(Webマイニング,学生セッション,データベースとメディア)
- 同義語辞書作成支援システム
- Word 2003 XML文書への情報ハイディングシステム
- 〈情報処理学会 情報学基礎研究会 (F1) 第96回 発表論文〉 接尾辞配列とディリクレ過程混合モデルを用いたテキスト中の数値表現マイニング (筑波大学東京キャンパス(秋葉原地区). 2009年11月19日)
- コーパス検索支援のための動的同義語候補抽出
- コンテンツの生産・活用に関する研究 : 科研「情報学」プロジェクトのコンテンツ研究を振り返って(「情報学を創る」-科研プロジェクトがめざしたもの)
- A22 三段階で脱ガスした雲仙普賢岳溶岩(火山の化学,日本火山学会2006年秋季大会)
- 25aQL-9 量子アニーリング法を用いた変分ベイズ推定(情報統計力学,領域11,統計力学,物性基礎論,応用数学,力学,流体物理)
- HTMLの表形式データの構造認識と携帯端末表示への応用
- HTMLの表形式データの変換と携帯端末表示への応用
- 単語類似度ネットワークを通じた自動同義語獲得(語彙・固有表現・同義語)
- スケーラブルで汎用的なブログ著者属性推定手法(web情報抽出)
- 中文版「言選Web」の評価(Webからの知識発見とネット応用)
- 自然言語処理(NL)研究会(研究会千夜一夜)
- 係り受けの2部グラフと共起関係を利用した同義表現抽出(抽出(2))
- 出現頻度と連接頻度に基づく専門用語抽出
- E-004 トピッククラスタを利用した協調フィルタリングに基づくWeb情報推薦システム(自然言語・音声・音楽,一般論文)
- 改行位置を利用したテキストステガノグラフィ(セキュリティと社会)(プライバシを保護するコンピュータセキュリティ技術)
- ドキュメントへのインフォメーションハイディング(インフォメーションハイディング)
- 中文版「言選Web」の評価(Webからの知識発見とネット応用)
- 文字列検索に基づく同義語・類義語抽出ツールとその性能評価
- 文字列検索に基づく同義語・類義語抽出ツールとその性能評価
- 図書館における自動レファレンスサービスシステムの実現 : Web上の二次情報と図書館の一次情報の統合(セッション1:文化・知的財産情報の統合と管理,学生チャレンジ特集)
- 図書館における自動レファレンスサービスシステムの実現 : Web上の二次情報と図書館の一次情報の統合(セッション1:文化・知的財産情報の統合と管理,学生チャレンジ特集)
- 接尾辞配列とディリクレ過程混合モデルを用いたテキスト中の数値表現マイニング
- 機械学習を用いた Web 表情報の例示検索方式とその評価
- 単語類似度ネットワークを通じた自動同義語獲得(語彙・固有表現・同義語)
- 4J-4 UT-Kiwi : 検索支援としてのテキストマイニングシステム(情報爆発時代におけるデータマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- D-5-8 Web表情報の例示検索方式とその評価(D-5. 言語理解とコミュニケーション,一般セッション)
- E-013 数値による新聞記事テキストマイニングシステムの提案(E分野:自然言語・音声・音楽)
- D-046 Web上の表情報を対象とした例示検索 : 表の構造的特徴の利用(D分野:データベース)
- 文脈情報による同義語辞書作成支援ツール(語彙・概念の獲得と同義語)
- D_049 機械学習を用いたWeb上の表情報の例示検索方式(D分野:データベース)
- 専門用語抽出方法のテストコレクション依存性(抽出)
- 語彙空間の構造に基づく専門用語抽出(抽出(2))
- スペイン植民地下のキューバの法制度
- 中国における幹部の集団的生産労働への参加制度
- 国立国会図書館リサーチ・ナビにおけるテーマグラフの生成
- ユーザが知らない語を予測する読解支援システムSocialDictとそのリーダビリティ測定への拡張
- ユーザが知らない語を予測する読解支援システムSocialDictとそのリーダビリティ測定への拡張
- Wikipediaを介した関連ニュース・ブログの対応付け? Wikipediaエントリの分析?
- 特定トピックの日英ブログ収集・分析・類型化:事例研究
- 1.キーワードサーチを超える情報爆発サーチ : 自然言語処理で価値ある未知をマイニング(パートI:情報爆発時代における新しい基盤技術,情報爆発時代におけるわくわくするITの創出を目指して)
- 確率的潜在意味解析における特異値行列の非対角化の解釈とその評価
- Web文書中の単語クリックログの解析から未知単語を予測する語義注釈システム
- ポスト電子図書館 : 東京大学情報基盤センター図書館電子化研究部門のスタンス(図書館生き残り作戦)
- Latent Dirichlet Allocationにおける決定論的オンラインベイズ学習
- Web上の人名検索結果の同姓同名問題における二段階クラスタリングを用いた再現率向上
- Web上の人名検索結果の同姓同名問題における二段階クラスタリングを用いた再現率向上
- 出現頻度と連接頻度に基づく専門用語抽出
- 出現頻度と連接頻度に基づく専門用語抽出
- 意味保存型の情報ハイディング : 日本語文書への適用
- 1S-6 日中英ニュース記事比較のための収集と検索(情報検索・評価分析,学生セッション,人工知能と認知科学)
- D-5-10 Web情報推薦システムにおけるトピック分類クラスタの結合と分割(D-5. 言語理解とコミュニケーション,一般セッション)
- E-018 世界の多言語ニュースの収集と分類(E分野:自然言語・音声・音楽)
- D-031 Bloggerの嗜好を利用した協調フィルタリングと内容類似性によるWeb情報推薦システムのためのクラスタリング手法の検討(D分野:データベース)
- E_007 Bloggerの嗜好を利用した協調フィルタリングと内容類似性によるWeb情報推薦システム(E分野:自然言語)
- 5J-6 キーワードのバースト特性を利用したスパムブログデータセットの作成と分析(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 4ZK-9 図書館とWebの分類体系を統合的に活用したテーマグラフ可視化インタフェース(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- Wikipedia を介した関連ニュース・ブログの対応付け : Wikipedia エントリの分析
- 5ZE-3 Anti-Collusion Privacy-Preserving Data Mining
- 3K-5 Wikipediaと図書館情報資源による調べ方自動提示システム(情報爆発時代におけるテキスト処理・Wikipedia,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 自動レファレンスサービスにむけて(レファレンス再考)
- 6ZC-1 半教師有り学習に基づくWeb上の人物クラスタリングシステム(情報爆発時代におけるWebパーティカル検索,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 文字列検索に基づく同義語・類義語抽出ツールとその性能評価
- ユーザが知らない語を予測する読解支援システム SocialDict とそのリーダビリティ測定への拡張
- en. newikipedia. org : 英語版 Wikipedia 中のユーザが知らない英単語を予測するユーザ参加型読解支援システム
- 3W-7 多クラス識別問題におけるオンライン学習のための厳密なPAアルゴリズム(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5D-7 Web文書中のユーザが知らない語を予測する読解支援システム(自然言語処理(2),一般セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- サポートクラスによる Passive-Aggressive アルゴリズムの多クラス化
- サポートクラスによるPassive-Aggressiveアルゴリズムの多クラス化
- 5ZN-6 Wikipediaにおける言語間の差異マイニング(情報爆発時代におけるWebマイニング,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 文書頻度と節長を利用した図書概要縮約方式
- 単語の文書頻度と文の長さを利用した抄録縮約方式
- 単語の文書頻度と文の長さを利用した抄録縮約方式
- E-015 多国多言語ニュース記事の検索・比較システム(自然言語・音声・音楽,一般論文)
- 階層Pitman-Yorトピックモデル(一般講演(学習の理論),機械学習とその応用)
- 3K-4 ネットワーク構造を利用したWikipediaからの意外性のある情報の抽出(情報爆発時代におけるテキスト処理・Wikipedia,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 個人適応型Splogフィルタリングの実現に向けて : Splog判定データセットの構築と機械学習を用いたシステムの実装(第1回集合知シンポジウム〜言語処理が紡ぎ出す未来〜)
- Succinct semi-structured data mining based on FREQT
- SPAアルゴリズムの半教師あり学習への応用
- SPAアルゴリズムの半教師あり学習への応用
- Latent Dirichlet Allocation における決定論的オンラインベイズ学習
- 無限混合Dirichletトピックモデル (「学習」および一般発表)
- Dirichlet Process Unigram Mixture Modelに対するCollapsed Variational Bayes Inferenceの適用
- 係り受け関係を考慮したテキストマイニングのための半構造マイニング手法の提案(言語処理)
- D-015 ソーシャルブックマークにおけるスパム検出のための特徴とその評価(データベース,一般論文)
- O_002 Word 2003文書への情報ハイディングシステム(O分野:情報システム)
- Word 2003 XML文書への情報ハイディングシステム
- Word 2003 XML文書への情報ハイディングシステム
- 論文特集「Webコンテンツの知的処理」まえがき
- 1B1-3 時系列テキスト集合からの社会的関心の分析(1B1 OS:共創・価値創成)
- ユーザ適応型Splogフィルタリングのためのユーザ固有Splog空間の分析(ウェブ情報とデータベースに関して(ポスター講演))
- E-002 実験的評価に基づくユーザ固有Splog空間の検証 : ユーザ適応型Splogフィルタリングに向けて(自然言語・音声・音楽,一般論文)
- 5J-7 スパムブログに関する定量的調査支援ツールの開発(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- Lin,F.and Cohen,W.W.:Power iteration clustering(べき乗法クラスタリング),27th Int.Conf.on Machine Learning(ICML 2010),pp.655-662(2010)
- 姶良カルデラ大規模火砕活動による噴出物のフッ素,塩素含有量
- ソーシャルメディアからの地域固有表現の抽出(地域情報&ソーシヤルメデイア,第4回集合知シンポジウム)