出現頻度と連接頻度に基づく専門用語抽出
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する.本論文では名詞(単名詞と複合名詞) を対象として専門用語抽出について検討する.基本的アイデアは,単名詞のバイグラムから得られる単名詞の統計量を利用するという点である.より具体的に言えば,ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる.この頻度を利用した数種類の複合名詞スコア付け法を提案する.NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した.この結果,スコアの上位の1,400 用語候補以内,ならびに,12,000 用語候補以上においては,単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.In this paper, we propose a new idea of automatically recognizing domain specific terms from monolingual corpus. The majority of domain specific terms are compound nouns that we aim at extracting. Our idea is based on single-noun statistics calculated with single-noun bigrams. Namely we focus on how many nouns adjoin the noun in question to form compound nouns. In addition, we combine this measure and frequency of each compound nouns and single-nouns, which we call FLR method. We experimentally evaluate these methods on NTCIR1 TMREC test collection. As the results, when we take into account less than 1,400 or more than 12,000 highest term candidates, FLR method performs best.
- 言語処理学会,The Association for Natural Language Processing,東京大学情報基盤センター,横浜国立大学大学院工学研究科,横浜国立大学大学院環境情報研究院,株式会社東芝,東芝IT ソリューション株式会社,Information Technology Center, the University of Tokyo,Graduate School of Engineering, Yokohama National University,Graduate Schoolの論文
- 2003-01-10
著者
-
中川 裕志
東京大学情報基盤センター
-
森 辰則
横浜国立大学 工学部 電子情報学科
-
森 辰則
横浜国立大学大学院環境情報研究院
-
森 辰則
横浜国立大学
-
湯本 紘彰
横浜国立大学大学院工学研究科
-
森 辰則
横浜国立大学大学院環境情報研究院社会環境と情報部門
-
中川 裕志
東京大学情報基盤センタ
関連論文
- テキストマイニングの活用(データマイニングの活用)
- 多クラス識別問題におけるPassive-Aggressiveアルゴリズムの効率的厳密解法(自然言語処理,知識獲得,情報爆発論文)
- 2P-8 ソーシャルブックマークにおけるスパムの検出(Webマイニング,学生セッション,データベースとメディア)
- 同義語辞書作成支援システム
- Word 2003 XML文書への情報ハイディングシステム
- 〈情報処理学会 情報学基礎研究会 (F1) 第96回 発表論文〉 接尾辞配列とディリクレ過程混合モデルを用いたテキスト中の数値表現マイニング (筑波大学東京キャンパス(秋葉原地区). 2009年11月19日)
- コーパス検索支援のための動的同義語候補抽出
- コンテンツの生産・活用に関する研究 : 科研「情報学」プロジェクトのコンテンツ研究を振り返って(「情報学を創る」-科研プロジェクトがめざしたもの)
- 25aQL-9 量子アニーリング法を用いた変分ベイズ推定(情報統計力学,領域11,統計力学,物性基礎論,応用数学,力学,流体物理)
- HTMLの表形式データの構造認識と携帯端末表示への応用
- HTMLの表形式データの変換と携帯端末表示への応用
- 単語類似度ネットワークを通じた自動同義語獲得(語彙・固有表現・同義語)
- スケーラブルで汎用的なブログ著者属性推定手法(web情報抽出)
- 中文版「言選Web」の評価(Webからの知識発見とネット応用)
- 自然言語処理(NL)研究会(研究会千夜一夜)
- 係り受けの2部グラフと共起関係を利用した同義表現抽出(抽出(2))
- 出現頻度と連接頻度に基づく専門用語抽出
- E-004 トピッククラスタを利用した協調フィルタリングに基づくWeb情報推薦システム(自然言語・音声・音楽,一般論文)
- 改行位置を利用したテキストステガノグラフィ(セキュリティと社会)(プライバシを保護するコンピュータセキュリティ技術)
- ドキュメントへのインフォメーションハイディング(インフォメーションハイディング)
- 中文版「言選Web」の評価(Webからの知識発見とネット応用)
- 文字列検索に基づく同義語・類義語抽出ツールとその性能評価
- 文字列検索に基づく同義語・類義語抽出ツールとその性能評価
- 図書館における自動レファレンスサービスシステムの実現 : Web上の二次情報と図書館の一次情報の統合(セッション1:文化・知的財産情報の統合と管理,学生チャレンジ特集)
- 図書館における自動レファレンスサービスシステムの実現 : Web上の二次情報と図書館の一次情報の統合(セッション1:文化・知的財産情報の統合と管理,学生チャレンジ特集)
- 接尾辞配列とディリクレ過程混合モデルを用いたテキスト中の数値表現マイニング
- 機械学習を用いた Web 表情報の例示検索方式とその評価
- 単語類似度ネットワークを通じた自動同義語獲得(語彙・固有表現・同義語)
- 4J-4 UT-Kiwi : 検索支援としてのテキストマイニングシステム(情報爆発時代におけるデータマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- D-5-8 Web表情報の例示検索方式とその評価(D-5. 言語理解とコミュニケーション,一般セッション)
- E-013 数値による新聞記事テキストマイニングシステムの提案(E分野:自然言語・音声・音楽)
- D-046 Web上の表情報を対象とした例示検索 : 表の構造的特徴の利用(D分野:データベース)
- 文脈情報による同義語辞書作成支援ツール(語彙・概念の獲得と同義語)
- D_049 機械学習を用いたWeb上の表情報の例示検索方式(D分野:データベース)
- 専門用語抽出方法のテストコレクション依存性(抽出)
- 語彙空間の構造に基づく専門用語抽出(抽出(2))
- 国立国会図書館リサーチ・ナビにおけるテーマグラフの生成
- ユーザが知らない語を予測する読解支援システムSocialDictとそのリーダビリティ測定への拡張
- ユーザが知らない語を予測する読解支援システムSocialDictとそのリーダビリティ測定への拡張
- Wikipediaを介した関連ニュース・ブログの対応付け? Wikipediaエントリの分析?
- 特定トピックの日英ブログ収集・分析・類型化:事例研究
- 1.キーワードサーチを超える情報爆発サーチ : 自然言語処理で価値ある未知をマイニング(パートI:情報爆発時代における新しい基盤技術,情報爆発時代におけるわくわくするITの創出を目指して)
- 確率的潜在意味解析における特異値行列の非対角化の解釈とその評価
- Web文書中の単語クリックログの解析から未知単語を予測する語義注釈システム
- ポスト電子図書館 : 東京大学情報基盤センター図書館電子化研究部門のスタンス(図書館生き残り作戦)
- Latent Dirichlet Allocationにおける決定論的オンラインベイズ学習
- Web上の人名検索結果の同姓同名問題における二段階クラスタリングを用いた再現率向上
- Web上の人名検索結果の同姓同名問題における二段階クラスタリングを用いた再現率向上
- 出現頻度と連接頻度に基づく専門用語抽出
- 出現頻度と連接頻度に基づく専門用語抽出
- 意味保存型の情報ハイディング : 日本語文書への適用
- 1S-6 日中英ニュース記事比較のための収集と検索(情報検索・評価分析,学生セッション,人工知能と認知科学)
- D-5-10 Web情報推薦システムにおけるトピック分類クラスタの結合と分割(D-5. 言語理解とコミュニケーション,一般セッション)
- E-018 世界の多言語ニュースの収集と分類(E分野:自然言語・音声・音楽)
- D-031 Bloggerの嗜好を利用した協調フィルタリングと内容類似性によるWeb情報推薦システムのためのクラスタリング手法の検討(D分野:データベース)
- E_007 Bloggerの嗜好を利用した協調フィルタリングと内容類似性によるWeb情報推薦システム(E分野:自然言語)
- 5J-6 キーワードのバースト特性を利用したスパムブログデータセットの作成と分析(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 4ZK-9 図書館とWebの分類体系を統合的に活用したテーマグラフ可視化インタフェース(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- Wikipedia を介した関連ニュース・ブログの対応付け : Wikipedia エントリの分析
- 5ZE-3 Anti-Collusion Privacy-Preserving Data Mining
- 3K-5 Wikipediaと図書館情報資源による調べ方自動提示システム(情報爆発時代におけるテキスト処理・Wikipedia,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 自動レファレンスサービスにむけて(レファレンス再考)
- 6ZC-1 半教師有り学習に基づくWeb上の人物クラスタリングシステム(情報爆発時代におけるWebパーティカル検索,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 文字列検索に基づく同義語・類義語抽出ツールとその性能評価
- ユーザが知らない語を予測する読解支援システム SocialDict とそのリーダビリティ測定への拡張
- en. newikipedia. org : 英語版 Wikipedia 中のユーザが知らない英単語を予測するユーザ参加型読解支援システム
- 3W-7 多クラス識別問題におけるオンライン学習のための厳密なPAアルゴリズム(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5D-7 Web文書中のユーザが知らない語を予測する読解支援システム(自然言語処理(2),一般セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- サポートクラスによる Passive-Aggressive アルゴリズムの多クラス化
- サポートクラスによるPassive-Aggressiveアルゴリズムの多クラス化
- 5ZN-6 Wikipediaにおける言語間の差異マイニング(情報爆発時代におけるWebマイニング,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 文書頻度と節長を利用した図書概要縮約方式
- 単語の文書頻度と文の長さを利用した抄録縮約方式
- 単語の文書頻度と文の長さを利用した抄録縮約方式
- E-015 多国多言語ニュース記事の検索・比較システム(自然言語・音声・音楽,一般論文)
- 階層Pitman-Yorトピックモデル(一般講演(学習の理論),機械学習とその応用)
- 3K-4 ネットワーク構造を利用したWikipediaからの意外性のある情報の抽出(情報爆発時代におけるテキスト処理・Wikipedia,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 個人適応型Splogフィルタリングの実現に向けて : Splog判定データセットの構築と機械学習を用いたシステムの実装(第1回集合知シンポジウム〜言語処理が紡ぎ出す未来〜)
- Succinct semi-structured data mining based on FREQT
- SPAアルゴリズムの半教師あり学習への応用
- SPAアルゴリズムの半教師あり学習への応用
- Latent Dirichlet Allocation における決定論的オンラインベイズ学習
- 無限混合Dirichletトピックモデル (「学習」および一般発表)
- Dirichlet Process Unigram Mixture Modelに対するCollapsed Variational Bayes Inferenceの適用
- 係り受け関係を考慮したテキストマイニングのための半構造マイニング手法の提案(言語処理)
- D-015 ソーシャルブックマークにおけるスパム検出のための特徴とその評価(データベース,一般論文)
- O_002 Word 2003文書への情報ハイディングシステム(O分野:情報システム)
- Word 2003 XML文書への情報ハイディングシステム
- Word 2003 XML文書への情報ハイディングシステム
- 論文特集「Webコンテンツの知的処理」まえがき
- 1B1-3 時系列テキスト集合からの社会的関心の分析(1B1 OS:共創・価値創成)
- ユーザ適応型Splogフィルタリングのためのユーザ固有Splog空間の分析(ウェブ情報とデータベースに関して(ポスター講演))
- E-002 実験的評価に基づくユーザ固有Splog空間の検証 : ユーザ適応型Splogフィルタリングに向けて(自然言語・音声・音楽,一般論文)
- 5J-7 スパムブログに関する定量的調査支援ツールの開発(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 5J-4 Wikipediaを用いた多言語ブログ検索のための訳語抽出(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 辞書変換法に基づく日本語テキストへの情報ハイディング
- ドラマのビデオ音声トラックとシナリオのセリフの時刻同期法
- 3 携帯端末向けコンテンツ変換と自然言語処理(テキスト自動要約 : 知的活動支援の基本技術として)
- モバイル用検索システムの今後について(モバイル環境と情報)
- E-033 ウェブを利用した関連用語収集(E.自然言語・文書・ゲーム)