固有表現抽出のための大規模訓練データの自動獲得
スポンサーリンク
概要
- 論文の詳細を見る
固有表現抽出は,質問応答や情報抽出などのアプリケーションにおいて基盤技術となっており,人名,地名,組織名,遺伝子名など,様々な意味クラスで試みられている.高い性能をもつ固有表現抽出器を構築するためには,あらかじめ意味クラスを付与した訓練データを用意し,機械学習アルゴリズムに基づいて構築するのが一般的である.しかしながら,訓練データの整備は,人手での作業に頼っているのが現状である.これでは,様々なドメイン・意味クラスで,広く固有表現抽出を利用しようにも,訓練データの入手性が固有表現抽出器構築のボトルネックになると考えられる.そこで,本研究では,より入手の容易な語彙データベースと生テキストを用いることで,固有表現抽出のための訓練データを人手に依らず自動的に獲得する手法を提案する.語彙データベースに含まれる豊富な情報を利用することで,高適合率な訓練データを自動獲得し,等位構造解析とself-trainingを適用することで,人手で作成した訓練データに迫る,高品質な訓練データを獲得した.
- 2011-05-09
著者
-
辻井 潤一
東京大学情報理工学系研究科コンピュータ科学専攻
-
辻井 潤一
京都大学工学部電気工学第2教室
-
辻井 潤一
東京大学大学院情報理工学系研究科コンピュータ科学専攻
-
辻井 潤一
京都大学
-
辻井 潤一
東京大学理学部情報科学科
-
辻井 潤一
東京大学
-
辻井 潤一
Crest Japan Science And Technology Corporation:graduate School Of Information Science And Technology
-
辻井 潤一
東京大学大学院情報理工学系研究科
-
辻井 潤一
東京大学大学院情報理工学系研究科コンピュータ科学専攻|マンチェスター大学情報学研究科|英国国立テキストマニングセンター
-
岡崎 直観
東京大学大学院情報理工学系研究科コンピュータ科学専攻
-
辻井 潤一
マイクロソフトリサーチアジア
-
宇佐美 佑
東京大学大学院情報理工学系研究科
-
岡崎 直観
東北大学大学院情報科学研究科
-
辻井 潤一
東京大学大学院情報理工学系研究科コンピュータ科学専攻,マンチェスター大学情報学研究科,英国国立テキストマニングセンター
関連論文
- 連載:理学のキーワード : 第26回
- 理学のキーワード : 第11回
- ソフトウェア科学会第2回大会
- 頑健なHPSGパーザの出力からTDL意味表現への変換手法(推論・意味)
- MK-6 東京大学理学部生物情報科学学部教育特別プログラム(大型プロジェクト紹介,学術系企画)
- 研究紹介
- 座談会 「人工知能研究の現状と問題点」
- パネル討論会 : エキスパート・システムの課題 (エキスパート・システム)
- TINLAP 3に出席して
- パネル討論 : 自然言語の知能的処理
- 自然言語の解析と生成 : 解析用と生成用の辞書・文法は統合化可能か
- 2P-3 タームのrepresentativenessを測るための新指標
- タームのrepresentativenessを測る
- コーパスに基づく動詞の多義解消
- 辞書を使わない日本語専門用語の自動分割
- 専門用語の自動抽出
- コーパスに基づく動詞の多義解消
- 1C-1 高速な類似文字列検索アルゴリズム(情報検索・情報推薦,一般セッション,データベースとメディア,情報処理学会創立50周年記念)
- HPSG Supertagging の精度向上のための単語クラスタリング
- HPSG Supertagging の精度向上のための単語クラスタリング
- ソフトウェア科学会第1回大会
- 編集にあたって(自然言語処理の高度化による知的生産性の向上)
- 深い構文解析のための高被覆な中国語HPSG文法の開発
- 日本語CCGの語彙項目獲得(語彙・概念の獲得と同義語)
- SupertaggingとCFG-filteringによるHPSG構文解析の高速化(深い言語処理のためのフレームワーク)
- 純粋な逐次処理による構文解析での探索候補数の削減(構文解析・機械翻訳)
- 純粋な逐次処理による構文解析での探索候補数の削減(構文解析・機械翻訳)
- 頑健なHPSGパーザの出力からTDL意味表現への変換手法(推論・意味)
- 教師なし隠れマルコフモデルを利用した最大エントロピータグ付けモデル
- 教師なし隠れマルコフモデルを利用した最大エントロピータグ付けモデル
- PCFGと分岐HMMを用いた構文解析(文構造解析)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- PCFGと分岐HMMを用いた構文解析(文構造解析)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- PCFGと分岐HMMを用いた構文解析
- 実用的な文法を開発するためのデバッグツール
- HPSG パーザーの為のGUI
- 言語理解・意味理解の先駆者田中穂積先生の想い出(8)
- 相互作用情報タグつき生命科学論文アブストラクトコーパスの作成(Text mining)
- 4 バイオNLPのためのコーパスと各種リソースの現状(ポストゲノム時代に高まるバイオ自然言語処理への期待 : バイオ自然言語処理最新事情)
- ゲノム科学におけるテキストマイニングと自然言語処理 (ゲノムサイエンスの新たなる挑戦) -- (第3部 ゲノム情報科学)
- 言語データマネージメントのための言語タグを利用した区間演算と区間検索
- パネル討論「常識とは何か」 : 1988年7月23日人工知能学会全国大会(於:学習院大学記念会館)
- パネル討論会 : 人工知能研究の目指すもの : 昭和61年後期第33回全国大会報告
- パネル討論会 : 情報処理・これからの25年 : 昭和60年度後期第31回全国大会報告
- パネル討論会 : 自然言語処理の現状と課題 : 第57年後期第25回全国大会報告
- ソフトウェア工学と自然言語処理 (<特集>ソフトウェア工学の現状と動向)
- 生命の理解とオントロジー (特集 ゲノムサイエンスの新地平--30億文字の生命設計図を探る)
- 3つ以下の候補から係り先を選択する係り受け解析モデル
- 並列HPSGパーザーに向けて
- 新任教官紹介
- 生きた言葉を捉える技術--自然言語処理の躍進と新たな課題 (特集 言語学的探究の行方--「生きたことば」と言語研究)
- 計算機による言語情報処理研究と言語学 (特集 言語処理研究の新展開--計算機と言語学の対話に向けて)
- 6 ゲノム情報学と言語処理(ゲノム情報科学 : 観測技術の進展を支えるインフォマティクス)
- リレー対談 認知科学との対話(4)計算言語学から探る人間の知--辻井潤一×辻幸夫
- 言語を計算機でどのように捉えるか (特集 ことばのコンピュートピア--人間との対話を目ざして)
- ことばとコンピュータ--言語理解のプロセスを探る-12・最終回-計算言語学の展開と行方
- ことばとコンピュータ (11)二つの言語学は統合可能か
- ことばとコンピュータ--言語理解のプロセスをさぐる(10)反カテゴリカルなシステムの可能性
- ことばとコンピュータ(9)90年代言語処理研究--その転回の源流
- ことばとコンピュータ--言語理解のプロセスをさぐる(8)八〇年代合理主義の功罪
- ことばとコンピュータ--言語理解のプロセスをさぐる(7)合理主義の曲がり角
- ことばとコンピュータ(6)移行派理論のブレークスルー
- ことばとコンピュータ--言語理解のプロセスをさぐる(5)確率モデルによる機械翻訳の進化
- ことばとコンピュータ(4)機械翻訳における経験主義と合理主義
- マルチプルアライメントによる放送に対する反響の抽出(「主観表現処理の最前線」シンポジウム)
- HPSG Supertagging の精度向上のための単語クラスタリング
- 日本語固有表現抽出の難易度を示す指標の提案と評価
- 全ての部分文字列を考慮した文書分類(分類)
- UIMAを基盤とする相互運用性の向上と自動組み合わせ比較 : 国際共同プロジェクトU-Compare(アーキテクチャ)
- UIMAを基盤とする相互運用性の向上と自動組み合わせ比較 : 国際共同プロジェクトU-Compare(アーキテクチャ)
- レビューに対する評価指標の自動付与
- 対談 脳の見方,モノの見方(10)脳が紡ぎ出す言葉の世界
- 特別寄稿 情報の消費を効率化する第3の革命
- 電子文書による情報アクセスと情報の共有
- 特許のトータルな系でのシステム構成、明晰な日本語の定義などが重要 (Japio年誌ネット座談会 特許分野における機械翻訳の活用と、特許版・産業日本語への期待)
- 基調講演 テキストから知識・情報へ:生命科学を題材にして (2003年情報学シンポジウム講演論文集--データの共有と知識の発見・創造) -- (知識創造のための基盤技術)
- e-サイエンスから研究活動の電子化へ
- 普通のなかの個別性 (誌上月報 シリーズ言語科学(1)文法理論:レキシコンと統語)
- 招待講演 情報共有と知識共有のための言語処理技術の最前線 (〔教育システム情報学会〕言語・知識処理応用研究部会 第82回研究会)
- 計算言語から見たチョムスキー (特集 チョムスキー再考--言語は本能か?)
- 科学技術庁機械翻訳プロジェクトの概要 (機械翻訳)
- 意味および文脈情報を用いた日本語文の解析 : 文脈を考慮した処理
- 意味および文脈情報を用いた日本語文の解析 : 名詞句・単文の処理
- 科学技術論文表題の英和機械翻訳システム
- 国語辞書の記憶と日本語文の自動分割
- 固有表現抽出のための大規模訓練データの自動獲得
- 固有表現抽出のための大規模訓練データの自動獲得
- 集合間類似度に対する簡潔かつ高速な類似文字列検索アルゴリズム
- 自動意味役割付与における意味役割の汎化
- アラインメントに基づいた日中漢字の対応関係における解析(機械翻訳・言語識別)
- JST-9 情報のモビリティを高めるための基盤技術(大型プロジェクト紹介,学術系企画)
- 知識処理の言語とツ-ル--知識処理を担うプログラミング言語の潮流 (人工知能)
- 人間の言語と計算機システム (人工知能)
- 行動科学と計算言語学 (特集 行動科学とは何か)
- 集合間類似度に対する簡潔かつ高速な類似文字列検索アルゴリズム
- 機械翻訳における辞書データベースの運用方式
- 中国の研究事情
- 生命・医学文献からの遺伝子名の抽出と同定
- 合理主義と経験主義のはざまで : 内的な処理の計算モデル(ポスト経験主義の言語処理)
- 情報検索から情報構造化、情報発見へ向けて (特許情報普及活動功労者表彰 発足記念版)
- 論文誌の役割