一般語との曖昧性を持つタンパク質名の自動検出(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
スポンサーリンク
概要
- 論文の詳細を見る
本稿ではタンパク質名辞書に含まれるタンパク質名のうち一般語と曖昧性を持つタンパク質名(例えば"AND","CELL","SKI"など)を自動的に検出する方法を提案する。提案手法では,(1)公共データベースからタンパク質名を収集して初期辞書を作成し,次に,(2)初期辞書に含まれるタンパク質名からリファレンスコーパスにおける頻度が闇値より高いものを一般語と曖昧性の高いタンパク質名として検出する。閾値を変化させながらGENIAコーパスでのタンパク質名抽出を行って最適な閾値を決定した。性質の異なる3つのリファレンスコーパスで比較したところ,一般語の判定にはAP通信のような専門用語を含まないコーパスが適していることがわかった。また,MEDLINEにおける超高頻度語を(医学・生物学分野の)一般語として取り除くことでタンパク質名抽出の精度を,さらに向上させられることがわかった。また既存のタンパク質名抽出の方法と比較するためにYapexコーパスで評価した結果,適合率71.0%,再現率66.4%が得られ,提案手法のような簡便な方法で既存手法と同等の精度を達成することができた。
- 社団法人情報処理学会の論文
- 2004-09-16
著者
-
丹羽 芳樹
(株)日立製作所中央研究所
-
久光 徹
(株)日立製作所中央研究所
-
今一 修
(株)日立製作所中央研究所
-
大井 洋子
(株)日立製作所 中央研究所
-
大田 佳宏
(株)日立製作所 中央研究所
-
今一 修
株式会社日立製作所中央研究所
関連論文
- 医療用語のコード化手法 : 部分文字列のテキスト近似被覆問題(専門用語)
- 96 テンプレート入力方式の読影レポート作成システムの開発と試用(医療情報管理 RIS・情報支援)
- 対話的文書検索における文書クラスタリングの役割
- OCR誤認識後処理の効率化 : 補単語抽出方法と動詞活用処理を中心に
- 形態素解析プログラムANIMAの設計と評価
- 情報検索支援のためのシソーラス管理システムの提案
- 対話的文書検索における文書クラスタリングの役割
- 一般語との曖昧性を持つタンパク質名の自動検出(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 一般語との曖昧性を持つタンパク質名の自動検出(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- 2P-3 タームのrepresentativenessを測るための新指標
- タームのrepresentativenessを測る
- ハイブリッド型文書検索システムの試作と性能評価(夏のデータベースワークショップ2007(データ工学,一般))
- ハイブリッド型文書検索システムの試作と性能評価(テキスト検索,夏のデータベースワークショップ2007(データ工学,一般))
- 情報の価値に応じた印刷制御機能の開発
- 医療用語のコード化手法 : 部分文字列のテキスト近似被覆問題(専門用語)
- 統計情報と文法制約を統合した統語解析手法
- 係り受け情報を利用したパーザの効率化とロバスト解析への応用
- 連想に基づく情報アクセス技術 : 汎用連想計算エンジンGETAを用いて(最新情報検索技術)
- あいまい検索の技術と応用 (特集 インターネット検索技術と日本語研究)
- TD-1-6 DualNAVIによる連想的テキストアクセス
- 組み合わせ的確率モデルに基づく特徴単語選択方法 : 超幾何分布の応用
- 類似例の存在を否定的な要因として用いる重要バイグラムの収集支援方法
- 書き換え規則と文脈情報を用いた形態素解析後処理
- 書き換え規則と文脈情報を用いた形態素解析後処理
- 統計量とルールを組み合わせて有用な括弧表現を抽出する手法
- WWWホームページからの共起語自動抽出実験
- 括弧表現から統計量を用いて有用情報を抽出する手法
- 辞書と共起情報を用いた新聞記事からの人名獲得
- 動的な共起解析を用いた対話的文書検索支援
- 7-b) 連想統合による医学・生物学知識の活用ソリューション(企業におけるバイオNLPへの取り組み)(ポストゲノム時代に高まるバイオ自然言語処理への期待 : バイオ自然言語処理最新事情)
- 汎用連想計算エンジン GETA とそれに基づく連想検索システム
- 編集にあたって(ゲノム情報科学 : 観測技術の進展を支えるインフォマティクス)
- 複数の知識源を統合的に用いた頑健な自然言語処理 (人工知能分野における博士論文)
- 文法的不適格文処理のための統合的枠組み
- コストと報酬の関係に基づく自然な発話の解析
- Chomsky, N. : A Minimalist Program for Linguistic Theory, The View from Building 20, K. Hale and S. J. Keyser (eds.), chapt.1, pp.1-52, The MIT Press (1993).
- 少数の原理に基づく頑健な自然言語処理
- 頑健な自然言語処理の研究動向と課題
- 文字コード処理方式による高速な印刷コントロール機能の開発
- 編集にあたって(使いやすくなった自然言語処理のフリーソフト : 知っておきたいツールの中身)
- 条件付き確率最大法を利用した日本語形態素解析
- 編集にあたって(テキスト自動要約 : 知的活動支援の基本技術として)
- 文書走査を用いた複合名詞解析
- 文書走査を用いた複合名詞解析について
- 日本語形態素解析における効率的な動詞活用処理
- 日本語形態素解析における効率的な動詞活用処理
- 接続コスト最小法による日本語形態素解析
- 漢字仮名混じり文形態素解析における非サ変動詞の分割単位設定について
- 単語ベクトルを用いた多義語の意味推定 : 共起ベクトルと定義距離ベクトルの比較
- 動的な共起解析を用いた対話的文書検索支援