医学生物学文献からの専門用語の抽出に向けて : タンパク質名の自動抽出
スポンサーリンク
概要
- 論文の詳細を見る
専門分野の文献処理では, 専門用語の処理が重要な位置を占める.しかし専門用語はたえず新たに作られ続けるため, 専門の辞書をあらかじめ用意できたとしても未知語に遭遇することは避けられない.また, 専門用語には領域専門家に間でのみ通用するあいまいな表記が存在する.このため, 専門家が文献中で専門用語辞書の見出しに正確に一致するように言葉を選ぶことは少ない.このような理由により, 専門用語を同定するために, 優れた専門用語辞書をあらかじめ網羅的に作成することは困難である.我々は本報告で医学生物分野を取りあげ, 領域固有の辞書をあらかじめ用意することなく専門用語を抽出する手法を提案する.我々の手法は未知語・既知語の区別なく適用でき, さらに表記の多様性にも対応している.我々はMEDLINEに登録されている論文要旨に対してタンパク質名の抽出実験を行い, 適合率94.70%, 再現率98.84%の結果を得た.
- 社団法人情報処理学会の論文
- 1998-08-15
著者
-
福田 賢一郎
産業技術総合研究所生命情報科学研究センター
-
角田 達彦
東京大学医科学研究所
-
角田 達彦
京都大学工学研究科電子通信工学
-
高木 利久
東京大学医科学研究所
-
福田 賢一郎
東京大学医科学研究所
-
田村 あゆち
東京大学医科学研究所
-
高木 利久
情報・システム研究機構:東大新領域
関連論文
- キャプションと記事テキストの文字列照合による報道番組と新聞記事との対応づけの自動化
- キャプションと記事テキストの最長一致文字列照合による報道番組と新聞記事との対応づけの自動化
- 他者の視線・意図理解および行為における意志作用感の神経機構に関する検討-社会的認知が可能なロボットの設計をめざして
- バイオメカトロニクスの技術基盤となるオープンブレインシミュレータの開発
- 統合失調症における意志作用感のモデリングとシミュレーション
- 2C2-2 統合失調症の認知シミュレーション(2C2 OS:認知ロボティクス2)
- ヒトセミナー : セミナーによるバイオ情報の共有と発信(情報表現)
- データベースに登録された神経細胞モデルの網羅的解析 : 神経科学知識の統合化と応用に向けて
- 神経細胞データベースモデルのインタフェース同定と再構成(Pathway and database)
- MK-6 東京大学理学部生物情報科学学部教育特別プログラム(大型プロジェクト紹介,学術系企画)
- ゲノムインフォーマティクスの数理
- 医学生物学文献からの専門用語の抽出に向けて : タンパク質名の自動抽出
- TVニュースと新聞記事の対応づけ
- 医学生物学文献からの専門用語の抽出
- 圧縮ファイルへの直接照合を可能にする符号化法の提案
- 単語の共起頻度と出現位置による新聞の関連記事の検索手法
- 図解辞書とLDOCEの分野コードに基づく場面知識による英語名詞の多義性解消
- 表層的手がかりによる六法全書法律文での要件部・効果部の抽出手法
- 語彙的結束性による図解辞書中の名詞の語義の推定
- 英字新聞の本文の語彙的結束性による見出し中の名詞の多義性解消
- 形態素の共起頻度と出現位置による新聞関連記事の検索手法
- 圧縮ファイルへの直接検索を可能にする符号化法の考案
- シグナル伝達と仮説推論バイオインフォマティクスでの応用事例(自動推論 : 演繹, 帰納, モデル検査/生成, 仮説推論アブダクション, 論理プログラム, プランニング, 時相論理, etc.)
- ゲノムデータベース(最終回)座談会「ゲノムデータベースの未来」
- ニューラルネットワークを用いた分業TSPの解法
- 英語名詞の多義性解消における文脈としての場面情報の評価
- 談話解析に基づく場面の同定とその評価
- 場面情報に基づく英語名詞の語義の優先づけ方法と評価
- 結束構造および一貫性に基づく場面構造の解析
- 分業巡回セールスマン問題のニューラルネットワークによる解法
- 辞書に基づく連想による文脈としての場面の最尤推定
- 辞書ベースの連想記憶に基づく日常生活場面の同定
- 辞書ベースの連想記憶による文脈理解のための場面同定機構
- 辞書ベース連想による場面同定に必要な文脈情報量の推定
- IJCNN '93の報告
- 連想推論における逐次学習方式の定式化とその評価 : 曖昧性解消に必要な文脈情報の定量化
- ニューラルネットワークと記号処理の統合による連想補完文字認識
- 超並列連想推論PDAI&CDによる意味の学習および文脈依存の語の多義性解消
- PDAI&CDに基づく意味の学習および文脈依存の多義性解消 : 神経回路網と論理記号処理の統合による連想推論
- 神経回路連想システムWAVEの自然言語理解への適用
- 神経回路網に基づく超並列連想システムWAVE
- 3 生命科学文献からの知識抽出と辞書構築 : その現状と課題(ポストゲノム時代に高まるバイオ自然言語処理への期待 : バイオ自然言語処理最新事情)
- WebPACADEの類似構造検索機能を用いたタンパク質のクラスタリング
- データマインニグを利用したタンパク質の機能・構造間相関ルール抽出
- タンパク質超二次構造の類似構造検索に基づく立体構造の分類
- キャプションと記事テキストの最長一致文字列照合による報道番組と新聞記事との対応づけの自動化
- ゲノムの構造解析-Gane Findingの現状
- 生体機能の理解に向けた医学生物学系文献の情報解析技術 (ゲノムから生命システムへ) -- (ゲノムから情報科学)
- 医学生物学文献からの専門用語の抽出
- The gene for mesomelic dysplasia Kantaputra type is mapped to chromosome 2q24-q32
- 0 編集にあたって(ポストゲノム時代に高まるバイオ自然言語処理への期待 : バイオ自然言語処理最新事情)
- 図解辞書とLDOCEの分野コードに基づく場面知識による英語名詞の多義性解消
- 図解辞書とLDOCEの分野コードに基づく場面知識による英語名詞の多義性解消
- Pictorial Dictionaryに基づく場面情報の結束性によるそれ自身の語義の自動付与
- LDOCE上の分野分けを用いたPictorial Dictionaryに基づく場面情報の解析
- TVニュースと新聞記事の対応づけ
- TVニュースと新聞記事の対応づけ
- 2S1-1 統合データベースプロジェクトは何の役に立つのか?(2S1 動き出したライフサイエンス統合データベース,第46回日本生物物理学会年会)
- 編集にあたって(バイオデータベースの今)
- 複合グラフ構造による生命現象メカニズムのデータベース化(情報融合)
- あなたにも役立つバイオインフォマティクス2(4)Gene Ontologyを遺伝子の機能アノテーションに活用する
- ゲノムデータベースの研究開発動向
- バイオインフォマティクスの現状と将来展望
- 編集にあたって(ゲノム情報科学 : 観測技術の進展を支えるインフォマティクス)
- Ontology of Living Systems
- バイオインフォマティクスの現状と将来展望
- 生命科学のためのオントロジー
- BioPAX:パスウェイデータフォーマットの標準化とオントロジー(トピックス)
- 生命科学におけるオントロジーとその利用(バイオインフォマティクスと人工知能の新たなインタラクション)
- 4.バイオ知識の形成と表現(バイオデータベースの今)
- Development of a Deductive Database System for Computing Closures of Similarity Relationships among Protein Structures
- ライフサイエンスにおける統合データベースの構築と課題
- ヒトゲノムにおける蛋白質コ-ド領域の予測(情報) (ゲノムサイエンス--生命の全体像の解明をめざして) -- (第1部 日本におけるヒト・ゲノム研究の最前線)
- DNA配列のコードポテンシャル算出方法の改良
- テキストからの情報抽出と辞書構築--機能データベースとオントロジーの構築に向けて (ゲノムサイエンスの新たなる挑戦) -- (第3部 ゲノム情報科学)
- ヒトゲノム情報解析技術の開発動向
- 微生物ゲノム比較解析用デ-タベ-スの開発(情報) (ゲノムサイエンス--生命の全体像の解明をめざして) -- (第1部 日本におけるヒト・ゲノム研究の最前線)
- 特集「ゲノム情報」の編集にあたって
- 解析進むヒトゲノム解析計画-重要性増すゲノム情報解析-
- 演繹データベースのゲノム情報処理への応用 (「知識処理応用とデータベース」)
- Gribskov, M. and Devereux, J. ed. : Sequence Analysis Primer, 279 pp., Stockton Press (1991).
- 2P2-I19 オープンブレインシミュレータの開発(移動知)
- ライフサイエンスにおける統合データベースの構築と課題