歴史オントロジー構築のための史料からの人物情報抽出
スポンサーリンク
概要
- 論文の詳細を見る
本研究の目的は、歴史資料(史料)を対象に歴史知識の構造化の基盤となる「歴史オントロジー」を構築するシステムを開発し、広く提供することによって歴史学の発展に寄与することにある。この目標を具体的に検証するために、昭和15年に時の帝国学士院において始められた明治前日本科学史の編纂成果である『明治前日本科学史』(刊本全28巻)の全文を日本学士院の許諾の下に電子化し、明治前の日本の科学技術を創成してきた科学技術者に関する属性および業績の情報を抽出することにより、前近代日本の人物情報データベースの構築を試みる。人物の属性として人名とそれに対する役職名と地名を、人物の業績として人名とそれに対する書名を、いずれもパターンマッチングなどのルールベースの手法によって抽出する。『明治前日本科学史総説・年表』を対象とした性能評価を行った結果、人名、人名とその役職名、および人名とその地名について、F値で0.8を超える結果が得られた。Our goal of this study is to contribute to the progress in historical science by developing a system for building a historical ontology from historical materials and making it available to the public. We digitize all the books of "Meiji-mae Nippon Kagaku-shi" ( Pre-modern Japanese Histroy of Science and Technology ) published by Nippon Gakushiin ( The Japan Academy ), and extract the attribution and the works in pre-modern Japanese history. We extract the names of persons, positions, places, and books as the attribution and the works of persons by pattern matching. The experimental results show that the F-measures for the names of persons, positions, and places are over 0.8.
- 言語処理学会,The Association for Natural Language Processing,東京大学史料編纂所 前近代日本史情報国際センター,NTTデータ ビジネスインテリジェンス推進センター,International Center for Digitization of Pre-modern Japanese Sources, Historiographical Institute, University of Tokyo,Business Intelligence Deploymeの論文
- 2008-09-21
著者
-
石川 徹也
東京大学史料編纂所・前近代日本史情報国際センター
-
北内 啓
株式会社NTTデータ
-
北内 啓
株式会社nttデータ技術開発本部ビジネスインテリジェンス推進センタ
-
城塚 音也
株式会社NTTデータ技術開発本部ビジネスインテリジェンス推進センタ
-
城塚 音也
Nttデータ
-
城塚 音也
株式会社nttデータ 開発本部
関連論文
- 「歴史知識学」の特集にあたって(歴史知識学)
- 伝統的モンゴル語と現代モンゴル語を対象とした双方向的な翻字手法(自然言語)
- 中国語への翻字における確率的な漢字選択手法(自然言語処理)
- 中国語への翻字における漢字選択の手法(意味・応用)
- 中国語への翻字における漢字選択の手法(意味・応用)
- モンゴル語コーパスからの外来語抽出
- 言葉の印象に基づく自動翻字手法
- 伝統的モンゴル語の電子化方式とテキスト検索への応用(自然言語処理)
- E-021 World Wide Webを用いたヘルプデスク指向の質問応答システム(E分野:自然言語)
- D-030 小説テキスト自動分類のためのジャンル推定と人物抽出(D分野:データベース)
- テキスト情報を対象としたハイブリッド型情報推薦システムにおける擬似投票方式(社会人学生論文)
- 検索質問の主題分析に基づく類似文書検索と特許検索への応用(情報検索)
- アイテムの主題分析に基づく協調フィルタリングシステムの推薦予測方式(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- アイテムの主題分析に基づく協調フィルタリングシステムの推薦予測方式(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- Webマイニングによる事典的コンテンツの構築と多様なアクセス手法(インターネット環境のコンテンツ技術及び一般)
- 検索質問文書の主題分析に基づく類似文書検索(セッション4 : 情報検索)
- 検索質問文書の主題分析に基づく類似文書検索(セッション4 : 情報検索)
- ユーザ投票と情報アイテム間類似度を併用した情報推薦システム : 擬似投票方式の提案と評価(セッション4 : コンテンツ配信と情報推薦)
- 複数Webページの要約による用語説明の自動生成(ツール,質問応答,要約)
- アイテムの主題分析に基づく協調フィルタリングシステムの推薦予測方式
- 日英特許公報を用いた対訳辞書および翻訳メモリの構築
- マルチエージェントアーキテクチャに基づく音声対話支援システム
- 歴史知識Ontology構築の研究 : その論理と実際
- 遠隔会議を対象にした音声対話モニタリングによる対話支援システム(次世代ヒューマンインタフェース・インタラクション)
- 対話音声を対象とした話題同定の検討
- マルチメディア端末上における音声対話支援
- エージェントアーキテクチャに基づいた音声対話支援システムの構築
- 携帯端末に対応した音声対話インタフェースの検討
- 異種情報環境で利用できる会議室予約システムにおける電話音声対話機能の評価
- 意味情報に基づく検索と全文検索の統合
- 意味情報に基づく検索と全文検索の統合
- 音声対話モニタリングによる対話の知的支援機構の検討
- 相談業務を対象とした対話支援環境の構築
- 歴史オントロジー構築のための史料からの人物情報抽出
- 情報フィルタリングの利用システム : 情報推薦システム(情報のフィルタリング)
- 文ベクトル集合モデルに基づく文書類似尺度の評価
- 誤り駆動型の素性選択による日本語形態素解析の確率モデル学習
- 語彙的結束性と単語重要度に基づくテキストセグメンテーション
- テキストマイニングにおける概念関係視覚化方式の検討
- テキストマイニングにおける概念関係視覚化方式の検討
- TRC(ADEAC=自治体史テキスト検索および編纂史料閲覧システム) (業者プレゼンテーション)
- 審査業務の業務分析手法の提案
- 審査業務の業務分析手法の提案