日本語新聞記事からの固有名詞情報抽出
スポンサーリンク
概要
- 論文の詳細を見る
電子化されたテキストが容易に入手できるようになり、近年はむしろ大量のテキスト情報が氾濫していると言ってもよい。そこで大量のテキストから重要な情報を検索し、抽出する技術が求められている。とくに新聞記事は内容がポピュラーで、最近はCD-ROMで市販されたりWWWで公開されたりするようになり、検索・抽出技術の応用が期待されている。テキストからの重要情報抽出として、新聞記事からの固有名詞の抽出技術を検討した。固有名詞は、新聞記事において重要な5W1H情報の要素となる。例えば、Who情報に人名・組織名が、Where情報に地名がなり得る。そこで固有名詞を人名・組織名・地名の3種類に分類して抽出することにした。固有名詞抽出の従来技術として前後の単語との係り受けや共起情報を手がかりに推定する方法が研究されている。例えば「XX社長」で「XX」が未登録語または他品詞や他固有名詞と曖昧性を持つ語であっても「社長」(人名共起語)の前の「XX」は人名と推定できる。筆者らも基本的にこの手法を用いて、政治・経済に関する100の新聞記事から人名・組織名・地名の推定ルールを作成した。本稿では、ルールの汎用性を評価するため、政治・経済以外の社会・エッセイ・スポーツなどの新聞記事を対象に評価を行った。
- 1996-09-04
著者
-
山田 洋志
日本電気株式会社サービスプラットフォーム研究所
-
竹元 義美
NEC情報メディア研究所
-
山田 洋志
NEC情報メディア研究所
-
竹元 義美
日本電気特許技術情報センター情報サービス事業部インフォメーションサービス部
-
若尾 孝博
シェフィールド大学
関連論文
- 日本語新聞記事からの固有名詞情報抽出
- 2C-3 利用者状況に適した方式で情報を推薦する「マルチモード推薦システム」の実現(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-6 行動情報を利用した携帯端末への情報配信システムアーキテクチャ(コンテンツ推薦,一般セッション,データベースとメディア)
- ペン校正支援システム
- 口語的表現を含む日本語文の形態素解析の実現と評価
- 口語的表現を含む日本語文の形態素解析の実現と評価
- 口語的表現を含む日本語文の形態素解析
- 日本語文書校正支援システムSt.WORDS
- 5B-7 携帯端末へのPush配信サービスにおける配信スケジュール方式(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-1 大規模テキストから位置情報および特徴語を抽出するルールの検討(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-5 行動履歴を利用したコンテンツ推薦方式の提案(コンテンツ推薦,一般セッション,データベースとメディア)
- キーワード方式べた書き文かな漢字変換システムにおける付属語情報を用いた単語のあてはめ
- べた書き文の単語分割におけるエラーの抽出法と自動訂正
- 日本語文の誤り検出に関する研究
- 辞書およびパターンマッチルールの増強と品質強化に基づく日本語固有表現抽出
- 1N-3 日本語テキストからの固有表現抽出システムの開発と評価
- インターネット多角的検索システムOTROS : データベースを用いたクエリ展開方式の提案
- インターネット多角的検索システムOTROS : 全体の概要と構成
- 固有名詞分類属性を利用した情報検索
- 予測ペン入力インタフェースとその手書き操作削減効果
- 予測ペン入力インタフェースとその手書き操作削減効果
- ペンベース文書作成(2) : 予測ペン入力方式
- ペンベース文書作成(1) : 試作システム
- 自然言語処理を用いたペン入力効率向上手法の提案
- 大語彙かな漢字変換 : 未登録語と区切り誤りの減少
- 文字ベース凝縮テキストによる全文検索方式の評価
- 混ぜ書き対応単語辞書の作成とその応用
- 大語彙辞書を用いたかな漢字変換についての考察
- 文書作成履歴を利用した校正支援機能
- FEP型校正支援システムの試作
- 連語辞書の自動作成と評価
- 漢字混じりかな漢字変換用単語辞書の作成
- 日本語解析性能と単語辞書との関係についての考察
- 大語彙かな漢字変換 : 連語の効果について
- 英語新聞記事からの固有名詞自動抽出技術
- 英語新聞記事からの固有名詞自動抽出技術
- 英語テキストからの情報抽出 : MUC第6回大会の参加報告
- 英語テキストからの情報抽出 : MUC第6回大会の参加報告