日本語固有表現抽出の難易度を示す指標の提案と評価
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,固有表現抽出の難易度をテストコーパスから評価する指標を提案する.固有表現抽出システムの性能は客観的な指標によって評価される.しかし,システムの出力に対する評価だけでは,あるコーパスに対する固有表現抽出がどのように難しいのか,どのような情報がそのコーパスに対して固有表現抽出を行なう際に有効なのかを知ることは難しい.本論文で提案する指標は,個々のシステムの出力に依存することなく,複数のコーパスについて統一的に適用できる.指標の有効性は固有表現抽出システムの性能評価と比較することで検証される.さらに固有表現のクラス間における難易度の比較や,有用な情報の違いについても議論する.We propose indices to measure the difficulty of the named entity (NE) task by looking at test corpora, based on expressions inside and outside the NEs. These indices are intended to estimate the difficulty of each task without actually using an NE system and to be unbiased towards a specific system. The values of the indices are compared with the systems’ performance in Japanese documents. We also discuss the difference between NE classes with the indices and show useful clues which will make it easier to recognize NEs.
- 言語処理学会,The Association for Natural Language Processing,独立行政法人通信総合研究所けいはんな情報融合研究センター自然言語グループ,ニューヨーク大学コンピュータサイエンス学科,東京大学大学院情報理工学系研究科コンピュータ科学専攻,Computational Linguistic Group, Keihanna Human Info-Communication Research Center, Communications Research Laboratの論文
- 2003-01-10
著者
-
辻井 潤一
東京大学大学院情報学環
-
辻井 潤一
東京大学情報理工学系研究科コンピュータ科学専攻
-
関根 聡
ニューヨーク大学
-
関根 聡
ニューヨーク大学コンピュータサイエンス学科
-
辻井 潤一
京都大学
-
辻井 潤一
東京大学理学部情報科学科
-
辻井 潤一
東京大学
-
野畑 周
独立行政法人通信総合研究所けいはんな情報通信融合研究センター自然言語グループ
-
辻井 潤一
Crest Japan Science And Technology Corporation:graduate School Of Information Science And Technology
-
野畑 周
独立行政法人通信総合研究所けいはんな情報融合研究センター自然言語グループ
-
辻井 潤一
東京大学大学院情報理工学系研究科
-
辻井 潤一
東京大学大学院情報理工学系研究科コンピュータ科学専攻|マンチェスター大学情報学研究科|英国国立テキストマニングセンター
-
関根 聡
ニューヨーク大学コンピューター・サイエンス学科
-
関根 聡
ニューヨーク大
関連論文
- 連載:理学のキーワード : 第26回
- 理学のキーワード : 第11回
- 日本語語彙大系と日本語ウィキペディアにおける知識の自動結合による汎用オントロジー構築手法(単語・事象・オントロジー)
- 頑健なHPSGパーザの出力からTDL意味表現への変換手法(推論・意味)
- MK-6 東京大学理学部生物情報科学学部教育特別プログラム(大型プロジェクト紹介,学術系企画)
- D-5-7 マルチモーダル情報を用いた放送番組からの人物相関図生成(D-5. 言語理解とコミュニケーション,一般セッション)
- パネル討論会 : エキスパート・システムの課題 (エキスパート・システム)
- Wikipediaと汎用シソーラスを用いた汎用オントロジー構築手法
- Wikipediaと汎用シソーラスを用いた汎用オントロジー構築手法(人工知能,データマイニング)
- E-049 番組検索のための登場人物の関係抽出(E分野:自然言語・音声・音楽)
- パネル討論 : 自然言語の知能的処理
- 自然言語の解析と生成 : 解析用と生成用の辞書・文法は統合化可能か
- 2P-3 タームのrepresentativenessを測るための新指標
- 定型表現を利用した新聞記事からの下位概念単語の自動抽出(オントロジ・抽出(2))(セマンティックウェブと自然言語処理その他一般)
- 1C-1 高速な類似文字列検索アルゴリズム(情報検索・情報推薦,一般セッション,データベースとメディア,情報処理学会創立50周年記念)
- HPSG Supertagging の精度向上のための単語クラスタリング
- HPSG Supertagging の精度向上のための単語クラスタリング
- 編集にあたって(自然言語処理の高度化による知的生産性の向上)
- 深い構文解析のための高被覆な中国語HPSG文法の開発
- 日本語CCGの語彙項目獲得(語彙・概念の獲得と同義語)
- SupertaggingとCFG-filteringによるHPSG構文解析の高速化(深い言語処理のためのフレームワーク)
- 純粋な逐次処理による構文解析での探索候補数の削減(構文解析・機械翻訳)
- 純粋な逐次処理による構文解析での探索候補数の削減(構文解析・機械翻訳)
- 頑健なHPSGパーザの出力からTDL意味表現への変換手法(推論・意味)
- 教師なし隠れマルコフモデルを利用した最大エントロピータグ付けモデル
- PCFGと分岐HMMを用いた構文解析(文構造解析)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- PCFGと分岐HMMを用いた構文解析(文構造解析)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- PCFGと分岐HMMを用いた構文解析
- 実用的な文法を開発するためのデバッグツール
- HPSG パーザーの為のGUI
- 言語理解・意味理解の先駆者田中穂積先生の想い出(8)
- 相互作用情報タグつき生命科学論文アブストラクトコーパスの作成(Text mining)
- 4 バイオNLPのためのコーパスと各種リソースの現状(ポストゲノム時代に高まるバイオ自然言語処理への期待 : バイオ自然言語処理最新事情)
- 4P-5 医学・生物学文献からのタグ付きコーパスの作成
- 医学・生物学論文からのタグ付きコーパスの作成
- 言語データマネージメントのための言語タグを利用した区間演算と区間検索
- パネル討論「常識とは何か」 : 1988年7月23日人工知能学会全国大会(於:学習院大学記念会館)
- パネル討論会 : 人工知能研究の目指すもの : 昭和61年後期第33回全国大会報告
- パネル討論会 : 情報処理・これからの25年 : 昭和60年度後期第31回全国大会報告
- パネル討論会 : 自然言語処理の現状と課題 : 第57年後期第25回全国大会報告
- 最大エントロピーモデルに基づく形態素解析 : 未知語の問題の解決策
- 最大エントロピー法に基づくモデルを用いた日本語係り受け解析
- 文末から解析する統計的係り受け解析アルゴリズム
- MEによる日本語係り受け解析
- 用例に基づく手法と機械学習モデルの組合せによる訳語選択
- 異なるコーパスにおける重要文抽出の結果と素性の分析
- 日本におけるテストコレクションと評価の動向(情報検索システムの力くらべ : テストコレクションによる評価)
- 招待講演:情報検索・抽出技術の評価を巡る諸問題--第1回のNTCIR/IREXを終えて (2000年情報学シンポジウム--ネットワーク型情報メディアの活用と情報を活かす新技術) -- (セッション5:情報検索・情報抽出)
- IREX :情報検索、情報抽出コンテスト
- LTAG文法からの変換によるHPSG英文法の作成
- 文間接続関係の自動同定のための人間による同定分析(談話・要約)
- 文間接続関係の自動同定のための人間による同定分析(談話・要約)
- 3つ以下の候補から係り先を選択する係り受け解析モデル
- HPSGから有限状態オートマタへ
- 生きた言葉を捉える技術--自然言語処理の躍進と新たな課題 (特集 言語学的探究の行方--「生きたことば」と言語研究)
- 計算機による言語情報処理研究と言語学 (特集 言語処理研究の新展開--計算機と言語学の対話に向けて)
- 拡張固有表現獲得の精度向上
- 拡張固有表現獲得の精度向上(語彙2)
- マルチプルアライメントによる放送に対する反響の抽出(「主観表現処理の最前線」シンポジウム)
- HPSG Supertagging の精度向上のための単語クラスタリング
- 日本語固有表現抽出の難易度を示す指標の提案と評価
- 日本語情報抽出システムの開発と評価
- 日本語情報抽出システムの開発と評価
- 全ての部分文字列を考慮した文書分類(分類)
- UIMAを基盤とする相互運用性の向上と自動組み合わせ比較 : 国際共同プロジェクトU-Compare(アーキテクチャ)
- UIMAを基盤とする相互運用性の向上と自動組み合わせ比較 : 国際共同プロジェクトU-Compare(アーキテクチャ)
- レビューに対する評価指標の自動付与
- 電子文書による情報アクセスと情報の共有
- 特許のトータルな系でのシステム構成、明晰な日本語の定義などが重要 (Japio年誌ネット座談会 特許分野における機械翻訳の活用と、特許版・産業日本語への期待)
- 基調講演 テキストから知識・情報へ:生命科学を題材にして (2003年情報学シンポジウム講演論文集--データの共有と知識の発見・創造) -- (知識創造のための基盤技術)
- e-サイエンスから研究活動の電子化へ
- TIPSTER Text Program Phase III 24-Month Workshop参加報告
- 質問応答に対する言い換えの効果の調査(コーパス分析・言い換え)(セマンティックウェブと自然言語処理その他一般)
- 質問応答に対する言い換えの効果の調査
- 固有表現抽出のための大規模訓練データの自動獲得
- 固有表現抽出のための大規模訓練データの自動獲得
- 自動意味役割付与における意味役割の汎化
- アラインメントに基づいた日中漢字の対応関係における解析(機械翻訳・言語識別)
- 情報検索、情報抽出テストコレクション
- Web時代の音声・言語技術
- 「日本」という垣根なんて本当はないんだ
- 新聞記事コーパスに基づいた上位語・下位語を含む連体修飾表現の分析
- 集合間類似度に対する簡潔かつ高速な類似文字列検索アルゴリズム
- 翻訳メモリとコーパスを用いた学習に基づく訳語選択
- 大量テキストの構造付与と人工知能研究 (AIチャレンジ)
- 最尤先行詞候補を用いた日本語名詞句同一指示解析(自然言語)(情報システム論文)
- Web検索における人名の曖昧性解消技術の動向 : 同姓同名のクラスタリング
- 1情報抽出 : 情報を整理して提示する(自然言語による情報アクセス技術)
- 不意打ち言語試験!?
- 後方文脈を考慮した係り受けモデル
- コーパスからの語順の学習
- 中国の研究事情
- 4 テキストからの情報抽出 : 文書から特定の情報を抜き出す (フィールドを広げる自然言語処理)
- IREX : 情報検索、情報抽出コンテスト
- 生命・医学文献からの遺伝子名の抽出と同定
- 安全な歯周外科手術を実施するために必要な感染対策の基本 (特集 歯周外科 : "基本中の基本"を徹底して学び直す)
- 合理主義と経験主義のはざまで : 内的な処理の計算モデル(ポスト経験主義の言語処理)
- 情報検索から情報構造化、情報発見へ向けて (特許情報普及活動功労者表彰 発足記念版)
- IJCAI-97への期待: 言語処理の立場から ("IJCAI-97"日本開催への期待(4))
- 視点の変換 : 言語の理論から設計の理論へ