表層情報を利用したネットニュース領域構造解析
スポンサーリンク
概要
- 論文の詳細を見る
インターネットを流通する電子化情報のうち、構造化が行われておらず、引用を表す記号等、通常のテキストとは異なる文字の用法が存在するネットニュースや電子メールを対象として、情報抽出や要約を容易にするための自動構造解析を検討している。このうち本稿では、引用構造、および、内容的な領域区分-ある投稿者が記述した文章、ニュースリーダが自動的に挿入した文章、署名-を、空行等により分割された領域単位に、表層的に得られる文字種や位置情報等を属性とした決定木を用いて解析する方法を提案する。また、ネットニュースコーパスを用いた実験を行い、本手法の有効性を示す。
- 一般社団法人情報処理学会の論文
- 1999-07-22
著者
関連論文
- ラベルありデータの選択バイアスに頑健な半教師あり学習
- 同義語情報を用いた確率的単語アライメントモデル
- Wikipediaからの大規模な人オントロジー構築
- 電子メールインテリジェントサービス (「創造的ネットワーク化情報環境に向けて」)
- 日本語語彙大系を用いたWikipediaからの汎用オントロジー構築
- 機械翻訳最新事情 : (下)評価型ワークショップの動向と日本からの貢献
- 機械翻訳最新事情 : (上)統計的機械翻訳入門
- 統計的機械翻訳(自然言語とコンピュータ)
- 意味的等価性検証に基づく記述式解答文の採点法(テキストの類似性・文処理モデル)
- 意味的等価性検証に基づく記述式解答文の採点法(テキストの類似性・文処理モデル)
- Wikipedia からの大規模な人オントロジー構築
- SLP・NL合同セッション「ここまでできるぞ音声/言語処理技術」 : 言語編
- SLP・NL合同セッション「ここまでできるぞ音声/言語処理技術」 : 言語編 : 1 言語処理技術の現状
- リッチアノテーション : 固有表現に焦点をあてた知識抽出の試み(情報抽出(テーマセッション2))
- リッチアノテーション : 固有表現に焦点をあてた知識抽出の試み(情報抽出(テーマセッション2))
- D-12-67 「領域抽出不要型文字認識」に基づく景観中単語認識(D-12. パターン認識・メディア理解, 情報・システム2)
- クロス言語情報検索と多言語情報アクセスシステム (特集論文1 高度検索技術)
- Support Vector Machine を使ったモーラ列からの日本語姓名のアクセント推定(音声, 聴覚)
- Web上の口コミを分析する評判情報インデクシング技術 (特集 ポータルサービスを支える自然言語処理技術)
- マルチメディア時代を支える言語処理技術 (特集論文 メディア処理技術)
- 音声翻訳実験システム(ASURA)のシステム構成と性能評価
- 発話タイプ付きコーパスを用いた確率的対話モデルの自動生成
- 単一化に基づく構文解析における制約の選択的適用
- 音声制御ブラウザ VCWeb の英日シームレス化
- 日本語語彙大系を用いた Wikipedia からの汎用オントロジー構築
- 表層情報を利用したネットニュース領域構造解析
- 表層情報を利用したネットニュース領域構造解析
- チャートパーザによる音声認識候補の効率的解析手法
- 汎用的な意味解析技術への挑戦 (特集 ポータルサービスを支える自然言語処理技術)
- テキスト分類 : 学習理論の「見本市」(情報論的学習理論とその応用)
- ループを含む素性構造単一化における構造共有手法
- 日本語教育のための誤り訂正ローマ字かな変換
- 日本語OCRのための表記と読みの同時形態素解析
- 構文・照応・評価情報つきブログコーパスの構築
- 再学習による翻訳モデルを用いた単語アライメントの向上
- 言語横断情報検索における画像手がかりを用いたインタラクティブな翻訳曖昧性解消の評価
- 統計的言語モデルとN-best探索を用いた日本語形態素解析法
- 未知語の確率モデルと単語の出現頻度の期待値に基づくテキストからの語彙獲得
- Pitman-Yor過程に基づく確率的木挿入文法モデル
- 統計的文法獲得モデルのための部分木ブロック化サンプリング法
- カテゴリ名と記事名の意味属性分類に基づく Wikipedia からの上位下位関係オントロジーの構築
- 統計的文法獲得モデルのための擬似部分木ブロック化サンプリング法
- 画像検索を用いた語義別画像付き辞書の構築