2段階抽出手法によるオークションの出品情報からの属性情報抽出
スポンサーリンク
概要
- 論文の詳細を見る
In order to achieve faceted search in net auction system, several researchers have dealt with the automated extraction of attributes and their values from descriptions of exhibits. In this paper, we propose a two-staged method to improve the performance of the extraction. The proposed method is based on the following two assumptions. 1) Identifying whether or not each sentence includes the target information is easier than extracting the target information from raw plain text. 2) Extracting the target information from the sentences selected in the first stage is easier than extracting the target information from the entire raw plain text. In the first stage, the method selects each sentence in a description that is judged to have attributes and/or values. In this stage, each sentence is represented a bag-of-words-styled feature vector, and is labeled as selected or not by a classifier derived by SVM. In the second stage, the extraction of attributes and values are performed on the cleaned text that does not contain parts of description irrelevant to exhibits, like descriptions for the postage, other exhibits, and so on. In the second stage, we adopt a sequential labeling method similar to named entity recognizers. The experimental result shows that the proposed method improves both the precision and the recall in the attribute-value extraction than only using second-stage extraction method. This fact supports our assumptions.
著者
-
森 辰則
横浜国立大学 工学部 電子情報学科
-
田中 裕也
ヤフー株式会社
-
宮崎 林太郎
横浜国立大学大学院環境情報学府
-
前田 直人
横浜国立大学大学院環境情報学府:(現)ヤフー株式会社
-
塚原 裕常
横浜国立大学大学院環境情報学府
-
西村 純
横浜国立大学大学院環境情報学府
-
小林 寛之
ヤフー株式会社
-
石川 雄介
ヤフー株式会社
-
翁 松齢
ヤフー株式会社
関連論文
- 複数マニュアルの自動ハイパーテキスト化における類似度計算手法について
- 情報信憑性判断のための調停要約の提案
- 情報信憑性判断のための自動要約に向けた人手による要約作成実験とその分析(機械翻訳・要約・評判分析)
- ロバストな質問応答システム構築のための質問文解析過程に関する一考察(言語理解とオントロジーシンポジウム)
- ロバストな質問応答システム構築のための質問文解析過程に関する一考察
- 自動ターム抽出における重み付け方法の比較
- 日本語マニュアルの内容検索システム
- 注釈事例参照を用いた複数注釈者による評判情報コーパスの作成
- 情報検索手法を利用した関連マニュアル群のハイパーテキスト化 (新しいシステムソフトウェア)
- 電子化マニュアルにおける自動ハイパーテキスト化手法
- NTCIRにおける質問応答技術の評価と今後の展望(NTCIR特別セッション)
- Basic Elementを用いた質問応答の自動評価(情報検索・情報抽出・QA)
- 質問応答システムにおける最良優先探索制御
- 係り受けの制約と優先規則に基づく数量表現抽出
- 農林関連文書からの情報抽出とその応用
- 地方議員マッチングシステムのための質問表現の検討
- 優先順位型質問応答の解スコア分布に基づくリスト型質問応答
- 製品レビュー文に基づく評判情報コーパスの作成とその特徴の分析(機械翻訳・要約・評判分析)
- 機械学習を用いた二段階洗練化手法による人物説明記述の抽出(情報抽出(テーマセッション2))
- ネットオークションの出品情報文書からの属性抽出の精度向上(情報抽出(テーマセッション2))
- 4ZK-6 Web文書を情報源とするnon-factoid型質問応答(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 4ZK-5 Web質問応答における複数検索エンジンの組合せによる精度向上(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 複数のWeb検索エンジンを用いたfactoid型質問応答(多言語処理・質問応答)
- 自然言語処理(NL)研究会(研究会千夜一夜)
- ネットオークションにおける属性検索のための出品情報文書からの属性抽出
- ネットオークションにおける属性検索のための出品情報文書からの属性抽出(用語・情報抽出)
- 末広かり
- 人手による評判情報注釈付けにおける揺れの分析と注釈付け支援ツール(意見・評判情報処理)
- 画像や地図を用いて回答できる質問応答システム(インタフェースと応用)
- 画像や地図を用いて回答できる質問応答システム
- 機械翻訳と翻字を併用した英日言語横断質問応答(質問応答)
- 一問一答型質問応答を利用した関連質問群に対する質問応答(質問応答)
- 優先順位型質問応答の解スコア分布に基づくリスト型質問応答(質問応答)
- 複数の質問に焦点を当てた複数文書要約手法(セグメンテーション・要約)
- 係り受けの2部グラフと共起関係を利用した同義表現抽出(抽出(2))
- 出現頻度と連接頻度に基づく専門用語抽出
- 検索結果表示向け文書要約における情報利得比に基づく語の重要度計算
- 自然言語処理 特集号「自動要約」
- 空間分割型CL-LSIによる大規模言語横断情報検索(情報の検索とテストコレクション)
- 空間分割型CL-LSIによる大規模言語横断情報検索
- 機械学習と人手作成のパタンを組み合わせた固有表現抽出
- NTCIRにおける質問応答技術の評価と今後の展望(NTCIR特別セッション)
- Basic Elementを用いた質問応答の自動評価(情報検索・情報抽出・QA)
- 機械学習を用いた二段階洗練化手法による人物説明記述の抽出(情報抽出(テーマセッション2))
- ネットオークションの出品情報文書からの属性抽出の精度向上(情報抽出(テーマセッション2))
- 日本語マニュアル文におけるアスペクト辞の意味について
- 係り受けの制約と優先規則に基づく数量表現抽出
- 農林関連文書からの情報抽出とその応用
- 情報信憑性判断のための直接調停要約の自動生成手法
- 2段階抽出手法によるオークションの出品情報からの属性情報抽出
- インターネットオークションにおける不正行為者の発見支援(マイニング,夏のデータベースワークショップDBWS 2006)
- インターネットオークションにおける不正行為者の発見支援(マイニング)
- 注釈事例参照を用いた複数注釈者による評判情報コーパスの作成
- 情報信憑性判断支援のための直接調停要約生成手法(自然言語処理)
- 情報信憑性判断支援のための直接調停要約生成手法