HTML文書中の箇条書きとその表題に注目した下位語の自動獲得(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,Web上にあるHTML文書から予め指定された単語もしくは複合語について,その下位語を獲得する方法について述べる.本研究では,「HTML文書中に現れる箇条書きや表の表題には,それらの要素に共通の上位語が含まれやすい」という仮説を設け上位下位関係の獲得を試みる.本手法は,我々が以前に提案した,箇条書きや表の要素に共通する上位語を,統計量を用いて求める手法を拡張することで,予め指定された単語や複合語を上位語として持つ下位語の獲得を可能にする.実験により,従来手法であるパターンベースの手法も含め,他の手法では獲得できない多数の上位下位関係を本手法では獲得できることを示す.
- 一般社団法人情報処理学会の論文
- 2004-09-16
著者
-
鳥澤 健太郎
北陸先端科学技術大学院大学
-
鳥澤 健太郎
北陸先端科学技術大学院大学情報科学研究科
-
鳥澤 健太郎
情報通信研究機構知識創成コミュニケーション研究センター
-
新里 圭司
京都大学大学院情報学研究科
-
新里 圭司
北陸先端科学技術大学院大学情報科学研究科
-
新里 圭司
北陸先端科学技術大学院大学 情報科学研究科
関連論文
- 確率的シソーラスに基づいたトリガー言語モデルの拡張
- LTAG文法からの変換によるHPSG英文法の作成
- 日英単言語Webコーパスからの対訳treebank自動獲得
- 6 高機能な構文解析器に向けて : HPSGのための実用的な構文解析器 (フィールドを広げる自然言語処理)
- 概念辞書によるシステマティックなイノベーション支援に向けて (データによる分析と評価)
- 属性語の Web 文書からの自動発見と人手評価のための基準
- 一般ユーザーにインタビューする対話エージェント
- 一般ユーザーにインタビューする対話エージェント(対話)
- HTML文書からの単語意味クラスの単純な自動獲得手法(自然言語)
- 対象の用途と準備を表す表現の自動獲得
- HTML文書からの単語間の上位下位関係の自動獲得
- HTML文書中の箇条書きとその表題に注目した下位語の自動獲得(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- HTML文書中の箇条書きとその表題に注目した下位語の自動獲得(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- HTML文書からの単語間の上位下位関係の自動獲得(獲得,辞書)
- HTML文書からの単語間の上位下位関係の自動獲得(獲得, 辞書)(言語理解とコミュニケーション)
- 3つ以下の候補から係り先を選択する係り受け解析モデル
- 並列HPSGパーザーに向けて
- HPSGから有限状態オートマタへ
- 5J-2 Wikipediaの階層構造を知識源とする上位下位関係の自動獲得(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- Web からの属性情報記述ページの発見
- 日英単言語 Web コーパスからの対訳 treebank 自動獲得
- Webページの大規模収集・検索基盤の構築と運用
- Webページの大規模収集・検索基盤の構築と運用
- クエリの語句の重要度と係り受けを考慮した自然文検索(検索・対話)
- クエリの語句の重要度と係り受けを考慮した自然文検索(検索・対話)
- 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報クラスタリングシステムの構築(Web情報アクセス)
- 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報クラスタリングシステムの構築(Web情報アクセス)
- 4ZK-10 検索結果クラスタリングのためのページタイプの自動識別(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- E-003 大規模ウェブ情報クラスタリングにおけるラベルの組織化(自然言語・音声・音楽,一般論文)
- 2.TSUBAKI : 深い言語処理を特長とするオープンサーチエンジン基盤(パートII:情報分野研究者のためのオンリーワン共有イノベーションプラットフォーム,情報爆発時代におけるわくわくするITの創出を目指して)