HTML文書からの単語意味クラスの単純な自動獲得手法(自然言語)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では意味的に類似した自然言語表現の集合である単語意味クラスを,HTML文書から高い精度で高速に獲得する手法を提案する.Shinzatoらによれば,HTML文書中の表・箇条書きなどの構造には単語意味クラスと見なせる表現の集合が含まれると報告されている.しかしながら,すべての表や箇条書きが意味的に類似した表現の集合を含んでいるわけではない.そこで本研究では,既存の検索エンジンより得られるヒット件数と,それを基に計算される相互情報量を素性とするSupport Vector Machineを用いて,表や箇条書きに含まれる表現間の意味的な一貫性を求める.このとき,本手法ではn個の表現を含む表・箇条書きに対しては,2n回検索エンジンに問い合わせるだけで意味的一貫性の計算を行う.提案手法により獲得された単語意味クラスを4人の被験者により評価した.その結果,入力として与えた表・箇条書きのうち,意味的一貫性の高い上位10%を単語意味クラスとして獲得した場合,その8割が4人中3人の被験者により単語意味クラスとして判断された.
- 一般社団法人情報処理学会の論文
- 2007-06-15
著者
-
鳥澤 健太郎
北陸先端科学技術大学院大学
-
鳥澤 健太郎
北陸先端科学技術大学院大学情報科学研究科
-
鳥澤 健太郎
情報通信研究機構知識創成コミュニケーション研究センター
-
新里 圭司
京都大学大学院情報学研究科
-
新里 圭司
京都大学
関連論文
- 確率的シソーラスに基づいたトリガー言語モデルの拡張
- LTAG文法からの変換によるHPSG英文法の作成
- 日英単言語Webコーパスからの対訳treebank自動獲得
- 6 高機能な構文解析器に向けて : HPSGのための実用的な構文解析器 (フィールドを広げる自然言語処理)
- 概念辞書によるシステマティックなイノベーション支援に向けて (データによる分析と評価)
- 属性語の Web 文書からの自動発見と人手評価のための基準
- 一般ユーザーにインタビューする対話エージェント
- 一般ユーザーにインタビューする対話エージェント(対話)
- HTML文書からの単語意味クラスの単純な自動獲得手法(自然言語)
- 対象の用途と準備を表す表現の自動獲得
- HTML文書からの単語間の上位下位関係の自動獲得
- HTML文書中の箇条書きとその表題に注目した下位語の自動獲得(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- HTML文書中の箇条書きとその表題に注目した下位語の自動獲得(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- HTML文書からの単語間の上位下位関係の自動獲得(獲得,辞書)
- HTML文書からの単語間の上位下位関係の自動獲得(獲得, 辞書)(言語理解とコミュニケーション)
- 3つ以下の候補から係り先を選択する係り受け解析モデル
- 並列HPSGパーザーに向けて
- HPSGから有限状態オートマタへ
- 5J-2 Wikipediaの階層構造を知識源とする上位下位関係の自動獲得(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- Web からの属性情報記述ページの発見
- 日英単言語 Web コーパスからの対訳 treebank 自動獲得
- Webページの大規模収集・検索基盤の構築と運用
- Webページの大規模収集・検索基盤の構築と運用
- キーワード蒸留型クラスタリングによる大規模ウェブ情報の俯瞰
- クエリの語句の重要度と係り受けを考慮した自然文検索(検索・対話)
- クエリの語句の重要度と係り受けを考慮した自然文検索(検索・対話)
- 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報クラスタリングシステムの構築(Web情報アクセス)
- 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報クラスタリングシステムの構築(Web情報アクセス)
- クエリの語句の重要度と係り受けを考慮した自然文検索 (情報学基礎・自然言語処理)
- 4ZK-10 検索結果クラスタリングのためのページタイプの自動識別(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 同位語を利用した不在インデックス
- 同位語を利用した不在インデックス
- 構文・照応・評価情報つきブログコーパスの構築
- E-003 大規模ウェブ情報クラスタリングにおけるラベルの組織化(自然言語・音声・音楽,一般論文)
- 2.TSUBAKI : 深い言語処理を特長とするオープンサーチエンジン基盤(パートII:情報分野研究者のためのオンリーワン共有イノベーションプラットフォーム,情報爆発時代におけるわくわくするITの創出を目指して)