HTML文書からの単語間の上位下位関係の自動獲得(獲得,辞書)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,単語の上位下位関係をWWW上のドキュメントより自動獲得する手法を提案する.従来より,単語の上位下位関係は自然言語処理において重要な知識であると見なされており,多くの自動獲得手法が提案されてきた.それらの多くは,名詞句の併置などの文の表層のパターンに注目するものがほとんどであった.本稿で提案する手法は,これらと異なるアプローチをとる.より具体的には,1)Web上にあるHTMLタグの繰り返し,2)従来情報検索などで使われてきたDF, IDFなどの統計量,3)名詞が持つ主として動詞との係り受け関係の三種の情報を組み合わせることで,単語の上位下位関係を自動的に獲得することを目指す.
- 一般社団法人情報処理学会の論文
- 2003-11-06
著者
-
鳥澤 健太郎
北陸先端科学技術大学院大学
-
鳥澤 健太郎
北陸先端科学技術大学院大学情報科学研究科
-
鳥澤 健太郎
情報通信研究機構知識創成コミュニケーション研究センター
-
新里 圭司
京都大学大学院情報学研究科
-
新里 圭司
北陸先端科学技術大学院大学情報科学研究科
-
新里 圭司
北陸先端科学技術大学院大学 情報科学研究科
関連論文
- 確率的シソーラスに基づいたトリガー言語モデルの拡張
- LTAG文法からの変換によるHPSG英文法の作成
- 日英単言語Webコーパスからの対訳treebank自動獲得
- 6 高機能な構文解析器に向けて : HPSGのための実用的な構文解析器 (フィールドを広げる自然言語処理)
- 概念辞書によるシステマティックなイノベーション支援に向けて (データによる分析と評価)
- 属性語の Web 文書からの自動発見と人手評価のための基準
- 一般ユーザーにインタビューする対話エージェント
- 一般ユーザーにインタビューする対話エージェント(対話)
- HTML文書からの単語意味クラスの単純な自動獲得手法(自然言語)
- 対象の用途と準備を表す表現の自動獲得
- HTML文書からの単語間の上位下位関係の自動獲得
- HTML文書中の箇条書きとその表題に注目した下位語の自動獲得(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- HTML文書中の箇条書きとその表題に注目した下位語の自動獲得(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- HTML文書からの単語間の上位下位関係の自動獲得(獲得,辞書)
- HTML文書からの単語間の上位下位関係の自動獲得(獲得, 辞書)(言語理解とコミュニケーション)
- 3つ以下の候補から係り先を選択する係り受け解析モデル
- 並列HPSGパーザーに向けて
- HPSGから有限状態オートマタへ
- 5J-2 Wikipediaの階層構造を知識源とする上位下位関係の自動獲得(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- Web からの属性情報記述ページの発見
- 日英単言語 Web コーパスからの対訳 treebank 自動獲得
- Webページの大規模収集・検索基盤の構築と運用
- Webページの大規模収集・検索基盤の構築と運用
- クエリの語句の重要度と係り受けを考慮した自然文検索(検索・対話)
- クエリの語句の重要度と係り受けを考慮した自然文検索(検索・対話)
- 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報クラスタリングシステムの構築(Web情報アクセス)
- 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報クラスタリングシステムの構築(Web情報アクセス)
- 4ZK-10 検索結果クラスタリングのためのページタイプの自動識別(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- E-003 大規模ウェブ情報クラスタリングにおけるラベルの組織化(自然言語・音声・音楽,一般論文)
- 2.TSUBAKI : 深い言語処理を特長とするオープンサーチエンジン基盤(パートII:情報分野研究者のためのオンリーワン共有イノベーションプラットフォーム,情報爆発時代におけるわくわくするITの創出を目指して)