Webマイニングにおける語義曖昧性解消のための擬似負例を用いた能動学習
スポンサーリンク
概要
- 論文の詳細を見る
この論文では,多義語を含む Web の全文検索結果から,Web マイニングに用いる分析対象のデータ集合を高精度に抽出するための語義曖昧性解消 (WSD) の研究について述べる.Web マイニングにおける WSD では,学習に用いるラベル付き事例のうち,分析対象である正例は作成が容易であるが,分析対象以外の負例は予期せぬ意味が含まれるため作成が困難であるという課題があった.この論文では,負例の作成を容易にするために,正例のみで開始する能動学習の手法を提案する.提案手法の特長は,能動学習のプロセスにおいて,高い確信度で負例と予測されたラベルなし事例である "擬似負例" を負例として学習している点である.我々は,正例のみで負例のない Web データに対する実験により,擬似負例を推定する提案手法が,人手により負例を作成した場合と比べて大差のない WSD 精度を得ることを示す.
- 一般社団法人情報処理学会の論文
- 2009-06-29
著者
-
今村 誠
三菱電機(株)情報技術総合研究所
-
喜連川 優
東京大学生産技術研究所
-
鍛治 伸裕
東京大学生産技術研究所
-
高山 泰博
三菱電機株式会社情報技術総合研究所
-
今村 誠
三菱電機株式会社情報技術総合研究所
-
喜連川 優
東京大学
-
豊田 正史
東京大学生産技術研究所戦略情報融合国際研究センタ
-
鍜治 伸裕
東京大学生産技術研究所戦略情報融合国際研究センタ
-
鍜治 伸裕
東京大学大学院情報理工学系研究科
-
鍜治 伸裕
東京大学生産技術研究所
-
豊田 正史
東京大学生産技術研究所
-
今村 誠
(株)三菱電機
関連論文
- 多周期的更新アクセスに適した二次記憶管理技法 : 連続的Webクローリングへの適用(ファイル編成,情報爆発論文)
- 編集にあたって(平成21年度長尾真記念特別賞紹介)
- グリーンレプリケーション : 二次系ディスクストレージの省電力化(ストレージ 並列分散データベース,データ工学論文)
- 企業における知識創造のためのコミュニケーション基盤に関する一考察(コミュニケーション基盤,情報社会のデザイン;デジタルドキュメントと知的コミュニケーション)
- 編集にあたって(平成21年度論文賞の受賞論文紹介)
- 大規模ウェブテキストからの片仮名用言の自動獲得(テキストマイニング,データ工学論文)
- ATM結合PCクラスタにおける動的リモートメモリ利用方式を用いた並列データマイニングの実行
- 並列DBMSに於ける動的負荷分散機構の実装
- 一般化相関ルールマイニングの並列処理方式における統計情報を用いた候補分割負荷分散手法の評価
- 大規模PCクラスタにおける並列相関ルールマイニング処理方式の評価
- ATM結合PCクラスタにおける並列データマイニングの実装とTCP再送機構の性能解析
- トレンドを考慮した検索クエリの分類手法の一検討
- 2.50年後の情報社会を支えるIT基盤(情報処理技術の未来地図,50周年記念特集号)
- 情報爆発時代における情報大航海プロジェクト
- 情報大航海
- ウェブコミュニティチャートとウェブディレクトリの比較に関する一考察
- IFIP-情報処理国際連合-近況報告(委員会から)
- ボーンデジタル時代におけるウェブアーカイブとその活用基盤としてのSocio-Sense(Webアーカイビングの現状と課題)
- 見出し構造を用いた情報機器操作マニュアルからの用語知識獲得方式
- IFIP-情報処理国際連合-近況報告
- iSCSIネットワークストレージにおけるファイルアクセス性能に関する考察(ストレージ2, 夏のデータベースワークショップDBWS2005)
- iSCSIネットワークストレージにおけるファイルアクセス性能に関する考察(ストレージ2, 夏のデータベースワークショップ2005)
- SAN結合PCクラスタにおけるストレージ仮想化機構を用いた動的負荷分散並びに動的資源調整の提案とその評価(データベース)
- ITの進展と法制度の非想定領域 : 著作権法一部改正,47-6,47-7による検索エンジンの合法化について(研究開発における情報利用と著作権)
- 情報爆発時代における情報管理・融合・活用基盤(情報爆発時代に向けた新しいIT基盤技術の研究)
- 情報爆発時代に向けた新しいIT基盤技術の研究(情報爆発時代に向けた新しいIT基盤技術の研究)
- コンテンツの生産・活用に関する研究 : 科研「情報学」プロジェクトのコンテンツ研究を振り返って(「情報学を創る」-科研プロジェクトがめざしたもの)
- 素性論理に基づくXML文書ルール記述言語DRDL(メタ言語とメタデータ)(ユビキタス社会における情報流通および一般)
- 木・表構造間写像モデルに基づくXML-HTML変換用スタイルシート自動生成方式(セッション3 : XML 検索・変換)(テーマ:デジタルコンテンツの管理と応用)
- XML文書ルール記述言語DRDLとそのECシステムへの応用
- 概念抽出型テキストマイニングによるアンケート分析手法の提案
- eCRM向け概念抽出型テキストマイニング
- Semantic Webの技術と応用の動向
- 大規模Webアーカイブ更新クローラにおけるスケジューリング手法の評価(Web検索・Webアーカイブ,データ工学論文)
- 50周年記念全国大会を振り返って : 7,150人もの多のくの方々にご参加いただきお礼申し上げます(記念大会が示した情報処理の未来-情報処理学会創立50周年記念(第72回)全国大会報告-)
- 1.SlothLib/EaRDB : マイサーチエンジン開発環境支援(パートII:情報分野研究者のためのオンリーワン共有イノベーションプラットフォーム,情報爆発時代におけるわくわくするITの創出を目指して)
- グリーンレプリケーション : 二次系ディスクストレージの省電力化
- 最近の二次記憶装置 : ディスクアレイ (<連載講座> 計算機の記憶システム 7)
- 多周期的更新アクセスに適した二次記憶管理技法 : 連続的 Web クローリングへの適用
- コラボラティブグリーンストレージ : データベースシステムとの連携によるディスクストレージ省電力化の構想(インターネットと環境・エコロジー,インターネットと環境・エコロジー,一般)
- 地球水循環データアーカイブシステムとユーザインタフェースの構築(データ可視化, 夏のデータベースワークショップDBWS2005)
- AIRSデータ可視化システムにおける多種データ重ね合わせ表示機能の開発(データ可視化, 夏のデータベースワークショップDBWS2005)
- 地球水循環データアーカイブシステムとユーザインタフェースの構築(データ可視化, 夏のデータベースワークショップ2005)
- AIRSデータ可視化システムにおける多種データ重ね合わせ表示機能の開発(データ可視化, 夏のデータベースワークショップ2005)
- 情報爆発論文特集の発行にあたって
- 部分マイグレーション機構を有する3次記憶ファイルシステムPFSの8ミリテープアーカイブ装置への実装とその性能評価
- 2ウェイマージ機能を有するオメガネットワーク
- eCRM向け概念抽出型テキストマイニング
- Webアクセスログとその利活用(ソーシャルネットワーク時代のWebインタラクション)
- D-13-1 表形式UIモデル記述からのWeb画面プログラム自動生成方式(D-13. 知能ソフトウェア工学,一般セッション)
- 技術文書からの用語知識の自動獲得方式の検討(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 技術文書からの用語知識の自動獲得方式の検討(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- D-13-8 注釈付きXMLスキーマを利用したデータ変換プログラム生成方式(D-13.知能ソフトウェア工学,一般講演)
- D-5-8 表層格解析を用いた業務文書チェック方式(D-5.言語理解とコミュニケーション,一般講演)
- D-5-7 設計文書における同義語辞書自動作成方式 : 表記ゆれ抽出の検討(D-5.言語理解とコミュニケーション,一般講演)
- 大規模日本語Webアーカイブの構築とその分析 (特集 データマネジメント技術)
- 10.Socio Sense : 過去9年に及ぶWebアーカイブから社会の動きを読む(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- 5L-5 大規模Webアーカイブにおけるコンテンツ解析支援機構(リーディングプロジェクト e-society:WebアーカイブとWebデータ解析技術,一般セッション,リーディングプロジェクト e-society)
- 特定言語で記述されたwebページの選択的収集手法とその評価(Web マイニング・Web情報検索,データ工学論文)
- 共有ストレージプールを用いた並列データベース処理に於けるオンデマンド資源調節
- 共有ストレージプールを用いた並列データベース処理に於けるオンデマンド資源調節
- 4K-5 並列DBMS: DBKernelにおける動的負荷分散機構の評価
- 並列DBMSに於ける動的負荷分散機構の実装
- Webマイニングにおける語義曖昧性解消のための擬似負例を用いた能動学習
- 企業における知識創造のためのコミュニケーション基盤に関する一考察(コミュニケーション基盤,情報社会のデザイン;デジタルドキュメントと知的コミュニケーション)
- 5L-6 ウェブからの分析対象文書抽出手法の検討(リーディングプロジェクト e-society:WebアーカイブとWebデータ解析技術,一般セッション,リーディングプロジェクト e-society)
- Webアプリケーションユーザーインタフェース構築技術 (特集 デジタルメディアを支える先進技術)
- 自然言語の文法記述との類推に基づく構造化文書処理技術の開発(平成18年度論文賞の受賞論文紹介)
- 素性論理に基づくXML文書ルール記述言語DRDLとインターネット文書交換システムへの応用(コンテンツ処理,新たな適用領域を切り開く情報システム)
- D-13-10 地理情報標準プロファイルJPGISからの地物Javaクラス自動生成方式(D-13.知能ソフトウェア工学,一般講演)
- D-13-8 適合性フィードバックに基づいた文書チェックルール作成支援方式(D-13.知能ソフトウェア工学,一般講演)
- D-5-13 多次元絞込み検索機能によるテキストマイニング(D-5.言語理解とコミュニケーション,一般講演)
- D-5-6 意味構造抽出のための係り受け解析に関する考察(D-5.言語理解とコミュニケーション,一般講演)
- D-5-8 単語の連想関係に基づく概念検索方式の評価(D-5. 言語理解とコミュニケーション, 情報・システム1)
- 木・表構造間写像モデルに基づくXML入力画面自動生成方式(コンテンツ処理)
- 企業間文書情報共有におけるSGML文書内容検証方式
- WWWブラウザによるXML文書入力方式について
- ライフログ活用技術とその課題 : 将来オフィスなどの応用分野でライフログは活用されるか?(ライフログ活用技術とその課題,オフィス情報システム,デジタルドキュメント,一般)
- ライフログ活用技術とその課題 : 将来オフィスなどの応用分野でライフログは活用されるか?(ライフログ活用技術とその課題,オフィス情報システム,デジタルドキュメント,一般)
- E-35 XML入力画面自動生成方式(自然言語処理応用,E.自然言語・文書)
- 電子申請におけるXML文書内容検証方式
- 電子申請におけるXML文書内容検証方式 : 複数XML文書の内容間制約を記述する文書規約記述言語DRDL
- XML文書ワークフロー構築支援方式 : インターネットを用いた設計支援システムにおけるXML文書設計支援方式
- D-9-12 XML文書ワークフロー構築支援方式
- XMLによる電子申請書のメタ情報の表現について
- XMLスタイルシート作成ツールとワークフローへの応用
- 5P-2 企業間XML文書交換における文書規約の表現と利用について
- 5P-1 SGML文書のWWW入力・表示プログラム作成ツール
- XML文書のスタイルシート生成方式
- HTMLによるXML文書の入力方式について
- WWWブラウザによるSGML文書入力方式について
- SGML文書の内容検証方式の検討
- D-13-4 木・表構造間写像モデルに基づく高速XML変換方式(D-13. 知能ソフトウェア工学, 情報・システム2)
- D-5-7 情報検索のタスク評価手法に関する一考察(D-5. 言語理解とコミュニケーション)
- セマンティックWebとオントロジ記述言語(セマンティックWeb)
- 4 電子政府におけるXML利用技術の動向 (グローバルネットワーク社会を構築するXML)
- 文字成分表型全文検索システムのSGML文書検索への拡張
- 自然言語とグラフィクスを併用したガイダンスの生成方式について
- D-10-9 発電プラント向け異常検出のための時区間の最適分割方式の提案(D-10.ディペンダブルコンピューテイング,一般セッション)
- DITAを利用した企業向け人材育成教材作成モデルの構想