Web文書中の単語クリックログの解析から未知単語を予測する語義注釈システム
スポンサーリンク
概要
- 論文の詳細を見る
近年,第二言語で書かれた Web ページの読解のために,語義注釈システムを用いて Web ページを読むユーザが増えている.語義注釈システムを用いると,ユーザは,読解を妨げるユーザの知らない語 (非既知語) に遭遇した場合,クリックなどの操作により語義を表示させ,語の意味を知ることができる.しかしながら,語義注釈システムのログである "単語クリックログ" はこれまで活用されてこなかった.本研究では,単語クリックログを解析することにより,読解の障害となる非既知語を予測し,ページを表示する際に予め語義注釈を付与することにより読解を容易にするシステムを提案する.予測手法は,TOEFL などの言語テストで使用されている項目反応理論の基礎である Rasch モデルを用いた.予測精度を向上させるため,Rasch モデルに素性を追加して拡張した.高いスケーラビリティと可用性を実現するため,クラウド環境である Google App Engine 上でシステムを実装した.高いスケーラビリティと即応性を実現するため,予測手法には逐次学習法である Stochastic Gradient Descent を用いた.実験によって,これらの手法の効果を確認した.
- 2009-09-21
著者
-
中川 裕志
東京大学情報基盤センター
-
二宮 崇
東京大学
-
中川 裕志
東京大学
-
江原 遥
東京大学大学院情報理工学系研究科
-
二宮 崇
東京大学大学院情報理工学系研究科
-
中川 裕志
東京大学大学院情報理工学系研究科
-
江原 遥
東京大学大学院情報理工学研究科
-
中川 裕志
東大
関連論文
- テキストマイニングの活用(データマイニングの活用)
- 多クラス識別問題におけるPassive-Aggressiveアルゴリズムの効率的厳密解法(自然言語処理,知識獲得,情報爆発論文)
- 2P-8 ソーシャルブックマークにおけるスパムの検出(Webマイニング,学生セッション,データベースとメディア)
- 同義語辞書作成支援システム
- Word 2003 XML文書への情報ハイディングシステム
- 〈情報処理学会 情報学基礎研究会 (F1) 第96回 発表論文〉 接尾辞配列とディリクレ過程混合モデルを用いたテキスト中の数値表現マイニング (筑波大学東京キャンパス(秋葉原地区). 2009年11月19日)
- コーパス検索支援のための動的同義語候補抽出
- コンテンツの生産・活用に関する研究 : 科研「情報学」プロジェクトのコンテンツ研究を振り返って(「情報学を創る」-科研プロジェクトがめざしたもの)
- 25aQL-9 量子アニーリング法を用いた変分ベイズ推定(情報統計力学,領域11,統計力学,物性基礎論,応用数学,力学,流体物理)
- HTMLの表形式データの構造認識と携帯端末表示への応用
- HTMLの表形式データの変換と携帯端末表示への応用
- 単語類似度ネットワークを通じた自動同義語獲得(語彙・固有表現・同義語)
- スケーラブルで汎用的なブログ著者属性推定手法(web情報抽出)
- 中文版「言選Web」の評価(Webからの知識発見とネット応用)
- 自然言語処理(NL)研究会(研究会千夜一夜)
- 係り受けの2部グラフと共起関係を利用した同義表現抽出(抽出(2))
- 出現頻度と連接頻度に基づく専門用語抽出
- E-004 トピッククラスタを利用した協調フィルタリングに基づくWeb情報推薦システム(自然言語・音声・音楽,一般論文)
- 改行位置を利用したテキストステガノグラフィ(セキュリティと社会)(プライバシを保護するコンピュータセキュリティ技術)
- ドキュメントへのインフォメーションハイディング(インフォメーションハイディング)
- 中文版「言選Web」の評価(Webからの知識発見とネット応用)
- 文字列検索に基づく同義語・類義語抽出ツールとその性能評価
- 文字列検索に基づく同義語・類義語抽出ツールとその性能評価
- 図書館における自動レファレンスサービスシステムの実現 : Web上の二次情報と図書館の一次情報の統合(セッション1:文化・知的財産情報の統合と管理,学生チャレンジ特集)
- 図書館における自動レファレンスサービスシステムの実現 : Web上の二次情報と図書館の一次情報の統合(セッション1:文化・知的財産情報の統合と管理,学生チャレンジ特集)
- 接尾辞配列とディリクレ過程混合モデルを用いたテキスト中の数値表現マイニング
- 機械学習を用いた Web 表情報の例示検索方式とその評価
- 単語類似度ネットワークを通じた自動同義語獲得(語彙・固有表現・同義語)
- 4J-4 UT-Kiwi : 検索支援としてのテキストマイニングシステム(情報爆発時代におけるデータマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- D-5-8 Web表情報の例示検索方式とその評価(D-5. 言語理解とコミュニケーション,一般セッション)
- E-013 数値による新聞記事テキストマイニングシステムの提案(E分野:自然言語・音声・音楽)
- D-046 Web上の表情報を対象とした例示検索 : 表の構造的特徴の利用(D分野:データベース)
- 文脈情報による同義語辞書作成支援ツール(語彙・概念の獲得と同義語)
- D_049 機械学習を用いたWeb上の表情報の例示検索方式(D分野:データベース)
- 専門用語抽出方法のテストコレクション依存性(抽出)
- 語彙空間の構造に基づく専門用語抽出(抽出(2))
- 国立国会図書館リサーチ・ナビにおけるテーマグラフの生成
- ユーザが知らない語を予測する読解支援システムSocialDictとそのリーダビリティ測定への拡張
- ユーザが知らない語を予測する読解支援システムSocialDictとそのリーダビリティ測定への拡張
- Wikipediaを介した関連ニュース・ブログの対応付け? Wikipediaエントリの分析?
- 特定トピックの日英ブログ収集・分析・類型化:事例研究
- 1.キーワードサーチを超える情報爆発サーチ : 自然言語処理で価値ある未知をマイニング(パートI:情報爆発時代における新しい基盤技術,情報爆発時代におけるわくわくするITの創出を目指して)
- 確率的潜在意味解析における特異値行列の非対角化の解釈とその評価
- Web文書中の単語クリックログの解析から未知単語を予測する語義注釈システム
- ポスト電子図書館 : 東京大学情報基盤センター図書館電子化研究部門のスタンス(図書館生き残り作戦)
- Latent Dirichlet Allocationにおける決定論的オンラインベイズ学習
- Web上の人名検索結果の同姓同名問題における二段階クラスタリングを用いた再現率向上
- Web上の人名検索結果の同姓同名問題における二段階クラスタリングを用いた再現率向上
- 出現頻度と連接頻度に基づく専門用語抽出
- 出現頻度と連接頻度に基づく専門用語抽出
- 意味保存型の情報ハイディング : 日本語文書への適用
- 1S-6 日中英ニュース記事比較のための収集と検索(情報検索・評価分析,学生セッション,人工知能と認知科学)
- D-5-10 Web情報推薦システムにおけるトピック分類クラスタの結合と分割(D-5. 言語理解とコミュニケーション,一般セッション)
- E-018 世界の多言語ニュースの収集と分類(E分野:自然言語・音声・音楽)
- D-031 Bloggerの嗜好を利用した協調フィルタリングと内容類似性によるWeb情報推薦システムのためのクラスタリング手法の検討(D分野:データベース)
- E_007 Bloggerの嗜好を利用した協調フィルタリングと内容類似性によるWeb情報推薦システム(E分野:自然言語)
- 5J-6 キーワードのバースト特性を利用したスパムブログデータセットの作成と分析(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 4ZK-9 図書館とWebの分類体系を統合的に活用したテーマグラフ可視化インタフェース(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- Wikipedia を介した関連ニュース・ブログの対応付け : Wikipedia エントリの分析
- 5ZE-3 Anti-Collusion Privacy-Preserving Data Mining
- 3K-5 Wikipediaと図書館情報資源による調べ方自動提示システム(情報爆発時代におけるテキスト処理・Wikipedia,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 自動レファレンスサービスにむけて(レファレンス再考)
- 6ZC-1 半教師有り学習に基づくWeb上の人物クラスタリングシステム(情報爆発時代におけるWebパーティカル検索,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 文字列検索に基づく同義語・類義語抽出ツールとその性能評価
- ユーザが知らない語を予測する読解支援システム SocialDict とそのリーダビリティ測定への拡張
- en. newikipedia. org : 英語版 Wikipedia 中のユーザが知らない英単語を予測するユーザ参加型読解支援システム
- 3W-7 多クラス識別問題におけるオンライン学習のための厳密なPAアルゴリズム(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5D-7 Web文書中のユーザが知らない語を予測する読解支援システム(自然言語処理(2),一般セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- サポートクラスによる Passive-Aggressive アルゴリズムの多クラス化
- サポートクラスによるPassive-Aggressiveアルゴリズムの多クラス化
- 5ZN-6 Wikipediaにおける言語間の差異マイニング(情報爆発時代におけるWebマイニング,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 文書頻度と節長を利用した図書概要縮約方式
- 単語の文書頻度と文の長さを利用した抄録縮約方式
- 単語の文書頻度と文の長さを利用した抄録縮約方式
- E-015 多国多言語ニュース記事の検索・比較システム(自然言語・音声・音楽,一般論文)
- 階層Pitman-Yorトピックモデル(一般講演(学習の理論),機械学習とその応用)
- 3K-4 ネットワーク構造を利用したWikipediaからの意外性のある情報の抽出(情報爆発時代におけるテキスト処理・Wikipedia,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 個人適応型Splogフィルタリングの実現に向けて : Splog判定データセットの構築と機械学習を用いたシステムの実装(第1回集合知シンポジウム〜言語処理が紡ぎ出す未来〜)
- Succinct semi-structured data mining based on FREQT
- SPAアルゴリズムの半教師あり学習への応用
- SPAアルゴリズムの半教師あり学習への応用
- Latent Dirichlet Allocation における決定論的オンラインベイズ学習
- 無限混合Dirichletトピックモデル (「学習」および一般発表)
- Dirichlet Process Unigram Mixture Modelに対するCollapsed Variational Bayes Inferenceの適用
- 係り受け関係を考慮したテキストマイニングのための半構造マイニング手法の提案(言語処理)
- D-015 ソーシャルブックマークにおけるスパム検出のための特徴とその評価(データベース,一般論文)
- O_002 Word 2003文書への情報ハイディングシステム(O分野:情報システム)
- Word 2003 XML文書への情報ハイディングシステム
- Word 2003 XML文書への情報ハイディングシステム
- 論文特集「Webコンテンツの知的処理」まえがき
- 1B1-3 時系列テキスト集合からの社会的関心の分析(1B1 OS:共創・価値創成)
- ユーザ適応型Splogフィルタリングのためのユーザ固有Splog空間の分析(ウェブ情報とデータベースに関して(ポスター講演))
- E-002 実験的評価に基づくユーザ固有Splog空間の検証 : ユーザ適応型Splogフィルタリングに向けて(自然言語・音声・音楽,一般論文)
- 5J-7 スパムブログに関する定量的調査支援ツールの開発(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 5J-4 Wikipediaを用いた多言語ブログ検索のための訳語抽出(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 辞書変換法に基づく日本語テキストへの情報ハイディング
- ドラマのビデオ音声トラックとシナリオのセリフの時刻同期法
- 3 携帯端末向けコンテンツ変換と自然言語処理(テキスト自動要約 : 知的活動支援の基本技術として)
- モバイル用検索システムの今後について(モバイル環境と情報)
- E-033 ウェブを利用した関連用語収集(E.自然言語・文書・ゲーム)