Web文書中の単語クリックログの解析から未知単語を予測する語義注釈システム

概要

論文の詳細を見る
近年,第二言語で書かれた Web ページの読解のために,語義注釈システムを用いて Web ページを読むユーザが増えている.語義注釈システムを用いると,ユーザは,読解を妨げるユーザの知らない語 (非既知語) に遭遇した場合,クリックなどの操作により語義を表示させ,語の意味を知ることができる.しかしながら,語義注釈システムのログである "単語クリックログ" はこれまで活用されてこなかった.本研究では,単語クリックログを解析することにより,読解の障害となる非既知語を予測し,ページを表示する際に予め語義注釈を付与することにより読解を容易にするシステムを提案する.予測手法は,TOEFL などの言語テストで使用されている項目反応理論の基礎である Rasch モデルを用いた.予測精度を向上させるため,Rasch モデルに素性を追加して拡張した.高いスケーラビリティと可用性を実現するため,クラウド環境である Google App Engine 上でシステムを実装した.高いスケーラビリティと即応性を実現するため,予測手法には逐次学習法である Stochastic Gradient Descent を用いた.実験によって,これらの手法の効果を確認した.
2009-09-21