9P-E-10 A method of Web Information Extraction Based on the Length of Nodes in the Html Tree(Room E International session)
スポンサーリンク
概要
- 論文の詳細を見る
The effective extraction of the information from web pages is the prerequisite to the full use of the web resources. We proposed a new method for information extraction from web pages based on the length of the nodes in the DOM tree. We will firstly represent the web page into a DOM tree using the html tags, then the content node of the tree will be identified according to the longest text node, and at last we will distinguish the body of the text block and extract the main content of the web page using the continuity of the structure of the main text content in the DOM tree. The experiment testified the accuracy and efficiency of this method.
- 2010-10-09
論文 | ランダム
- 戦后のアメリカ中等教育カリキュラム改造の問題 : 教育の機会均等の理念と教育内容編成との関連について
- 単結晶EuPdSbの磁性と伝導(修士論文(1999年度))
- 第51回材料と環境討論会に参加し思うこと
- 人格障害の哲学的基礎づけ : カント論の立場から(人格とは何か-パーソナリテイ障害の時代を考える-)
- 金属材料の腐食試験と事例解析 (管路の防食と配管技術)