基于结构树的网页正文内容抽取方法
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP393

基金项目:


The Method of Content Extraction from Webpage based on Structure Tree
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    网页文本抽取是一种在互联网上运用广泛的数据挖掘技术。主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。本文基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法, 具有简单, 实用的特点, 实验结果表明, 该抽取方法准确率达到 96%以上, 有一定的实用价值。

    Abstract:

    Content extraction is a kind of data mining technology which is widely used in Internet. The main purpose is to extract the topic content and provide the data for Web Data Mining .In this paper, to improve web-based tree structure, First of all the Webpage divided into blocks , to each block of which is stored in the tree structure, then all the blocks of variance and threshold calculation, choose the topic information. In comparison with traditional methods based on Regular Expressions, this method is more simple and useful. Experimental results show that the extraction precision is higher than 96%, and the method has good value of practice.

    参考文献
    相似文献
    引证文献
引用本文

魏海平. 基于结构树的网页正文内容抽取方法[J]. 科学技术与工程, 2011, (28): .
weihaiping. The Method of Content Extraction from Webpage based on Structure Tree[J]. Science Technology and Engineering,2011,(28).

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2011-07-05
  • 最后修改日期:2011-07-05
  • 录用日期:2011-07-08
  • 在线发布日期: 2011-08-24
  • 出版日期:
×
律回春渐,新元肇启|《科学技术与工程》编辑部恭祝新岁!
亟待确认版面费归属稿件,敬请作者关注