• ISSN 0258-2724
  • CN 51-1277/U
  • EI Compendex
  • Scopus 收录
  • 全国中文核心期刊
  • 中国科技论文统计源期刊
  • 中国科学引文数据库来源期刊

基于多种策略的页面内容提取算法

高琰 谷士文 谭立球

高琰, 谷士文, 谭立球. 基于多种策略的页面内容提取算法[J]. 西南交通大学学报, 2007, 20(4): 473-477.
引用本文: 高琰, 谷士文, 谭立球. 基于多种策略的页面内容提取算法[J]. 西南交通大学学报, 2007, 20(4): 473-477.
GAO Yan, GU Shiwen, TAN Liqiu. Web Content Extraction Based on Multiple Strategies[J]. Journal of Southwest Jiaotong University, 2007, 20(4): 473-477.
Citation: GAO Yan, GU Shiwen, TAN Liqiu. Web Content Extraction Based on Multiple Strategies[J]. Journal of Southwest Jiaotong University, 2007, 20(4): 473-477.

基于多种策略的页面内容提取算法

详细信息
    作者简介:

    高琰(1973- ),女,讲师,博士,研究领域为智能信息处理,E-mail:gaoyan@mail.csu.edu.cn

Web Content Extraction Based on Multiple Strategies

  • 摘要: 针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容.

     

  • 加载中
计量
  • 文章访问数:  1294
  • HTML全文浏览量:  60
  • PDF下载量:  422
  • 被引次数: 0
出版历程
  • 收稿日期:  2006-06-14
  • 刊出日期:  2007-08-25

目录

    /

    返回文章
    返回