首页 相关文章 网页切片算法的若干问题

网页切片算法的若干问题

  这是我研究网页切片算法的一个汇总想法。

  之前我写过:一种面向搜索引擎的网页分块、切片的原理,实现和演示 ,随着工作的深入,逐渐碰到以下问题:

  网页切片的粒度问题:

  网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等。

  网页切片的网页对象:

  互连网纱功能的网页大概有2种类型,目录型和内容型;随着搜索引擎的发展,网站结构逐渐向扁平化的方向发展,车东 对此也做出了数据验证,而且随着显示器分辨率的不断提高,内容和目录结合型的网页呈增加趋势,天极的网页涉及,可以说是其中的典范。

  网页切片算法的对象应该是针对:内容型和内容目录混合型。对不同网页,应该有个识别算法,应该包括哪些标准?

  网页内容区最大范围识别:

  从切片的粒度可以看出,应该把内容区作为一个部分单独切出来。根据一般的网页设计规律,一般有2种容纳内容区的方式:1、包含型(如blog ) 2、并列型(如bbs帖子)。

  如果处理分页的内容型网页:

  现在大多数网站为了改善用户体验和增加页面展示次数的需要,对网页做了...[ 查看全文 ]

2016-02-19 标签:

网页切片算法的若干问题的相关文章

手机页面
收藏网站 回到头部