Html:网页切片算法的若干问题

2016-02-19 21:11 19 1 收藏

下面图老师小编跟大家分享一个简单易学的Html:网页切片算法的若干问题教程,get新技能是需要行动的,喜欢的朋友赶紧收藏起来学习下吧!

【 tulaoshi.com - Web开发 】

  这是我研究网页切片算法的一个汇总想法。

  之前我写过:一种面向搜索引擎的网页分块、切片的原理,实现和演示,随着工作的深入,逐渐碰到以下问题:

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/webkaifa/)

  网页切片的粒度问题:

  网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等。

  网页切片的网页对象:

  互连网纱功能的网页大概有2种类型,目录型和内容型;随着搜索引擎的发展,网站结构逐渐向扁平化的方向发展,车东 对此也做出了数据验证,而且随着显示器分辨率的不断提高,内容和目录结合型的网页呈增加趋势,天极的网页涉及,可以说是其中的典范。

  网页切片算法的对象应该是针对:内容型和内容目录混合型。对不同网页,应该有个识别算法,应该包括哪些标准?

  网页内容区最大范围识别:

  从切片的粒度可以看出,应该把内容区作为一个部分单独切出来。根据一般的网页设计规律,一般有2种容纳内容区的方式:1、包含型(如blog ) 2、并列型(如bbs帖子)。

  如果处理分页的内容型网页:

  现在大多数网站为了改善用户体验和增加页面展示次数的需要,对网页做了分页处理,这部分需要设别出来。

  无意间看到了:VIPS:基于视觉的Web页面分页算法 ,从理论上证明了这种方法的可行性。可是实现起来有很多障碍,正如这位所说的:

  蜗牛 发表于2006-02-21 12:40 AM IP: 220.184.129.*

  我那天用浮动的 用绝对位置定位代替 定位,并且在客户端的JavaScript中动态排列。客户端的对象用脚本动态生成插入。

  弄死他。看他怎么分析。

  这样的算法太依赖于具体实现了,很难有好的解决办法。

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/webkaifa/)

  况且,现在依赖客户端脚本展现动态表现力慢慢开始流行,这个算法很难适应未来的潮流。

  就拿最简单的,我有一个类似于OutLook工具条的页面风格,都是脚本生成的,我看他怎么分析!

  视觉分析只能落脚到视觉上,只能对页面的静态画面作分析才能得到正确的条块分割,分割条块是容易的简单算法就能做到,但是要把这些内容归结到分割到的条块是难的。

  好的办法只有一个,模拟鼠标击键,击键处的对象返回响应,这在IE能够实现的。这样才能取得分割好条块后的对象归属。

  我怎么想都觉得我的简单算法都要比文中的算法强多了。

  视觉依靠画面分割条块,很简单,对空白进行膨胀-缩小算法,这样留白就能逐渐清晰出来,文字就模糊了。然后作模糊处理,然后用一个亮度阈值把图片转换成二值图,然后作一个矢量化处理,留下线条。归结到90度和0度上去,得到一个条块分割的矢量图。

  然后,每一块中按照密度用鼠标点击模拟获得对象!这样就可以完成了条块归纳了。

  干吗要分析HTML呢?情况多得很,根本分析不过来。

  我目前的进展是:可以识别 导航区、链接区、页脚区。

  对内容区的分析是个难点,鉴于我自己的需要,只要找到最大的内容区就可以了。

  这段时间对算法的一个体会就是,算法就是解决特定问题的方法。教科书上的算法大都是最一般性,常用性的方法的说明。

  套句俗话,能解决实际问题的方法就是好方法。但能把我们解决的问题用数学模型表达出来仍是一个不断提高算法水平的基本要求。

来源:https://www.tulaoshi.com/n/20160219/1625505.html

延伸阅读
标签: Web开发
word可以直接另存为 htm,但即使是 另存为 html 也会有大量的废代码。以前我一般用 dreamweaver 的 clean up html 来处理,先处理 word 特有标签,然后删除一些 font,b,span 等。进一步,在 editplus 里面用正则进行处理,最后得到我想要的干净的html 代码。当然最完美的办法就是拷贝文字出来,自己用文本编辑器书写htm标签,:) 今...
六、导出切片 介绍完了命名原则之后,我们来说一下切片导出的具体步骤: 第一步:如图12所示打开切片图像。 图12 第二步:选择“File”-“Export”,会弹出导出对话框。选择需要保存的文件夹,在文件名中输入文件名称,如图13所示。 第三步:在切片下拉列表中选择三个选项: * Export Slice(导出切...
我们这里所说的切片(Slice)就是将一幅大图像分割为一些小的图像切片,然后在网页中通过没有间距和宽度的表格重新将这些小的图像没有缝隙的拼接起来,成为一幅完整的图像。这样做可以减低图像的大小,减少网页的下载时间,并且能创造交互的效果,如翻转图像等,还能将图像的一些区域用HTML来代替。Fireworks在网页切片制作方面有很强的优...
五、命名切片 在Fireworks中命名切片有如下三种方式:自动命名切片文件、自定义命名切片文件和更改默认的自动命名惯例。 1. 自动命名切片文件 如果用户没有在属性面板或层面板中输入切片名称,则Fireworks 会为切片自动命名。自动命名将根据默认的命名惯例自动为每个切片文件指定一个唯一的名称。在导出经过切片的图像时...
标签: Web开发
创建 HTML 切片 HTML 切片指定浏览器中出现普通 HTML 文本的区域。HTML 切片不导出图像,它导出出现在由切片定义的表格单元格中的 HTML 文本。 如果要快速更新出现在站点中的文本而无须创建新图形,则 HTML 切片很有用。 若要创建 HTML 切片: 绘制切片对象并将其保留为选定状态。 在"属性"检查器中,从"类型"弹...

经验教程

900

收藏

18
微博分享 QQ分享 QQ空间 手机页面 收藏网站 回到头部