首页 相关文章 解析Html生成标签树(一)

解析Html生成标签树(一)

  解析Html成标签树结构以后,我们不但可以很容易取得想要的元素,同时也很容易将Html转换成对应的XML文件。但是由于代码是在公司写的,所以没有粘贴出来的可能性,所以我只能给出大概的代码流程,具体细节描述,相信各位都很容易写出来,并且写的比我好,关键的是算法实现思想。算法的关键如下:

  1.     Html中每个tag都是都将作为树中的一个节点存在的,每个tag都属于树中的某一层。

  2.     辅助数据结构:栈(stack)、List、HashTable。其中HashTable[i](i属于int类型)是一个List,用于临时存储第i层子Tag。

  3.     顺序扫描Html文本,当遇到”A~Z”这样的标志,表示可能是一个Tag,调用GetTag()函数对此段代码进行解析,解析出Tag名,Tag属性等等。如果返回值不为空,那么将返回值入栈。并且记录次tag的开始位置。

  4.     遇到/A~Z这样的标志,表示可能是某个Tag的结束。解析出此结束标志的Tag名。如果在栈中找到与此结束标志名同名的元素(此元素属于栈中第iLevel层),那么表示找到匹配的Tag。则Tag出栈,将HashTable[iLeve...[ 查看全文 ]

2016-02-19 标签:

解析Html生成标签树(一)的相关文章

手机页面
收藏网站 回到头部