PHP 正则表达式分析RSS

2016-02-19 10:26 3 1 收藏

想要天天向上，就要懂得享受学习。图老师为大家推荐PHP 正则表达式分析RSS，精彩的内容需要你们用心的阅读。还在等什么快点来看看吧！

【 tulaoshi.com - Web开发】

代码如下：

$xmlfile = 'news/'.date('YmdH').'.xml';
$sourcexml = 'http://www.chinanews.com.cn/rss/scroll-news.xml';
if( !file_exists($xmlfile) ) {
$str = @file($sourcexml) or die('加载文件时出错。');
$fp = fopen($xmlfile,'w') or die('写缓存失败!');
fputs($fp,$str);
fclose($fp);

然后用simplexml读取并输出HTML
代码如下：

$xml = simplexml_load_file($xmlfile);
$c = $xml-channel;
$k = 0;
foreach($c-item as $v) {
$k ++;
echo "
div class="newsline"·a title="$v-title" href="$v-link" target="_blank"$v-title/a/div
";

后来遇到了一个问题，就是RSS中经常包含有一些GBK的繁体字。google了很多字符集转换方面的文章。得出一个解法：
代码如下：

$str = mb_convert_encoding( join('',$str), "gb2312", "GBK");

这个方法并不能繁体转为简体，会转成一个乱码，但至少能保证simplexml_load_file($xmlfile)执行成功。因为这些繁体字通常出现在描述里
，暂且接受。
再后来遇到另一个问题，描述里出现了形如“中新网12月30日电(闻育e?”的乱码，simplexml_load_file失败。
至此考虑用正则表达式获取标题和链接。（有文章说正则表达式效率可能更好，以后再验证）
代码如下：
代码如下：

$fp = fopen($xmlfile,'r');
if($fp)
{
$data = fread($fp,filesize($xmlfile));
fclose($fp);
preg_match_all(
"/itemtitle(.*?)/titlelink(.*?)/link/i",$data,$out,PREG_SET_ORDER);
foreach($out as $key = $v)
{
$v[1] = iconv('gbk','utf-8',$v[1]);
echo "
div class="newsline"·a title="$v[1]" href="$v[2]" target="_blank"$v[1]/a/div
";
}
}

来源:http://www.tulaoshi.com/n/20160219/1594624.html

上一篇：用Oracle9ias开发无线应用程序开发者网络Oracle
下一篇： Java 获取URL的内容

看过《PHP 正则表达式分析RSS》的人还看了以下文章更多>>

正则表达式简介

标签： C语言教程 C语言函数

正则表达式简介翻译：NorthTibet 原文出处：Regular Expressions 有些新手对正则表达式不是很熟悉，有必要在此作一简单回顾。如果你是正则表达式高手，可以不用看这一部分。正则表达式是描述字符串集的字符串。例如，正则表达式“Mic*”描述所有包含“Mic”，后跟零个或多个字符的字符串。Mickey、Microsoft、Michelangelo...

正则表达式验证

标签： Web开发

正则表达式基础

标签： Web开发

前言正则表达式是烦琐的，但是强大的，学会之后的应用会让你除了提高效率外，会给你带来绝对的成就感。只要认真去阅读这些资料，加上应用的时候进行一定的参考，掌握正则表达式不是问题。索引 1. 引子目前，正则表达式已经在很多软件中得到广泛的应用，包括*nix（Linux, Unix等），HP等操作系统，PHP，C#，Java等开发环境，以...

正则表达式的语法

标签： Web开发

正则表达式的功能实在太强大了~以下为找到的一个关于正则表达式基本语法的介绍：首先让我们看两个特殊的符号'^'和'$'。他们的作用是分别指出一个字符串的开始和结束。例子如下： "^The"：表示所有以"The"开始的字符串（"There"，"The cat"等）； "of despair$"：表示所以以"of despair"结尾的字符串； "^abc$"：表示开始和结尾都是"abc"...

正则表达式的应用