提取HTML代码中文字的C#函数

2016-01-29 13:34 36 1 收藏

提取HTML代码中文字的C#函数,提取HTML代码中文字的C#函数

【 tulaoshi.com - ASP.NET 】

 

/// <summary
  /// 去除HTML标记
  /// </summary
  /// <param name="strHtml"包括HTML的源码 </param
  /// <returns已经去除后的文字</returns
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"<script[^]*?.*?</script",

          @"<(/s*)?!?((w+:)?w+)(w+(s*=?s*(([""'])([""'tbnr]|[^7])*?7|w+)|.{0})|s)*?(/s*)?",
          @"([rn])[s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(d+);",
          @"--",
          @"<!--.*n"
        
         };

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com)

   string [] aryRep = {
           "",
           "",
           "",
           """,
           "&",
           "<",
           "",
           " ",
           "xa1",//chr(161),
           "xa2",//chr(162),
           "xa3",//chr(163),
           "xa9",//chr(169),
           "",
           "rn",
           ""
          };

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

   strOutput.Replace("<","");
   strOutput.Replace("","");
   strOutput.Replace("rn","");


   return strOutput;
  }

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com)

来源:https://www.tulaoshi.com/n/20160129/1490670.html

延伸阅读
whois.aspx  % @Page Language="C#" %  % @Import Namespace="System.Net.Sockets" %  % @Import Namespace="System.Text" %  % @Import Namespace="System.IO" %  % @Import Namespace="System.Collections" %  script ...
标签: word
如何变换Word中文字方向   在Word中编辑时,为了能够使文档更具特色,很多时候我们都会采取改变文字方向的方式。今天,图老师小编就要来教一下大家,变换文字方向的技巧,让你编辑的文档也更具魅力。 Word 操作步骤 1、选中一段内容,按鼠标右键选择文字方向。 2、弹出文字方向-主文档按用户需求设置,然后将...
标签: 电脑入门
我用鼠标双击一个word文件时,该文件却无论如何也不能被打开,系统提示该文件损坏,但里面是我的一篇重要论文,请问有什么办法能读出里面的文字?答: 您可以通过如下步骤读出该文件中的文字: (1) 启动word,单击工具菜单中的选项命令,然后单击常规标签。 (2) 用鼠标左键单击选中打开时确认转换复选框,接着单击确定按钮。 (3) 随后...

经验教程

982

收藏

90
微博分享 QQ分享 QQ空间 手机页面 收藏网站 回到头部