·您的位置: 首页 » 资源教程 » 编程开发 » ASP.NET » 提取HTML代码中文字的C#函数

提取HTML代码中文字的C#函数

类别: ASP.NET教程  评论数:0 总得分:0
 

/// <summary>
  /// 去除HTML标记
  /// </summary>
  /// <param name=\"strHtml\">包括HTML的源码 </param>
  /// <returns>已经去除后的文字</returns>
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @\"<script[^>]*?>.*?</script>\",

          @\"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([\"\"\'])(//[\"\"\'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>\",
          @\"([/r/n])[/s]+\",
          @\"&(quot|#34);\",
          @\"&(amp|#38);\",
          @\"&(lt|#60);\",
          @\"&(gt|#62);\",
          @\"&(nbsp|#160);\",
          @\"&(iexcl|#161);\",
          @\"&(cent|#162);\",
          @\"&(pound|#163);\",
          @\"&(copy|#169);\",
          @\"&#(/d+);\",
          @\"-->\",
          @\"<!--.*/n\"
        
         };

   string [] aryRep = {
           \"\",
           \"\",
           \"\",
           \"/\"\",
           \"&\",
           \"<\",
           \">\",
           \" \",
           \"/xa1\",//chr(161),
           \"/xa2\",//chr(162),
           \"/xa3\",//chr(163),
           \"/xa9\",//chr(169),
           \"\",
           \"/r/n\",
           \"\"
          };

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

   strOutput.Replace(\"<\",\"\");
   strOutput.Replace(\">\",\"\");
   strOutput.Replace(\"/r/n\",\"\");


   return strOutput;
  }

-= 资 源 教 程 =-
文 章 搜 索
关键词:
类型:
范围:
纯粹空间 softpure.com
Copyright © 2006-2008 暖阳制作 版权所有
QQ: 15242663 (拒绝闲聊)  Email: faisun@sina.com
 纯粹空间 - 韩国酷站|酷站欣赏|教程大全|资源下载|免费博客|美女壁纸|设计素材|技术论坛   Valid XHTML 1.0 Transitional
百度搜索 谷歌搜索 Alexa搜索 | 粤ICP备19116064号-1