Java实现将字符串中的html代码过滤掉的方法

标签: java 字符串 html | 发表时间:2012-10-03 02:54 | 作者:zhangerqing
出处:http://blog.csdn.net
	/**
	 * 将带有html代码的字符串过滤掉其中的html代码
	 * @param inputString
	 * @return
	 */
	public static String Html2Text(String inputString) {
		String htmlStr = inputString; //含html标签的字符串 
		String textStr = "";
		java.util.regex.Pattern p_script;
		java.util.regex.Matcher m_script;
		java.util.regex.Pattern p_style;
		java.util.regex.Matcher m_style;
		java.util.regex.Pattern p_html;
		java.util.regex.Matcher m_html;

		try {
			String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; //定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script> } 
			String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style> } 
			String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式 

			p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
			m_script = p_script.matcher(htmlStr);
			htmlStr = m_script.replaceAll(""); //过滤script标签 

			p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
			m_style = p_style.matcher(htmlStr);
			htmlStr = m_style.replaceAll(""); //过滤style标签 

			p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
			m_html = p_html.matcher(htmlStr);
			htmlStr = m_html.replaceAll(""); //过滤html标签 

			textStr = htmlStr;

		} catch (Exception e) {
			System.err.println("Html2Text: " + e.getMessage());
		}

		return textStr;//返回文本字符串 
	}

作者:zhangerqing 发表于2012-10-3 2:54:29 原文链接
阅读:24 评论:0 查看评论

相关 [java 字符串 html] 推荐:

Java实现将字符串中的html代码过滤掉的方法

- - CSDN博客推荐文章
* 将带有html代码的字符串过滤掉其中的html代码. String htmlStr = inputString; //含html标签的字符串. String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; //定义script的正则表达式{或]*?>[\\s\\S]*?<\\/script> }.

HTML字符实体(Character Entities),转义字符串(Escape Sequence) 为什么要用转义字符串?

- - CSDN博客推荐文章
HTML字符实体(Character Entities),转义字符串(Escape Sequence). HTML中<,>,&等有特殊含义(<,>,用于链接签,&用于转义),不能直接使用. 这些符号是不显示在我们最终看到的网页里的,那如果我们希望在网页中显示这些符号,该怎么办呢. 这就要说到HTML转义字符串(Escape Sequence)了.

【网络爬虫之JSOUP使用简介】解析一个HTML字符串

- - CSDN博客编程语言推荐文章
来自用户输入,一个文件或一个网站的HTML字符串,你可能需要对它进行解析并取其内容,或校验其格式是否完整,或想修改它. jsonu能够帮你轻松解决这些问题. Jsoup.parse(String html) 方法或. Jsoup.parse(String html, String baseUri)示例代码:.

判断字符串是否是有效json对象(java + gson )

- - 改善
已有 0 人发表留言,猛击->> 这里<<-参与讨论. —软件人才免语言低担保 赴美带薪读研.

(转)Java中字符串与内存泄漏的问题

- - jackyrong
对于这个写法,实际上对于oldStr是一个char[]数组[h,e,l,l,0,,,c,l,a,r,k],对于subString操作,newStr并不是自己copy oldStr的char[]数组hello自己去创建一个新的char[]数组,而是java在背后进行了String Reusing Optimization,它不会自己创建一个新的char数组,而是reuse原来的char数组.

字符串匹配 KMP 算法 Java实现

- - ITeye博客
字符串匹配过程中,如果使用蛮力算法,效率非常的差,在此介绍一种较为高效的匹配算法KMP算法. 其主要思想是从匹配的模版去分析,即去分析Pattern串的自身规律,进而去优化匹配的效率. 例如字符串“ababcb”,明显看出是ab出现一组重复,若出现如下匹配模式:. 此时发生错误,一般情况下会选择移动Pattern一个位置来继续,事实证明效果不佳.

Java字符串的10大热点问题盘点

- - 极客521 | 极客521
下面我为大家总结了10条Java开发者经常会提的关于Java字符串的问题,如果你也是Java初学者,仔细看看吧:. 1、如何比较字符串,应该用”==”还是equals(). 总的来说,”==”是用来比较字符串的引用地址,而equals()才是比较字符串的值. 两个值相同的字符串用”==”比较结果有可能是false,而用equals()则一定为true.

十个最常见的Java字符串问题 - liushaobo

- - 博客园_首页
翻译自: Top 10 questions of Java Strings. 用”==”还是用equals(). 简单地说,”==”测试两个字符串的引用是否相同,equals()测试两个字符串的值是否相同. 除非你希望检查两个字符串是否是同一个对象,否则最好用equals(). 2.为什么对于安全性敏感的信息char[]要优于String.

Java实现字符串反转的8种9种方法

- - ITeye博客
注:对于第7种使用异或的方式来实现字符串的反转,如果不太看得明白的,可以参照另一篇博客:. * 二分递归地将后面的字符和前面的字符连接起来. * 取得当前字符并和之前的字符append起来. * 将字符从后往前的append起来. * 和StringBuffer()一样,都用了Java自实现的方法,使用位移来实现.

最佳字符串匹配算法(Damerau-Levenshtein距离算法)的Java实现

- - Java - 编程语言 - ITeye博客
原文: http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html.  It implements a few well known tricks to use less memory by only hanging on to two arrays instead of allocating a huge n x m table for the memoisation table.