首页 > 编程语言 > 详细

java 将html特殊码转换成字符 &#x

时间:2014-11-13 02:12:10      阅读:3597      评论:0      收藏:0      [点我收藏+]

?

首先得明白这种特殊码是什么,其实就是unicode吗 只是有个各司而已。?

?

集? 96c6 是16进制的格式。

直接上代码吧

package com.xue.tools;

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.dom4j.DocumentException;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
import org.htmlcleaner.XPatherException;

public class Test {

	public static void main(String[] args) throws IOException, DocumentException, XPatherException {
		// 定义正则表达式来搜索中文字符的转义符号
		Pattern compile = Pattern.compile("&#.*?;");
		// 测试用中文字符
		String sourceString = "C集团天c津大唐国际盘山发电有限责任公司";
		Matcher matcher = compile.matcher(sourceString);
		// 循环搜索 并转换 替换
		while (matcher.find()) {
			String group = matcher.group();
			// 获得16进制的码
			String hexcode = "0" + group.replaceAll("(&#|;)", "");
			// 字符串形式的16进制码转成int并转成char 并替换到源串中
			sourceString = sourceString.replaceAll(group, (char) Integer.decode(hexcode).intValue() + "");
		}
		System.out.println(sourceString);
	}

}

?

?

?

java 将html特殊码转换成字符 &#x

原文:http://xuelianbobo.iteye.com/blog/2155114

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!