问题:
出问题的系统是j2ee架构,JSP页面采用的字符集是GBK,
在录入一个生僻字"㛃"字后,查询显示在页面时出现问题。
分析:
首先,这个生僻字不在GBK字符集,因为eclipse编辑器无法save为GBK格式。所以,在HTML里面出现了Http Entity Code,㛃 (即生僻字"㛃"),浏览器自动通过unicode来解决。碰巧我们使用了c:out标签,如果escapseXml=true,则会把&转义为&,所以html显示㛃(实际代码:㛃),所以加上escapseXml=false,则html显示正常。最好的办法还是建议在JSP页面使用UTF-8字符来解决,将来也能更好的处理国际化的其他字符。
小插曲:
在Tomcat测试时没有设置charset filter,tomcat会使用确认iso-8859-1来解析,老是乱码。
web.xml中字符集的filter如下,顺序需要放在最前面
<filter>
<filter-name>Set Character Encoding</filter-name>
<filter-class>org.apache.catalina.filters.SetCharacterEncodingFilter</filter-class>
<init-param>
<param-name>encoding</param-name>
<param-value>UTF-8</param-value>
</init-param>
<init-param>
<param-name>ignore</param-name>
<param-value>false</param-value>
</init-param>
</filter>
<filter-mapping>
<filter-name>Set Character Encoding</filter-name>
<url-pattern>/*</url-pattern>
</filter-mapping>