URL及编码相关

最近在使用compass进行高级搜索的时候有许多参数,在url上会暴露参数,为了隐藏URL的具体参数的含义(这个需要有个强大的正则表达规则来解析URL,即对url进行rewrite,在我之前的文章里有过介绍。 开发的时候,还是URL?PARAM=XX的形式。),同时为了让复杂的URL看上去好看点, 方便SEO,对URL进行了编码处理,用BASE64编码跟效率没有关系, URL也不会变短, BASE64编码好处是字符编码范围有限度。
另外,URL实际上大小写,在EMAIL中发送,都存在各种问题,完全使用ASCII也可以避免汉字编码问题。如果你的URL放在邮件里,很多MAIL SERVER会修改的你的URL,比如修改你的大小写,修改你的编码。那么这个时候,用户会非常的讨厌。一些特殊的字符可能导致, MAIL SERVER在安全处理上, 把URL硬生生的拆散了。
另外,为了保持和不同的HTTP SERVER兼容, 不让HTTP SERVER按编码规则修改你的URL。使用ASCII是最好的选择。


[quote]http://domain/中文.html?q=中文.

1.第一个中文为pathinfo
2.第二个是queryString

这个url在get请求,也就是说直接拷贝到浏览器上敲回车执行的时候动作如下:
浏览器会对这个url中的分ascii字符集进行url encode.
中文ie:pathinfo 会用utf-8字符集进行url encode.queryString 会用gbk
中文firefox:pathinfo 会用gbk字符集进行url encode.queryString 会用gbk:

http://search1.taobao.com/browse/0/n-0-----------------g,m5sw2ytmmvza----------------40--commend-0-all-0.htm?at_topsearch=1

n-0-----------------g,m5sw2ytmmvza----------------40--commend-0-all-0.htm
这段是pathinfo.也就是单单中文ie,和中文firefox 进行url encode时,采用的字符集都不一致.一种是utf-8,一种是gbk.那么传到后台程序如何decode呢?


怎么做?做法就是程序把pathinfo用一定的方式转换成ascii码,这样浏览器就不自己来做了.做法有很多.下面举两种:

一种,使用urlEncode(stirng,编码格式).因为这个编码格式是自己制定的.所以后台知道如何decode.
一种:base64.甚至是base32.其实道理都是一样的.把pathinfo用程序转换成ascii码.不让浏览器自己瞎转. [/quote]

[quote]
然而,标准的Base64并不适合直接放在URL里传输,因为URL编码器会把标准Base64中的“/”和“+”字符变为形如“%XX”的形式,而这些“%”号在存入数据库时还需要再进行转换,因为ANSI SQL中已将“%”号用作通配符。
  为解决此问题,可采用一种用于URL的改进Base64编码,它不在末尾填充'='号,并将标准Base64中的“+”和“/”分别改成了“*”和“-”,这样就免去了在URL编解码和数据库存储时所要作的转换,避免了编码信息长度在此过程中的增加,并统一了数据库、表单等处对象标识符的格式。
[/quote]



参考:
[url]http://www.iteye.com/topic/286810[/url]
[url]http://www.iteye.com/topic/286240[/url]
[url]http://dogstar.iteye.com/blog/227056[/url]
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章