理清URL编码

标签: Learning Browser charset HTML 编码 | 发表时间:2010-05-31 11:05 | 作者:yongbin winners
出处:http://jsfox.cn/blog

URL中,什么字符需要编码?

关于URL编码,RFC1738做了如下的规定:

“Only alphanumerics [0-9a-zA-Z], the special characters “$-_.+!*’(),” [not including the quotes - ed], and reserved characters used for their reserved purposes may be used unencoded within a URL.”

RFC继而说明了保留字、特殊符号、不安全字符的含义——也就是说,下面三类字符可以不经过编码,直接出现在URL上:

  • [0-9a-zA-Z]
  • 特殊字符:$-_.+!*’(),
  • 保留字符:&/:;=?@

为了让我们思路更清晰,我们再总结一下,哪些字符必须要编码:

  • ASCII表中没有对应可显示字符的,例如汉字
  • 不安全字符,包括:#”%<>[]{}|\^`~
  • 不当做保留字符来使用的保留字符,即&/:;=?@

详见这张图,一目了然(点击看大图):

URL编码在ASCII表中的体现

URL编码在ASCII表中的体现

如何编码?

众所周知,字符是可由八位字节数(octet)来表示的,八位字节数可用十六进制来表示它的值。如字符“<”的八位字节数十六进制值是3C。在URL中,字符的编码方式为:“%”加上字符的两个十六进制数值。举几个例子:

  • “<”可以被编码为%3C,空格“SP”可被编码为“%20”
  • “田”的GB2312编码十六进制值是CC EF,这时“田”的URL编码为%CC%EF
  • “囧”的GBK编码十六进制值是87 E5,这时“囧”的URL编码为%87%E5
  • “田”的UTF-8编码十六进制值是E7 94 B0,这时“田”的URL编码为%E7%94%B0

URL中包含汉字时的更多话题

RFC1738没有规定汉字的编码方式,而是让浏览器自己去决定,因此造成了URL汉字编码的不统一。经过研究,对于URL中的“查询字符串”和“路径”中包含汉字,不同浏览器有不同的处理。

1. 查询字符串中包含汉字

在网址输入:http://www.baidu.com/s?wd=田囧 ,敲击回车,使用Fiddler观察浏览器发出的请求(以IE8和Firefox为例):

查询字符串中含有中文

查询字符串中含有中文

IE8将汉字作为GBK编码,直接发往服务器(这其实是不符合RFC规范的);Firefox则多了一次加%的操作。Windows操作系统是GBK编码。得到结论,地址栏直接访问URL,汉字作为查询字符串(Query string)时,IE和Firefox会使用系统编码发至服务器端,Firefox会按规矩编码。

注意1:不要用Google进行测试,Google的搜索URL(类似:http://www.google.com/#hl=en&source=hp&q=田囧 ),搜索关键词那里不是查询字符串,因为前面有个#……我开始没注意到,被搞迷茫了很久……

注意2:这只是对URL直接访问的规律。如果页面时从链接点击打开的,例如从A页面含中文的链接打开了B页面,那么浏览器对中文的编码取决于A页面的编码。

2. URL路径中包含汉字

在网址直接输入:http://www.hudong.com/wiki/田囧 ,敲击回车,观察请求:

路径中含有中文

路径中含有中文

IE8和Firefox都把汉字作为UTF8,按规范进行了URL编码,还好。

总结

什么字符应该编码,什么字符不用编码,URL编码的基本问题,到此已经解决啦。

相关 [url 编码] 推荐:

将URL编码?

- - JavaScript - Web前端 - ITeye博客
    URL一般只能由字母、数字、$ - _. * ' ( ) 等一些字符构成. 那么当URL中需要用到汉字时怎么办,譬如有这样的URL: "www.test.com/search?name=张三",此时,只有通过将URL进行编码的方式进行传递了.     Javascript编/解码方法:.     如果对上面的URL(www.test.com/search?name=张三)进行编码的话.

理清URL编码

- winners - Thinking for Fun
关于URL编码,RFC1738做了如下的规定:. “Only alphanumerics [0-9a-zA-Z], the special characters “$-_.+!*’(),” [not including the quotes - ed], and reserved characters used for their reserved purposes may be used unencoded within a URL.”.

Web开发:URL编码与解码

- - 搜索引擎技术博客
通常如果一样东西需要编码,说明这样东西并不适合传输. 原因多种多样,如Size过大,包含隐私数据,对于Url来说,之所以要进行编码,是因为Url中有些字符会引起歧义. 例如Url参数字符串中使用key=value键值对这样的形式来传参,键值对之间以&符号分隔,如/s?q=abc&ie=utf-8. 如果你的value字符串中包含了=或者&,那么势必会造成接收Url的服务器解析错误,因此必须将引起歧义的&和=符号进行转义,也就是对其进行编码.

URL编码,客户端和服务器之间发生了什么

- - 崔永键的博客
要知道,其中包含两种编码,一种是字符到字符的URL编码(可以理解为仅仅是给字符换了一种字符层面上的表示形式而已,可以理解为转义),一种是字符到二进制的传统意义上我们理解的字符编码. 先来看,服务器到客户端的消息. 服务器端对HTTP头内容,首先进行URL编码,比如其中的汉字,就使用UTF8转换为对应的UTF8编码值.

URL的井号

- chenqj - 阮一峰的网络日志
一个显著变化,就是URL加入了"#!"符号. 在我印象中,这是主流网站第一次将"#"大规模用于直接与用户交互的关键URL中. 这表明井号(Hash)的作用正在被重新认识. 本文根据HttpWatch的文章,整理与井号有关的所有重要知识点. 其右面的字符,就是该位置的标识符. 就代表网页index.html的print位置.

iOS UIWebView URL拦截

- - 移动开发 - ITeye博客
本文译者: candeladiao,原文: URL filtering for UIWebView on the iPhone. 说明:译者在做app开发时,因为页面的javascript文件比较大导致加载速度很慢,所以想把javascript文件打包在app里,当UIWebView需要加载该脚本时就从app本地读取,但UIWebView并不支持加载本地资源.

URL最大长度问题

- - CSDN博客推荐文章
这几天为解决一个BUG头疼了一段时间,BUG现象如下:. 一个选择人员的选择控件,当选择多个人时(50多个的时候),返回没有错误现象,而再一次打开的时候就报404错误. 看到这个错误非常纳闷,无法下手,只能再一次看控件的代码,在详细看代码时,发现所有的参数都是经过URL传参的,赶紧百度一下URL参数的大小限制(从这个百度开始,我就进入一个误区:参数大小的限制).

URL中井号的作用

- - CSDN博客Web前端推荐文章
  URL中的井号(#)是比较常见的,它并不影响网址的指向,而是有众多功能和特点的. 下面就为大家介绍一些有关井号的故事.   1、页面中的某一个位置可以用井号在URL中指定.   井号作为比较长出现在URL的一种符号,通常也会代表这个页面中的某一个位置,比如:http://aoshu.juren.com/chzt/xiaoxueshijuan/index.html#nn1,此URL表示在这个页面中nn1的位置.

APP调用Custom URL Scheme

- - IT技术博客大学习
标签:   Scheme   跳转. Custom URL scheme 的好处就是,你可以在其它程序中通过这个url打开应用程序. 如A应用程序注册了一个url scheme:myApp,  那么就在mobile浏览器中就可以通过打开你的应用程序A. 首先在AndroidManifast.xml要被指定Scheme的Activity下设置如下参数.