utf-8编码已经成为主流

标签: WWW | 发表时间:2008-05-06 22:40 | 作者:阮一峰 hongleij
出处:http://www.ruanyifeng.com/blog/

今天,我在网上看到一张图,据说是来自Google内部的统计——世界上所有网页编码统计图。

bg2008050601.gif

第一眼看到这张图,我感到很振奋,utf-8编码终于成为了主流。

可是再看第二眼,顿时就泄气了。因为份额下降的是ASCII和ISO 8859-1这两类编码,而GB类的中文编码份额几乎保持不变。那样的话,utf-8编码份额的上升,其实没有多大实际意义,因为ASCII和ISO 8859-1本身就是同utf-8兼容的,转不转化无所谓。

GB类的中文编码,才是真正需要被淘汰的。除了最基本的ASCII码,它同所有其他编码都不兼容,为互联网应用带来无尽的麻烦。许多很简单的问题,就是因为要考虑语言转化,而变得无比麻烦。

可是,直到今天,我们国家主流的门户网站,全部都是GB2312编码,这让人无法理解。我怀疑是不是有什么法规,规定一定要这样做。如果真是这样,那么实在是太愚蠢了。

P.S.

想了解字符编码基本知识的朋友,可以参考我以前的笔记

(完)

相关 [utf 编码 主流] 推荐:

utf-8编码已经成为主流

- hongleij - 阮一峰的网络日志
今天,我在网上看到一张图,据说是来自Google内部的统计——世界上所有网页编码统计图. 第一眼看到这张图,我感到很振奋,utf-8编码终于成为了主流. 可是再看第二眼,顿时就泄气了. 因为份额下降的是ASCII和ISO 8859-1这两类编码,而GB类的中文编码份额几乎保持不变. 那样的话,utf-8编码份额的上升,其实没有多大实际意义,因为ASCII和ISO 8859-1本身就是同utf-8兼容的,转不转化无所谓.

UTF-8编码中BOM的检测与删除

- 競 - 火丁笔记
所谓BOM,全称是Byte Order Mark,它是一个Unicode字符,通常出现在文本的开头,用来标识字节序(Big/Little Endian),除此以外还可以标识编码(UTF-8/16/32),如果出现在文本中间,则解释为zero width no-break space. 注:Unicode相关知识的详细介绍请参考UTF-8, UTF-16, UTF-32 & BOM.

字符编码笔记:ASCII,Unicode和UTF-8

- - 移动开发 - ITeye博客
今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚. 下面就是我的笔记,主要用来整理自己的思路. 但是,我尽量试图写得通俗易懂,希望能对其他朋友有用. 毕竟,字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识.

JAVA ,SSH中文及其乱码问题的解决 6大配置点 使用UTF-8编码

- - CSDN博客编程语言推荐文章
JSP,mysql,tomcat下(基于struts2)中文及其乱码问题的解决 6大配置点 使用UTF-8编码. 目前对遇到J2EE 开发中 中文及其乱码问题,参考网上资料做个总结, 主要是6大配置点:. 1 struts2配置 2 数据库 3 页面 4 jdbc连接 5 tomcat 6.hibernate配置.

扯谈下UTF-8

- - CSDN博客推荐文章
本来想翻译这篇文章的(作者是utf-8编码,golang发明者之一):. 一则翻译起来很痛苦,二则觉得这篇文章有些地方可能说得不是太明白,所以结合其它的一些东东扯谈下utf-8. Unicode就是为每一个字符(各种语言的各种字符)分配一个数字. 所以它实际上是一个表,记录了字符和数字的对应关系. 比如汉字“你”,对应的数字是20320,16进制是4F60.

java UTF-8 和 UTF-8 without BOM工具处理类

- - CSDN博客推荐文章
作者:shefron 发表于2014-8-27 15:52:22 原文链接. 阅读:6 评论:0 查看评论.

C++:UTF-8与GB2312之间的互换

- 张家良 - C++博客-首页原创精华区
本文章由李木空间 www.limou.net 发布,转载请注明链接. 话不多说,前几天我就遇到了字符之间的麻烦,在网页中出现了乱码,为此我还写了个百度经验,呵呵. 现在就是解决这个问题的时候了,当然用txt自带的“另存为”就可以简单的转换,但是现在讨论的是如何利用c++中的函数来改变的. 下面介绍一下WinAPI的两个函数:WideCharToMultiByte、MultiByteToWideChar.

UTF-8 GBK UTF8 GB2312 之间的区别和关系

- 维维孙 - 博客园-首页原创精华区
UTF-8:Unicode TransformationFormat-8bit,允许含BOM,但通常不含BOM. 是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码. UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强. UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示.

编码

- - 人月神话的BLOG
前面谈需求,架构和设计都比较多,今天谈一下编码方面的内容,做一个好的程序员不容易,很多时候不是体现在需求和架构能力的缺少上面,更多的是体现在最基础的编码和实现能力的不足上面. 编码是一个技术活,需要大量的脑力活动,但是很多人确可以把编码做为一个体力活,我在这里想继续强调的是如果编码是一个完全的重复体力劳动的话,那么所有工作就一定是可以自动化掉的,在这个时候你原来所有的工作没有任何的价值体现而被完全替代.

主流的非主流

- vim - 左岸读书_blog
文/Zeme(fjylf@163.com). 随手打开一份杂志(铜版纸的),就会惊讶于似是而非的主流观的非主流性. 首先,行云流水的文笔告诉诸位,要追求“精神的快乐,不要攀比,知足常乐”. 而后,下一页版面, 把“奢侈品”“化妆品”和“优雅美丽”联系起来. 此时开始有趣;请问,这本可爱的杂志到底是 A.