[分享发现] 汉语中的词频及笔画数分布规律探析

	rank	word	freq	freq_percent	cum_freq_percent
0	1	的	744863	7.7946	7.7946
1	2	了	130191	1.3624	9.1570
2	3	在	118823	1.2434	10.4004
3	4	是	118527	1.2403	11.6407
4	5	和	83958	0.8786	12.5193
5	6	一	81119	0.8489	13.3682
6	7	这	65146	0.6817	14.0499
7	8	有	53556	0.5604	14.6103
8	9	他	52912	0.5537	15.1640
9	10	我	52728	0.5518	15.7158

	rank	word	freq	freq_percent	cum_freq_percent	log_rank	log_freq	word_count
0	1	的	744863	7.7946	7.7946	0.000000	5.872076	1
1	2	了	130191	1.3624	9.1570	0.301030	5.114581	1
2	3	在	118823	1.2434	10.4004	0.477121	5.074901	1
3	4	是	118527	1.2403	11.6407	0.602060	5.073817	1
4	5	和	83958	0.8786	12.5193	0.698970	4.924062	1
5	6	一	81119	0.8489	13.3682	0.778151	4.909123	1
6	7	这	65146	0.6817	14.0499	0.845098	4.813888	1
7	8	有	53556	0.5604	14.6103	0.903090	4.728808	1
8	9	他	52912	0.5537	15.1640	0.954243	4.723554	1
9	10	我	52728	0.5518	15.7158	1.000000	4.722041	1

	freq	freq_percent
1	2391	16.344248
2	10476	71.611183
3	1181	8.073006
4	506	3.458883
5	43	0.293937
6	22	0.150386
7	8	0.054686
8	1	0.006836
10	1	0.006836

	rank	char	stroke_count
0	1	的	8
1	2	一	1
2	3	是	9
3	4	不	4
4	5	了	2
5	6	在	6
6	7	人	2
7	8	有	6
8	9	我	7
9	10	他	5

- - V2EX

一篇汉字词频与笔画数规律的数据分析小文，和大家交流，也请大佬们多指教，V2EX 不能很好的显示数学公式，所以贴上自己的博文地址和 GitHub 仓库地址：. 博文地址： https://md.metaquant.org/2018/words.html. notebook 地址： https://github.com/sorrowise/chinese_data_analysis/blob/master/chinese_data_analysis_CH.ipynb.

研究发现大多数BT分享者遭监控

- - Solidot

伯明翰大学计算机科学家的一项研究发现(PDF)，一位非法文件共享者下载受欢迎内容三小时内就会被监控公司记录下来. 研究人员对监控规模如此庞大感到惊讶. 版权拥有者会利用这些数据去打击非法下载. 研究人员开发出一个软件，功能上类似BitTorrent客户端，但能记录所有与该客户端的连接. 日志显示监控公司会事无巨细的记录所有人，不管下载者是新手还是BT狂热者.

[分享发现] hosts更新网址推荐，懂得收藏即可

- Marshall - V2EX

SmartHosts是一个在Google Code上维护更新的Hosts文件，为了方便用户修改，提供了简单方便的一键更新程序. 完整的hosts文件，直接覆盖系统的hosts文件即可，按需要加入系统中亦可：. 墙内镜像：https://smarthosts.sinaapp.com/hosts. [推荐] BAT版一键更新程序是目前比较稳定好用的版本，但因为bat批处理的局限性因而停止加入新功能，但仍旧更新它将写入的hosts文件：.

[分享发现] 三大运营商官方提供的防骚扰业务

- - V2EX

目前三大运营商提供的防骚扰业务均免费. 大致服务内容就是限制高频电话的呼入，拦截 95/400 开头的电话等，不同运营商略有区别. 前置条件：4G 用户、已开通 VOLTE. 开通方法：发送短信 KTFSR 到 10086 即可开通. 取消方法：发送短信 QXFSR 到 10086 即可取消. 开通 VoLTE 方法：发送短信 KTVOLTE 到 10086 即可.

三位天文学家因发现宇宙暴涨分享2011年诺贝尔物理学奖

- 微笑!?～ - Solidot

美国加州伯克利大学的天体物理学家Saul Perlmutter，澳大利亚国立大学Brian P.Schmidt和美国约翰霍普金斯大学Adam G.Riess因通过超新星研究发现宇宙加速膨胀而分享2011年诺贝尔物理学奖. 三位天体物理学家研究Ia型超新星，此类超新星是一颗致密的恒星爆炸产生的，它重量堪比太阳，但体积只有地球大小，它的爆炸所喷射出的辐射与整个银河相当.

三位科学家因免疫系统发现而分享2011年诺贝尔医学奖

- xing - Solidot

美国科学家Bruce Beutler、法国科学家Jules Hoffmann和加拿大科学家Ralph Steinman因在免疫系统上的重要发现而分享了2011年诺贝尔医学或生理学奖. Beutler和Hoffmann的贡献是发现如何激活先天免疫，而Steinman的贡献是发现树突状细胞及其在后天免疫系统中的作用.

“发现身边优惠”的移动应用“爱折客”用户数达到100万，一些数据分享

- hi3w - 36氪

在今年7月底的36氪开放日上海站，爱折客创始人范鼎参加我们的活动并做了产品展示（报道链接），当时他们的注册用户是10万人，现在，不到三个月的时间，爱折客告诉我们，他们的注册用户已经突破了100万，每天活跃用户超过20000个. 爱折客是一个支持iPhone和Android的移动应用，用户可以通过爱折客应用可以查看周围有哪些打折信息，用户可以添加自己感兴趣的商家，商家发布优惠后用户可以收到推送通知.

[分享发现] 随科技发展，人力劳动会持续贬值，岗位会持续减少

- - V2EX

随着科技发展机器(人工智能)的能力会越来越强. 机器(人工智能)能替代的人力劳动将会越来越多. 在通讯速度 /距离与运输效率低下的时代，实际上是有许多劳动 /工作在被重复的进行. 以写代码举例子，假设通讯速度距离不足，那么相同行业，不同地域的公司企业会重复的编写同一个程序，实现同一个功能. 但是未来这种工作岗位会不断减少，由于通讯速率 /传输效率的提高.

[转载]倒霉的汉语

- Sam - 中文热文榜|最新

还有 jin, yao, YALAN, 推荐，查看全部 15 个推荐. 蔡康永的博客发表于2010-05-16 12:28:24. 原文地址：倒霉的汉语作者：凹凸MAN. 当一个人听不懂另一个人在说啥的时候，他会怎么发牢骚呢. 英语：“It is Greek to me!”（“简直就是希腊语. 南非语：“Dis Grieks vir my!”（又是希腊语）.

寻找汉语网络的中心：“的”

- 佳佳 - Solidot

语言系统是一种复杂的网络结构体. 浙江大学的研究人员在《科学通报》上发表了一篇论文，探寻汉语网络结构的中心节点. 有意思的是，研究人员选择《实话实说》和《新闻联播》作为研究资料. 结果表明3个虚词均是网络的中心节点，但地位各有不同，它们对网络整体结构的影响也有较大区别. 其中“的”是整的网络最“中心”节点，“了”和“在”是局部中心节点.

[分享发现] 汉语中的词频及笔画数分布规律探析

一、引言

二、汉语词频分布规律

三、汉字笔画数分布规律

四、结论

五、参考资料

相关 [分享发现汉语] 推荐：