粗略统计CSDN泄漏的密码

标签: 统计 csdn 密码 | 发表时间:2011-12-21 22:13 | 作者:keakon
出处:http://www.keakon.net/
这次CSDN的账号密码泄漏,我出于好奇,就写了个Python脚本来分析这些600多万密码。
结果发现大多数用户的密码长度在8~14位之间,有29万用户的用户名和密码相同,有289万个密码为纯数字,最常用的10个密码为:123456789、12345678、11111111、dearbook、00000000、123123123、1234567890、88888888、111111111和147258369。
其中,使用123456789或12345678的用户有44万;而dearbook这个诡异的密码居然也有46053人采用,搞不懂……

最后附源码:
  import heapq
import operator
import re

pattern = re.compile(r'(.+) # (.+) # .+')
total = 0
password_eq_to_name = 0
digit_passwords = 0
name_length = [0] * 21
password_length = [0] * 41
passwords = {}

file = open('www.csdn.net.sql')
for line in file:
	match = pattern.match(line)
	if match:
		total += 1
		name = match.group(1)
		password = match.group(2)

		if name == password:
			password_eq_to_name += 1

		if password.isdigit():
			digit_passwords += 1

		name_length[len(name)] += 1
		password_length[len(password)] += 1

		passwords[password] = passwords.get(password, 0) + 1

print 'Total lines:', total
print 'Password equal to name:', password_eq_to_name
print 'Digit passwords:', digit_passwords
print 'Name length:'
for i in xrange(21):
	if name_length[i]:
		print '\t%d: %d' % (i, name_length[i])
print 'Password length:'
for i in xrange(41):
	if password_length[i]:
		print '\t%d: %d' % (i, password_length[i])
top_passwords = heapq.nlargest(10, passwords.iteritems(), key=operator.itemgetter(1))
print 'Top 10 passwords:'
for password, count in top_passwords:
	print password, count
以及结果:
Total lines: 6428632
Password equal to name: 292661
Digit passwords: 2893401
Name length:
    1: 8
    2: 297
    3: 3711
    4: 14527
    5: 277094
    6: 595904
    7: 739229
    8: 869899
    9: 903438
    10: 973000
    11: 709963
    12: 531144
    13: 304800
    14: 207898
    15: 125882
    16: 75838
    17: 36862
    18: 25163
    19: 13391
    20: 20584
Password length:
    1: 90
    2: 51
    3: 598
    4: 6675
    5: 33039
    6: 82999
    7: 16901
    8: 2338638
    9: 1552173
    10: 930888
    11: 628821
    12: 369529
    13: 167845
    14: 154966
    15: 75345
    16: 49653
    17: 7024
    18: 5937
    19: 2297
    20: 5080
    21: 4
    22: 13
    23: 6
    24: 11
    25: 5
    26: 13
    27: 1
    28: 4
    29: 7
    30: 5
    31: 1
    32: 2
    36: 2
    38: 2
    39: 1
    40: 6
Top 10 passwords:
123456789 235012
12345678 212749
11111111 76346
dearbook 46053
00000000 34952
123123123 19986
1234567890 17790
88888888 15033
111111111 6995
147258369 5965

相关 [统计 csdn 密码] 推荐:

粗略统计CSDN泄漏的密码

- - keakon的涂鸦馆
这次CSDN的账号密码泄漏,我出于好奇,就写了个Python脚本来分析这些600多万密码. 结果发现大多数用户的密码长度在8~14位之间,有29万用户的用户名和密码相同,有289万个密码为纯数字,最常用的10个密码为:123456789、12345678、11111111、dearbook、00000000、123123123、1234567890、88888888、111111111和147258369.

CSDN被爆库:看看技术宅都爱用什么密码?

- - 36氪
谈到密码问题,普通青年一般喜欢用123456;文艺青年喜欢用5201314;二逼青年则喜欢用888888. 那么攻城狮,程序猿爱用哪些密码呢. 我们一起来看看这次被 爆库的600多万CSDN最常用密码(以下图表由 Xueqiao Xu统计):. 以下再附上一份国外图片和幻灯片分享网站RockYou.com被爆库后所统计的 最常用密码,看看国外的人喜欢用什么样的密码:.

CSDN爆库内幕:密码为什么明文存放?

- - 东西
近期频频暴露 国内大网站明文保存用户密码的问题,也许你已经重置了大部分常用密码,但是否从此就安全了呢. 溯源究底,网友shell总结了一以下几点 密码需要明文存放的原因:. 大家知道互联网审查,有时往往会一个电话过来,要XX用户的密码. 如果你没法给出,上头就认为你不配合,事情各种难搞. 作为审查机构的老板,当然没必要知道明文密码的危害.

HBase统计表行数(RowCount)的四种方法_Abysscarry的博客-CSDN博客

- -
对于其他数据存储系统来说,统计表的行数是再基本不过的操作了,一般实现都非常简单;但对于HBase这种key-value存储结构的列式数据库,统计. RowCount的方法却有好几种不同的花样,并且. 测试集群:HBase1.2.0 - CDH5.13.0 四台服务器. 注:以下4种方法效率依次提高.

数据库用什么样的密码HASH算法才是最安全的? - andylau00j的专栏 - CSDN博客

- -
以下是在公司内部技术分享时总结的,希望对你有用:. 我们数据库的权限管理十分严格,敏感信息开发工程师都看不到,密码明文存储不行吗. 存储在数据库的数据面临很多威胁,有应用程序层面、数据库层面的、操作系统层面的、机房层面的、员工层面的,想做到百分百不被黑客窃取,非常困难. 如果密码是加密之后再存储,那么即便被拖库,黑客也难以获取用户的明文密码.

安卓邀请追踪技术和iOS渠道追踪和来源统计的几种原理 - neveraway1993的博客 - CSDN博客

- -
在开始之前,我们先来看看安卓的渠道统计. Google官方的应用商店Google Play在国内一直是无法使用的状态,所以国内的安卓App分发,都是依托数十个不同的应用市场或发行渠道,如百度、360、腾讯等互联网企业以及小米、华为、魅族等手机生产商. 对于安卓App的渠道追踪,主要是围绕上面这些大的渠道来进行,并且这些渠道自己一般也会提供非常详尽和周全的数据分析给应用开发者.

我来CSDN的这一年

- keso - robbin的自言自语
从ITeye(JavaEye)被CSDN收购,我从上海搬家到北京上班,眨眼之间已经过去了一年多. 回顾过去这一年,生活环境发生了巨大改变,工作的职责和角色也重新定位,面临了一些新的困难和挑战. 总体来说,感觉自己这一年过得很充实,很有成就感,在公司的大力支持下,计划做并且花了时间和精力努力的事情基本都做成了,如果要给自己打分的话,我会打80分.

SpringMVC 限流 - CSDN博客

- -
在使用 SpringBoot做接口访问如何做接口的限流,这里我们可以使用google的Guava包来实现,当然我们也可以自己实现限流,Guava中的限流是久经考验的我们没必需重新再去写一个,如果想了解限流原理的同学可以自己查阅一下相关的资料,本文不作过来说明噢. 在项目中引入 Guava相关包.

Latent Semantic Analysis(LSA) - CSDN博客

- -
Latent Semantic Analysis(LSA)中文翻译为潜语义分析,也被叫做Latent Semantic Indexing ( LSI ). 意思是指通过分析一堆(不止一个)文档去发现这些文档中潜在的意思和概念,什么叫潜在的意思. 我第一次看到这个解释,直接懵逼. 假设每个词仅表示一个概念,并且每个概念仅仅被一个词所描述,LSA将非常简单(从词到概念存在一个简单的映射关系).

facebook-faiss库 - YiLiang - CSDN博客

- -
三月初,Facebook AI Research(FAIR)开源了一个名为 Faiss 的库,Faiss 主要用于有效的相似性搜索(Similarity Search)和稠密矢量聚类(Clustering of dense vectors),包含了在任何大小的矢量集合里进行搜索的算法. Faiss 上矢量集合的大小甚至可以大到装不进 RAM.