粗略统计CSDN泄漏的密码

标签: 统计 csdn 密码 | 发表时间:2011-12-21 22:13 | 作者:keakon
出处:http://www.keakon.net/
这次CSDN的账号密码泄漏,我出于好奇,就写了个Python脚本来分析这些600多万密码。
结果发现大多数用户的密码长度在8~14位之间,有29万用户的用户名和密码相同,有289万个密码为纯数字,最常用的10个密码为:123456789、12345678、11111111、dearbook、00000000、123123123、1234567890、88888888、111111111和147258369。
其中,使用123456789或12345678的用户有44万;而dearbook这个诡异的密码居然也有46053人采用,搞不懂……

最后附源码:
  import heapq
import operator
import re

pattern = re.compile(r'(.+) # (.+) # .+')
total = 0
password_eq_to_name = 0
digit_passwords = 0
name_length = [0] * 21
password_length = [0] * 41
passwords = {}

file = open('www.csdn.net.sql')
for line in file:
	match = pattern.match(line)
	if match:
		total += 1
		name = match.group(1)
		password = match.group(2)

		if name == password:
			password_eq_to_name += 1

		if password.isdigit():
			digit_passwords += 1

		name_length[len(name)] += 1
		password_length[len(password)] += 1

		passwords[password] = passwords.get(password, 0) + 1

print 'Total lines:', total
print 'Password equal to name:', password_eq_to_name
print 'Digit passwords:', digit_passwords
print 'Name length:'
for i in xrange(21):
	if name_length[i]:
		print '\t%d: %d' % (i, name_length[i])
print 'Password length:'
for i in xrange(41):
	if password_length[i]:
		print '\t%d: %d' % (i, password_length[i])
top_passwords = heapq.nlargest(10, passwords.iteritems(), key=operator.itemgetter(1))
print 'Top 10 passwords:'
for password, count in top_passwords:
	print password, count
以及结果:
Total lines: 6428632
Password equal to name: 292661
Digit passwords: 2893401
Name length:
    1: 8
    2: 297
    3: 3711
    4: 14527
    5: 277094
    6: 595904
    7: 739229
    8: 869899
    9: 903438
    10: 973000
    11: 709963
    12: 531144
    13: 304800
    14: 207898
    15: 125882
    16: 75838
    17: 36862
    18: 25163
    19: 13391
    20: 20584
Password length:
    1: 90
    2: 51
    3: 598
    4: 6675
    5: 33039
    6: 82999
    7: 16901
    8: 2338638
    9: 1552173
    10: 930888
    11: 628821
    12: 369529
    13: 167845
    14: 154966
    15: 75345
    16: 49653
    17: 7024
    18: 5937
    19: 2297
    20: 5080
    21: 4
    22: 13
    23: 6
    24: 11
    25: 5
    26: 13
    27: 1
    28: 4
    29: 7
    30: 5
    31: 1
    32: 2
    36: 2
    38: 2
    39: 1
    40: 6
Top 10 passwords:
123456789 235012
12345678 212749
11111111 76346
dearbook 46053
00000000 34952
123123123 19986
1234567890 17790
88888888 15033
111111111 6995
147258369 5965

相关 [统计 csdn 密码] 推荐:

粗略统计CSDN泄漏的密码

- - keakon的涂鸦馆
这次CSDN的账号密码泄漏,我出于好奇,就写了个Python脚本来分析这些600多万密码. 结果发现大多数用户的密码长度在8~14位之间,有29万用户的用户名和密码相同,有289万个密码为纯数字,最常用的10个密码为:123456789、12345678、11111111、dearbook、00000000、123123123、1234567890、88888888、111111111和147258369.

CSDN被爆库:看看技术宅都爱用什么密码?

- - 36氪
谈到密码问题,普通青年一般喜欢用123456;文艺青年喜欢用5201314;二逼青年则喜欢用888888. 那么攻城狮,程序猿爱用哪些密码呢. 我们一起来看看这次被 爆库的600多万CSDN最常用密码(以下图表由 Xueqiao Xu统计):. 以下再附上一份国外图片和幻灯片分享网站RockYou.com被爆库后所统计的 最常用密码,看看国外的人喜欢用什么样的密码:.

CSDN爆库内幕:密码为什么明文存放?

- - 东西
近期频频暴露 国内大网站明文保存用户密码的问题,也许你已经重置了大部分常用密码,但是否从此就安全了呢. 溯源究底,网友shell总结了一以下几点 密码需要明文存放的原因:. 大家知道互联网审查,有时往往会一个电话过来,要XX用户的密码. 如果你没法给出,上头就认为你不配合,事情各种难搞. 作为审查机构的老板,当然没必要知道明文密码的危害.

我来CSDN的这一年

- keso - robbin的自言自语
从ITeye(JavaEye)被CSDN收购,我从上海搬家到北京上班,眨眼之间已经过去了一年多. 回顾过去这一年,生活环境发生了巨大改变,工作的职责和角色也重新定位,面临了一些新的困难和挑战. 总体来说,感觉自己这一年过得很充实,很有成就感,在公司的大力支持下,计划做并且花了时间和精力努力的事情基本都做成了,如果要给自己打分的话,我会打80分.

SpringMVC 限流 - CSDN博客

- -
在使用 SpringBoot做接口访问如何做接口的限流,这里我们可以使用google的Guava包来实现,当然我们也可以自己实现限流,Guava中的限流是久经考验的我们没必需重新再去写一个,如果想了解限流原理的同学可以自己查阅一下相关的资料,本文不作过来说明噢. 在项目中引入 Guava相关包.

2010年度CSDN十大博客文章

- Calvin998 - 《程序员》杂志官网
概要:这是一篇2009年写下的博文,但我们却愿意将它评选为“2010 年度CSDN十大博客文章”之首. 因为这篇“慢热型”的博文,整个2010年内,在CSDN社区内被广泛转帖,并得到网友们的交口称赞. 本文作者岑文初根据自身经历,总结出六条秘籍:爱这行;踏踏实实打好基本功;注重日常积累,厚积薄发;技术上做到既广且钻;培养分析问题能力,善于追根溯源;全面培养能力,不做纯粹“技术人员”;阿里巴巴六脉神剑文化.

python 中文文本分类 - CSDN博客

- -
3,结构化表示--构建词向量空间. 即已经分好类的文本资料(例如:语料库里是一系列txt文章,这些文章按照主题归入到不同分类的目录中,如 .\art\21.txt). 推荐语料库:复旦中文文本分类语料库,下载链接:http://download.csdn.net/detail/github_36326955/9747927.

【实践】CTR中xgboost/gbdt +lr - CSDN博客

- -
自学习 CTR预估中GBDT与LR融合方案 ,有意用简单暴利的python实现一版GBDT/XGboost做特征选择,融合LR进行CTR的代码demo. # lr对原始特征样本模型训练. print('基于原有特征的LR AUC: %.5f' % lr_test_auc). # 对所有特征进行ont-hot编码.

分析CSDN泄漏数据信息的一些数据

- mazhechao - cnBeta.COM
CSDN这次数据泄漏,同时也给了我们一些有趣的分析数据. 我们可以轻松地统计挨踢人士的邮箱使用情况,以及通常的密码长度等信息:.

CSDN数据库泄露!那些网站够安全吗?

- - 死理性派 - 果壳网
CSDN 社区网站数据库泄露 ,近 600 万用户真实账号密码外泄. 该事件横扫整个中文互联网,并且随后又爆出. 多玩游戏 800 万用户资料被泄露 ,另有传言人人网、开心网、天涯社区、世纪佳缘、百合网等社区都有可能成为黑客下一个目标. 一时间人人自危,更换密码者无数. 为什么一瞬间就有这么多密码被轻易获取,而一般的网站又是如何保护用户密码的.