IT瘾科学推荐

本科生，正在成为求职市场最尴尬的存在

Tue, 16 May 2023 18:06:41 CST

这个刚刚过去的春天，孔乙己在互联网上 " 还魂复生 "：

" 学历不仅是敲门砖，也是我下不来的高台，更是孔乙己脱不下的长衫。"

这样的 " 孔乙己文学 "，透露的是当下一部分年轻人的困惑：读书改变命运的信条，在新的时代背景下正在逐步崩塌——

为什么读了这么多年书，却找不到一份理想的工作？

答案显而易见：读书的人多了。从 2000 年初到 2022 年，高校毕业生增长了十倍有余。高学历者比比皆是，有限的职位和资源自然变得更加紧俏，于是造成了大面积的学历贬值。

而今年夏天，据人力资源和社会保障部公布的数据， 全国 2023 届高校毕业生，将达到 1158 万；在流行读书改变命运的 2000 年，这个数字还是 95 万。

与此同时， 今年三月，国家统计局公布的全国城镇 16-24 岁青年失业率，已经上升到了 19.6%，同比上升 3.6 个百分点，与去年七月出现的最高失业率（19.9%）几乎持平。

严峻的就业环境下，高校毕业生现状如何？他们的偏好、心态、选择又与往届有什么不同？对此，DT 财经做了以下观察与分析：

这届大学生

正面对着怎样的就业现状？

去年毕业季的艰难，许多人还记忆犹新：据东方财富 choice 统计，截至 2022 年 4 月 30 日，单单是 A 股上市企业中公布了人员变动的公司，就裁撤了将近 91 万人。

今年的毕业季，也并不容易：

实习了好几个月，已经谈好的转正 HC（headcount）说没就没；过了初面等待终面，却被 HR 通知岗位取消；甚至已经收到 offer，拒掉了其他公司，却在最后一刻被撤回 offer…… 这样的情形，在 2023 届毕业生的求职路上，比比皆是。

不过智联招聘发布的《2023 大学生就业力调查报告》显示，对不同学历的毕业生群体而言，困境的程度稍有不同。

本科生的处境最为尴尬：对学历门槛要求高的岗位，本科生往往不如硕博生吃香；对实际操作要求高的岗位，本科生又没有大专生来得技能对口。

因此， 夹缝生存的本科生，获得 Offer 的比例同时低于硕博和大专毕业生。

本科生难找工作，也是人才市场供需错配的具体体现：白领工作供大于需，导致学历内卷；而蓝领工作需求旺盛，却供给不足。这也就造成了本科生两头不讨好的现状。

同时，本科生内部也有一条明晰的鄙视链：双一流 > 普通一本 > 普通二本。 处在夹缝中的夹缝里，二本毕业生也是收获 Offer 比例最少的应届毕业生群体。

不仅不同学历的毕业生处境不同，女性和男性的就业处境也有很大区别：智联招聘数据显示，截至四月， 男性获得 offer 的比例整体高于女性，且学历越高，两者差值越大。两性就业难度差异的背后，是仍待改进的社会现状：

一方面，目前仍然有大量行业和岗位偏向招收男性，招聘过程中对女性婚姻和生育状况的歧视也仍旧存在。这不仅影响 offer 获得比例，在薪资上也造成了长期的性别差异：根据 BOSS 直聘研究院发布《2021 年中国职场性别薪酬差异报告》， 男性平均薪酬比女性平均薪酬高出 2087 元。

另一方面，也因为教育系统和社会环境改变缓慢，目前女性在人文学科类专业中的占比仍然很高，而在理工科专业中占比则明显更低（例如，各高校就业质量报告显示，华东师范大学 2021 届毕业生中，女生占比 66.4%，而在武汉理工大学同届毕业生中，女生只占了 30.8%）。而人文学科的就业率与毕业薪酬，也可想而知地在所有学科中垫底。

据麦可思《2022 年中国本科生就业报告》统计， 2021 届本科毕业生中，平均起薪最高的专业 TOP10，无一例外都是工科专业。

智联招聘数据显示，截至四月，2023 届高校毕业生中，人文学科毕业生的 offer 进展最慢，只有 41.3% 获得了 offer，排在工学、经管、理学、语言类、医学之后，与 offer 进展最高的工学（56.9%）相差超过十五个百分点。

在这样的环境下

大学生的就业心态有什么变化？

人文科目的衰败，似乎已经是个既定现实。因此，文转码意向高涨，多少是意料之中：在豆瓣，专门的 " 转码 " 相关小组就有五个；小红书上，近半年内 " 转码 " 相关笔记达到 3970 篇。

智联招聘数据显示，2023 届毕业生中，也有 超过八成非数字专业毕业生，对转向数字专业深造表达了兴趣，但其中大部分（67%）都因为没有基础、阻力太大而无法实践。

当然，焦虑的不止人文学科毕业生。总体来说，有 66.7% 的毕业生都担心自己找不到工作。而且值得注意的是， 学历越高的毕业生反而越焦虑：79% 的硕博毕业生对求职感到急切。

硕博毕业生的焦虑心态，也转换到了行为上， 将近一半人都会投递 50 份以上的简历。而这个比例在总体毕业生群体中只有三分之一左右。

处在学历鄙视链低端的毕业生，觉得就算有机会也轮不到自己，更容易选择彻底躺平；而高学历的硕博毕业生，对找到理想工作仍有一丝希望，于是更挣扎、也更焦虑。

但同时，即便是硕博毕业生，也在调整自己的期望。

2023 年，比起北上广这样的传统一线城市，更多的硕博毕业生把希望放在了新一线城市（智联招聘数据显示， 期望在新一线找到工作的硕博毕业生，从 2022 届的 30% 上涨到了 40.5%，而期望一线的持平在 30% 左右）。

比起一线城市，新一线城市有更多的人才政策优惠，生活压力也更小：

举个例子：如果一个应届本科毕业生选择到杭州生活，她甚至不需要先找到工作，就可以直接落户杭州。并且在找到工作后，可以领取 1 万元的生活和补贴，并持续三年领取每年 1 万元的租房补贴。学历越高，补贴金额也越大；

但在北京，只有少数高精尖人才、或进入重要岗位的毕业生，才有资格作为应届生申请落户，对大多数人而言，即便北漂多年，也很难拿到一个户口。

或许一线城市有更多大公司和大平台的机会，但对于很多维持生计都困难的应届毕业生来说， 落到实处的薪酬福利（69.3%），以及稳定生活（40.7%）的基本保障才是他们看重的。

在他们眼中，" 能够学习新东西 "（25.2%）、" 兴趣至上 "（8.3%）这些因素在求职时已经越来越无关紧要。

就业环境的艰难，很大程度上决定了应届毕业生的偏好。但同时，这样的考虑，也是后疫情时代下，年轻人全新价值观的体现：根据 DT 财经《2022 年疫情影响报告》，" 大城市 "、" 成功 "、" 大厂 "、" 大公司 "、" 努力 / 事业 " 在年轻人心中的重要性在疫情后都有明显的下降。

而心态上的转变，在很大程度上影响了高校毕业生的就业选择。

心态转变下

大学生就业方向有哪些新趋势？

虽然单位就业一直是高校毕业生去向的大头，但智联招聘数据显示，今年相比往届，单位就业的比例又上涨了 7.2 个百分点。相应的，选择自由职业的比例从 18.6% 下降到了 13.3%。

暂无具体就业打算的毕业生比例也上涨了 3 个百分点（选择继续深造的毕业生并不包含在内）。

在毕业即失业的危机前，求稳是主旋律。

而最稳不过体制内。但如今，考公的独木桥也在变得越来越窄： 2023 年国考总报名人数突破 250 万，相比去年增长了 50 万人，同比增长 25％，达到了近十年之最，资格过审平均竞争比为 60.5:1，最大竞争比超 5800:1。

激烈的竞争，以及各地公务员大幅减薪的现状，也让更多毕业生转向了处在体制内与体制外之间的国企：相对民企，国企有更高的稳定性和保障；但相对体制内，国企的进入门槛又相对低一些——但也低不到哪儿去：

2023 届毕业生中，有将近一半期望进入国企，这个比例相比往届稳步增长。可想而知，今年想要进入国企的应届生，将会面临更激烈的竞争。

与此同时，民企的吸引力正在持续下降。尤其是房地产、文化传媒等下行行业，期望进入的毕业生比例都明显减少。

虽然短期内，大厂裁员、降薪不断，但互联网仍然是薪资与前景最看好的行业，应届生对 IT 行业的期望也相对稍有回暖。

另外值得关注的是，得益于今年开始的经济复苏，想进入制造业的毕业生也有比较明显的增长。政策利好下，也有更多毕业生对环保行业产生兴趣。

第一轮春招已经进入尾声，但还有一半应届生没有拿到 offer。焦虑想必难免，互助、倾诉也许能对减轻压力有稍许帮助。另外，退一步了解市场局面，不一味地责怪自己，也同样重要。

女生最后悔读的专业，在工科

Fri, 11 Feb 2022 11:37:16 CST

" 工科是辍学也能就业的学科 "，曾有人这样调侃。

然而，对工科女生来说，事情似乎并不是这么简单。泡实验室、写代码、修电路、搭模型 …… 明明上了一样的大学，但在找工作时，工科女生们却只等来一句句 " 这个岗位不适合女生 "" 女孩怎么学这个专业啊 "。

都说 " 学好数理化，走遍天下都不怕 "，对女生就恐怕不是这样了。好不容易跨过千军万马的独木桥考上了大学，谁知道这只是第一步。

进了大学才发现，学工科好难

高中时代，很多人面临过选择文理科的纠结，家长都会劝学生，最好还是选理科。毕竟选理科更容易考上大学，报志愿选择多，也更容易找工作。

事实上，在中国的千万高考大军中，大多数都是理科生。例如，在高考大省河南，2021 年理科类考生要比文科类考生多了 15 万 [ 1 ] 。

从本科上线率来看，理科确实要高于文科。2021 年，各省份理科的本科上线率普遍比文科高 20% - 40% 左右，安徽、甘肃等省甚至相差 40% 以上。

从理科生与文科生本科上线率来看，只要还有文理分科的地区，这一比值都大于 1，也就是说，理科生更容易上本科，这不是存在于少数省市的个别现象，而是广泛存在于中国大江南北。

除了上线率更高，理科生的高考志愿专业选择也更为宽泛。其中，他们中的很大部分，都去了工科门类。根据教育部统计数据，工学门类的在校生数要远大于其他学科门类。

2020 年，全国有 1825.74 万本科在校生， 53.70% 都是女生。考虑到基数，就读工科专业的女生并不在少数。

虽然在传统印象中，工科是 " 男性学科 "，但在现在的理工类院校中，可以看到越来越多的女生身影。

例如，在浙江理工大学，男女新生比例已经基本均衡，在男生人数最多的机械与自动控制学院，男女比例也从 2019 年的 8.9 : 1 下降到了 2021 年 6.79 : 1 [ 2 ] [ 3 ] 。

只不过，考上大学或许只是她们人生闯关路的开端。填志愿时的一腔热血，很快就被现实浇上了冷水。

我们统计分析了知乎和豆瓣上有关 " 女生学工科是种什么体验 " 的帖子后发现，" 跨考 " 一词的热度最高，相关内容多集中在生化环材、建工交通等传统工科上。

要不要转专业？要不要考公？要不要转人文社科？一些女生在工科类专业没读多久，就已经开始盘算要脱离工科的苦海了。

后悔，也是她们吐槽的高频词。后悔的背后，是报考时未曾想到的女生学工科的难处。

实验里动辄要待上一整天，建筑工地上晒大太阳和通宵赶报告是家常便饭，必须承认，工科的很多专业对女生来说是很大的挑战——工科太需要体力了。

还在大学，工科女生就已经感受到了歧视，参加课题、实验或是竞赛会被认为是受男同学或者师兄关照，毕竟 " 女生就是学不来工科 "：

工科女生不是时时刻刻受到周围男生的关照吗（手动狗头）

工科不适合女生并不是说女生学习不行或者动手能力不行，而是就业屡遭歧视，考研究生时导师更偏向招男生。

但实际上，一项发表在《科学》期刊上的研究表明，女性在科学、技术、工程和数学（STEM）学科的能力一直以来都被低估。

在对 30 余个理工科开展大规模调查后发现，阻碍女性进入相关行业的主要原因，是对她们缺乏这些领域天赋的刻板印象，而非能力差异 [ 4 ] 。

敲得开大学门，却叩不开职场门

学习能力并不比男生差，但在找工作时，她们却遇到了不少 " 有色眼镜 "。

有人吐槽，虽然自己毕业于北京一所老牌 985，成绩也不错，研究所来招人时，带走的却都是成绩不如她的男生的简历。

在投出简历时，男女就已处于不同的赛道，这种现象普遍存在。

根据中国科学院心理研究所的一项研究，拥有男性化定向名字的女性求职者获得的面试机会较多 [ 5 ] 。也就是说，即使简历的性别栏是 " 女 "，只要名字听起来像男生，你也会更容易获得橄榄枝。

只不过，工科类行业是女生求职被区别对待的重灾区。

BOSS 直聘的报告显示，在采掘、冶炼、石油石化等工作体力强度较高的行业，男性求职者被招聘者主动沟通的次数是女性的 2 倍以上。

在计算机、交通运输等需要经常加班、出差的行业中，男性被沟通的次数也明显更高。

与之相反，女性通常需要主动联系招聘者，才有可能获得面试机会。在工程、制造等工科行业中，女性求职者与企业主动沟通次数是男性的 1.04 倍。

比找工作更难的，是工科女找工作。就算顺利进到了面试，用人单位还会明里暗里以各种理由将她们拒之门外。

我们统计了工科女生们在社交平台上分享的求职经历，生育、体力、加班、出差是她们认为用人单位不青睐她们的主要因素。

根据智联招聘《2020 中国女性职场现状调查报告》，将近六成的女性表示自己曾在应聘过程中被问及生育情况，而男性这个比例仅为 19.59%。

生育对女性的影响，从求职就已开始。而工科类工作，常常需要加班、出差、驻工地，" 女生一毕业就结婚生孩子，拴住了。" 有工科女生提及到了应聘单位这样的顾虑。

生育只是一个因素，很多用人单位不认为女生有足够的体力能跑工地、下车间，能适应经常出差，在招人时自然倾向于男生。

本人机械女，本科，在制造业工作过 5 年。工科的就业环境你们真的了解吗？虽然是做技术，到去车间是避免不了的。况且工厂觉得女生下车间不方便，不能加班，人家也不愿意招聘女生。

必须承认，工科的一些工作对体力有着较高要求，也有工科男生发表看法，认为经常在环境肮脏，施工噪音嘈杂的工地熬夜加班，就算是男生也会跑路转行。

只是，男生尚且能有跑路转行的机会，工科女连工作的 " 号码牌 " 都排不到。让不少人戏谑道 " 学得再好，不如你是个男的 "。如果说职场是闯关游戏，那工科女们一开始便选择了 hard 模式。

兜兜转转，工科女归宿还是老师

就算筛过了简历、通过了面试、找到了工作，工科女们遭遇的性别歧视并没有结束。入职以后，薪酬差异大、机会不平等、晋升天花板 …… 还有一道道难关在等着她们。

BOSS 直聘统计了 2020 年男女薪酬差异最高的行业，其中医药、交通、建筑、互联网、化工、机械等理工科行业占据了大半，大部分行业男女薪酬差异为 30% - 40%。

同工不同酬，正是很多工科女面临的困境。

分二级行业看更为直接，2019 年性别薪资差异最高的行业主要为采掘冶炼、工程施工、装修装饰等工程制造类行业。在高薪技术岗位，也仅有 6% 左右的女性处于生产、技术总监级别 [ 6 ] 。

今天，也有一些工科女凭实力在行业内得到了认可，她们动可跑工地、修电脑，静可画图纸、编程序。但挣的钱，却还是不如同行男性。

从面试到进入职场，工科女生要面临的是 " 九九八十一难 "。这些种种都造成了工科女生从事对口行业的比例低，纷纷寻找其他出路。

麦可思的就业报告显示，中小学教育及培训行业是工科女生们毕业后的第一选择，专业相关度仅 32%。政府及公共管理的行政工作也名列前矛，专业相关度约 40%。

确实，有一些工科女读大学后才发现不喜欢自己的专业，要么考研时转专业，要么毕业后转行。

但也仍有许多工科女对专业满怀热爱，我们统计了社交平台上关于女生就读工科等相关内容，有约 14% 提到了 " 喜欢 " 或 " 热爱 "。

很多工科女本希望能进入喜欢的行业发光发热，但却在找工作时处处碰壁。" 女生当老师好，稳定 "" 女孩子就该做安安静静的工作 "，诸如此类的话工科女们听了太多。

深深的热爱，却换来了狠狠的伤害：

喜欢是很喜欢自己学的这个专业，大学四年各种奖学金也是拿了不少，但是吧，校招的时候，递简历一看是女的就不收，而有些男同学四级没过都可以，就很受打击。

她们听从家长和社会的规劝，高中时选了 " 就业前景广 " 的理科，毕业后，面试难、薪资低、被歧视 …… 一道道难关又迫使她们去了和专业不相关的教育业。

造成工科女就业难的不是天赋、不是能力，而是偏见。即使当初上大学时选择的机会比文科女要多，但最后还是殊途同归，都去当了老师。

[ 1 ] 王勇生 . ( 2021 ) . 2021 年河南高考 " 一分一段表 " 出炉 . Retrieved 10 February 2022, from http://hn.cnr.cn/hnpdgb/xbjy/20210625/t20210625_525521197.html

[ 2 ] 浙江理工大学 . ( 2016 ) . 揭秘 | 2016 年 " 浙理 " 招生大数据 . Retrieved 10 February 2022, from https://mp.weixin.qq.com/s/oetvB3j6dh6UdoMeypUS2g

[ 3 ] 浙江理工大学 . ( 2021 ) . 揭秘！2021 浙江理工大学本科新生大数据来啦 . Retrieved 10 February 2022, from https://mp.weixin.qq.com/s/oR6y73juQLsUgEyZbz08LQ

[ 4 ] Leslie, S. J., Cimpian, A., Meyer, M., & Freeland, E. ( 2015 ) . Expectations of brilliance underlie gender distributions across academic disciplines. Science, 347 ( 6219 ) , 262-265.

[ 5 ] 郭凤 , 任孝鹏 , & 苏红 . ( 2020 ) . 不同性别定向的名字对女性获得面试机会的影响 . 中国人力资源开发 , 37 ( 5 ) , 46-58.

[ 6 ] BOSS 直聘 . ( 2019 ) . 2019 中国职场性别差异报告 .

开发 mRNA 疫苗的科学家

Mon, 12 Apr 2021 19:59:00 CST

在抗击新冠疫情过程中，mRNA 疫苗发挥了巨大作用，被誉为将“ 开启疫苗学的新时代”。mRNA 疫苗历尽数十年研发才终于取得成功，在此过程中，有很多位科学家做出了贡献，其中一位的经历能让人产生共鸣，因而赢得了媒体的青睐。《纽约时报》报道了出生于匈牙利、父亲是屠夫的科学家 Katalin Kariko 博士。从匈牙利 Szeged 大学获得博士学位之后她在该校的生物研究中心读博后，1985 年在研究项目的钱用光之后她与丈夫以及 2 岁女儿搬到美国的 Temple 大学继续博后研究。在美国的几十年中她从一个实验室转到另一个实验室，薪水从未超过 6 万美元，从未获得永久职位。她的丈夫曾计算过，她投入到工作中的时间用薪水计算相当于每小时赚到一美元。她的整个职业生涯都投入在 mRNA 上，相信 mRNA 可以指示细胞产生自己的药物如疫苗。她和同事 Drew Weissman 博士申请研究资金被拒，投到知名期刊上的论文被拒，而研究论文最终发表时并没有引起关注。制药公司和风投也没有兴趣。直到最后，美国的 Moderna 公司和德国的 BioNTech 公司注意到他们的工作，两家公司现在都在赞助 Weissman 博士的实验室，现年 66 岁的 Kariko 博士在 BioNTech 公司的薪水也不止 6 万美元了。

用Python进行时间序列预测的7种方法

Fri, 02 Nov 2018 09:04:49 CST

时间序列预测在日常分析中常会用到，前段时间在处理预算相关的内容，涉到一些指标预测，学习到了这篇文章，整理出来分享给大家。

数据准备

数据集（JetRail高铁的乘客数量）下载，链接: https://pan.baidu.com/s/15w5_5_o8IK6ZT3VlNSRa7Q 提取码: 9be3

假设要解决一个时序问题：根据过往两年的数据（2012 年 8 月至 2014 年 8月），需要用这些数据预测接下来 7 个月的乘客数量。

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt

df = pd.read_csv('train.csv')
df.head()

依照上面的代码，我们获得了 2012-2014 年两年每个小时的乘客数量。为了解释每种方法的不同之处，以每天为单位构造和聚合了一个数据集。

从 2012 年 8 月- 2013 年 12 月的数据中构造一个数据集。
创建 train and test 文件用于建模。前 14 个月（ 2012 年 8 月- 2013 年 10 月）用作训练数据，后两个月（2013 年 11 月 – 2013 年 12 月）用作测试数据。
以每天为单位聚合数据集。

import pandas as pd
import matplotlib.pyplot as plt

# Subsetting the dataset
# Index 11856 marks the end of year 2013
df = pd.read_csv('train.csv', nrows=11856)

# Creating train and test set
# Index 10392 marks the end of October 2013
train = df[0:10392]
test = df[10392:]

# Aggregating the dataset at daily level
df['Timestamp'] = pd.to_datetime(df['Datetime'], format='%d-%m-%Y %H:%M')
df.index = df['Timestamp']
df = df.resample('D').mean()

train['Timestamp'] = pd.to_datetime(train['Datetime'], format='%d-%m-%Y %H:%M')
train.index = train['Timestamp']
train = train.resample('D').mean()

test['Timestamp'] = pd.to_datetime(test['Datetime'], format='%d-%m-%Y %H:%M')
test.index = test['Timestamp']
test = test.resample('D').mean()

#Plotting data
train.Count.plot(figsize=(15,8), title= 'Daily Ridership', fontsize=14)
test.Count.plot(figsize=(15,8), title= 'Daily Ridership', fontsize=14)
plt.show()

我们将数据可视化（训练数据和测试数据一起），从而得知在一段时间内数据是如何变化的。

方法1：朴素法

假设 y 轴表示物品的价格，x 轴表示时间（天）。

如果数据集在一段时间内都很稳定，我们想预测第二天的价格，可以取前面一天的价格，预测第二天的值。这种假设第一个预测点和上一个观察点相等的预测方法就叫朴素法。

dd = np.asarray(train['Count'])
y_hat = test.copy()
y_hat['naive'] = dd[len(dd) - 1]
plt.figure(figsize=(12, 8))
plt.plot(train.index, train['Count'], label='Train')
plt.plot(test.index, test['Count'], label='Test')
plt.plot(y_hat.index, y_hat['naive'], label='Naive Forecast')
plt.legend(loc='best')
plt.title("Naive Forecast")
plt.show()

朴素法并不适合变化很大的数据集，最适合稳定性很高的数据集。我们计算下均方根误差，检查模型在测试数据集上的准确率：

from sklearn.metrics import mean_squared_error
from math import sqrt

rms = sqrt(mean_squared_error(test['Count'], y_hat['naive']))
print(rms)

最终均方根误差RMS为：43.91640614391676

方法2：简单平均法

我们假设y轴表示某个物品的价格，x轴表示时间（天）。

物品价格会随机上涨和下跌，平均价格会保持一致。我们经常会遇到一些数据集，虽然在一定时期内出现小幅变动，但每个时间段的平均值确实保持不变。这种情况下，我们可以预测出第二天的价格大致和过去天数的价格平均值一致。这种将预期值等同于之前所有观测点的平均值的预测方法就叫简单平均法。

y_hat_avg = test.copy()
y_hat_avg['avg_forecast'] = train['Count'].mean()
plt.figure(figsize=(12,8))
plt.plot(train['Count'], label='Train')
plt.plot(test['Count'], label='Test')
plt.plot(y_hat_avg['avg_forecast'], label='Average Forecast')
plt.legend(loc='best')
plt.show()

们用之前全部已知的值计算出它们的平均值，将它作为要预测的下一个值。当然这不会很准确，但这种预测方法在某些情况下效果是最好的。

该方法的均方根差为：109.88526527082863

from sklearn.metrics import mean_squared_error
from math import sqrt

rms = sqrt(mean_squared_error(test['Count'], y_hat_avg['avg_forecast']))
print(rms)

这种模型并没有改善准确率。因此我们可以从中推断出当每个时间段的平均值保持不变时，这种方法的效果才能达到最好。虽然朴素法的准确率高于简单平均法，但这并不意味着朴素法在所有的数据集上都比简单平均法好。

方法3：移动平均法

假设y轴表示某个物品的价格，x轴表示时间（天）。

物品价格在一段时间内大幅上涨，但后来又趋于平稳。我们也经常会遇到这种数据集，比如价格或销售额某段时间大幅上升或下降。如果我们这时用之前的简单平均法，就得使用所有先前数据的平均值，但在这里使用之前的所有数据是说不通的，因为用开始阶段的价格值会大幅影响接下来日期的预测值。因此，我们只取最近几个时期的价格平均值。很明显这里的逻辑是只有最近的值最要紧。这种用某些窗口期计算平均值的预测方法就叫移动平均法。

计算移动平均值涉及到一个有时被称为“滑动窗口”的大小值p。使用简单的移动平均模型，我们可以根据之前数值的固定有限数p的平均值预测某个时序中的下一个值。这样，对于所有的 i > p：

移动平均法实际上很有效，特别是当你为时序选择了正确的p值时。（以下程序选择了60天作为窗口大小）

y_hat_avg = test.copy()
y_hat_avg['moving_avg_forecast'] = train['Count'].rolling(60).mean().iloc[-1]
plt.figure(figsize=(16,8))
plt.plot(train['Count'], label='Train')
plt.plot(test['Count'], label='Test')
plt.plot(y_hat_avg['moving_avg_forecast'], label='Moving Average Forecast')
plt.legend(loc='best')
plt.show()

此方法计算出来的均方根差为：46.72840725106963

from sklearn.metrics import mean_squared_error
from math import sqrt

rms = sqrt(mean_squared_error(test['Count'], y_hat_avg['moving_avg_forecast']))
print(rms)

我们可以看到，对于这个数据集，朴素法比简单平均法和移动平均法的表现要好。此外，我们还可以试试简单指数平滑法，它比移动平均法的一个进步之处就是相当于对移动平均法进行了加权。在上文移动平均法可以看到，我们对“p”中的观察值赋予了同样的权重。但是我们可能遇到一些情况，比如“p”中每个观察值会以不同的方式影响预测结果。将过去观察值赋予不同权重的方法就叫做加权移动平均法。加权移动平均法其实还是一种移动平均法，只是“滑动窗口期”内的值被赋予不同的权重，通常来讲，最近时间点的值发挥的作用更大了。

这种方法并非选择一个窗口期的值，而是需要一列权重值（相加后为1）。例如，如果我们选择[0.40, 0.25, 0.20, 0.15]作为权值，我们会为最近的4个时间点分别赋给40%，25%，20%和15%的权重。

方法4：简单指数平滑法

我们注意到简单平均法和加权移动平均法在选取时间点的思路上存在较大的差异。我们就需要在这两种方法之间取一个折中的方法，在将所有数据考虑在内的同时也能给数据赋予不同非权重。例如，相比更早时期内的观测值，它会给近期的观测值赋予更大的权重。按照这种原则工作的方法就叫做简单指数平滑法。它通过加权平均值计算出预测值，其中权重随着观测值从早期到晚期的变化呈指数级下降，最小的权重和最早的观测值相关：

其中0≤α≤1是平滑参数。对时间点T+1的单步预测值是时序的所有观测值的加权平均数。权重下降的速率由参数α控制，预测值是与的和。

因此，它可以写为：

所以本质上，我们是用两个权重α和1−α得到一个加权移动平均值。我们可以看到和1−α相乘，让表达式呈递进形式，这也是该方法被称为“指数”的原因。时间 t+1 处的预测值为最近观测值和最近预测值之间的加权平均值。

from statsmodels.tsa.api import SimpleExpSmoothing

y_hat_avg = test.copy()
fit = SimpleExpSmoothing(np.asarray(train['Count'])).fit(smoothing_level=0.6, optimized=False)
y_hat_avg['SES'] = fit.forecast(len(test))
plt.figure(figsize=(16, 8))
plt.plot(train['Count'], label='Train')
plt.plot(test['Count'], label='Test')
plt.plot(y_hat_avg['SES'], label='SES')
plt.legend(loc='best')
plt.show()

上述方法计算出来的均方根差为：43.357625225228155

from sklearn.metrics import mean_squared_error
from math import sqrt

rms = sqrt(mean_squared_error(test['Count'], y_hat_avg['SES']))
print(rms)

模型中使用的α值为0.6，我们可以用测试集继续调整参数以生成一个更好的模型。

方法5：霍尔特(Holt)线性趋势法

假设y轴表示某个物品的价格，x轴表示时间（天）。

如果物品的价格是不断上涨的（见上图），我们上面的方法并没有考虑这种趋势，即我们在一段时间内观察到的价格的总体模式。在上图例子中，我们可以看到物品的价格呈上涨趋势。虽然上面这些方法都可以应用于这种趋势，但我们仍需要一种方法可以在无需假设的情况下，准确预测出价格趋势。这种考虑到数据集变化趋势的方法就叫做霍尔特线性趋势法。

每个时序数据集可以分解为相应的几个部分：趋势（Trend），季节性(Seasonal)和残差(Residual)。任何呈现某种趋势的数据集都可以用霍尔特线性趋势法用于预测。

import statsmodels.api as sm

sm.tsa.seasonal_decompose(train['Count']).plot()
result = sm.tsa.stattools.adfuller(train['Count'])
plt.show()

我们从图中可以看出，该数据集呈上升趋势。因此我们可以用霍尔特线性趋势法预测未来价格。该算法包含三个方程：一个水平方程，一个趋势方程，一个方程将二者相加以得到预测值：

我们在上面算法中预测的值称为水平（level）。正如简单指数平滑一样，这里的水平方程显示它是观测值和样本内单步预测值的加权平均数，趋势方程显示它是根据 ℓ(t)−ℓ(t−1) 和之前的预测趋势 b(t−1) 在时间t处的预测趋势的加权平均值。

我们将这两个方程相加，得出一个预测函数。我们也可以将两者相乘而不是相加得到一个乘法预测方程。当趋势呈线性增加和下降时，我们用相加得到的方程；当趋势呈指数级增加或下降时，我们用相乘得到的方程。实践操作显示，用相乘得到的方程，预测结果会更稳定，但用相加得到的方程，更容易理解。

from statsmodels.tsa.api import Holt

y_hat_avg = test.copy()

fit = Holt(np.asarray(train['Count'])).fit(smoothing_level=0.3, smoothing_slope=0.1)
y_hat_avg['Holt_linear'] = fit.forecast(len(test))

plt.figure(figsize=(16, 8))
plt.plot(train['Count'], label='Train')
plt.plot(test['Count'], label='Test')
plt.plot(y_hat_avg['Holt_linear'], label='Holt_linear')
plt.legend(loc='best')
plt.show()

使用该方法的均方根误差为：43.056259611507286

from sklearn.metrics import mean_squared_error
from math import sqrt

rms = sqrt(mean_squared_error(test['Count'], y_hat_avg['Holt_linear']))
print(rms)

这种方法能够准确地显示出趋势，因此比前面的几种模型效果更好。如果调整一下参数，结果会更好。

方法6：Holt-Winters季节性预测模型

在应用这种算法前，我们先介绍一个新术语。假如有家酒店坐落在半山腰上，夏季的时候生意很好，顾客很多，但每年其余时间顾客很少。因此，每年夏季的收入会远高于其它季节，而且每年都是这样，那么这种重复现象叫做“季节性”（Seasonality）。如果数据集在一定时间段内的固定区间内呈现相似的模式，那么该数据集就具有季节性。

我们之前讨论的5种模型在预测时并没有考虑到数据集的季节性，因此我们需要一种能考虑这种因素的方法。应用到这种情况下的算法就叫做Holt-Winters季节性预测模型，它是一种三次指数平滑预测，其背后的理念就是除了水平和趋势外，还将指数平滑应用到季节分量上。

Holt-Winters季节性预测模型由预测函数和三次平滑函数——一个是水平函数ℓt，一个是趋势函数bt，一个是季节分量 st，以及平滑参数α,β和γ。

其中 s 为季节循环的长度，0≤α≤ 1, 0 ≤β≤ 1 ， 0≤γ≤ 1。水平函数为季节性调整的观测值和时间点t处非季节预测之间的加权平均值。趋势函数和霍尔特线性方法中的含义相同。季节函数为当前季节指数和去年同一季节的季节性指数之间的加权平均值。在本算法，我们同样可以用相加和相乘的方法。当季节性变化大致相同时，优先选择相加方法，而当季节变化的幅度与各时间段的水平成正比时，优先选择相乘的方法。

from statsmodels.tsa.api import ExponentialSmoothing

y_hat_avg = test.copy()
fit1 = ExponentialSmoothing(np.asarray(train['Count']), seasonal_periods=7, trend='add', seasonal='add', ).fit()
y_hat_avg['Holt_Winter'] = fit1.forecast(len(test))
plt.figure(figsize=(16, 8))
plt.plot(train['Count'], label='Train')
plt.plot(test['Count'], label='Test')
plt.plot(y_hat_avg['Holt_Winter'], label='Holt_Winter')
plt.legend(loc='best')
plt.show()

使用该方法的均方根误差为：23.961492566159794

from sklearn.metrics import mean_squared_error
from math import sqrt

rms = sqrt(mean_squared_error(test['Count'], y_hat_avg['Holt_Winter']))
print(rms)

我们可以看到趋势和季节性的预测准确度都很高。我们选择了 seasonal_period = 7作为每周重复的数据。也可以调整其它其它参数，我在搭建这个模型的时候用的是默认参数。你可以试着调整参数来优化模型。

方法7：自回归移动平均模型（ARIMA）

另一个场景的时序模型是自回归移动平均模型（ARIMA）。指数平滑模型都是基于数据中的趋势和季节性的描述，而自回归移动平均模型的目标是描述数据中彼此之间的关系。ARIMA的一个优化版就是季节性ARIMA。它像Holt-Winters季节性预测模型一样，也把数据集的季节性考虑在内。

import statsmodels.api as sm

y_hat_avg = test.copy()
fit1 = sm.tsa.statespace.SARIMAX(train.Count, order=(2, 1, 4), seasonal_order=(0, 1, 1, 7)).fit()
y_hat_avg['SARIMA'] = fit1.predict(start="2013-11-1", end="2013-12-31", dynamic=True)
plt.figure(figsize=(16, 8))
plt.plot(train['Count'], label='Train')
plt.plot(test['Count'], label='Test')
plt.plot(y_hat_avg['SARIMA'], label='SARIMA')
plt.legend(loc='best')
plt.show()

使用该方法的均方根误差为：26.052705330843708

from sklearn.metrics import mean_squared_error
from math import sqrt

rms = sqrt(mean_squared_error(test['Count'], y_hat_avg['SARIMA']))
print(rms)

我们可以看到使用季节性 ARIMA 的效果和Holt-Winters差不多。我们根据 ACF（自相关函数）和 PACF（偏自相关）图选择参数。如果你为 ARIMA 模型选择参数时遇到了困难，可以用 R 语言中的 auto.arima。

最后，我们将这几种模型的准确度比较一下：

后话

希望本文对你有所帮助，在解决时许问题的时候能从容以对。我建议你在解决问题时，可以依次试试这几种模型，看看哪个效果最好。我们从上文也知道，数据集不同，每种模型的效果都有可能优于其它模型。因此，如果一个模型在某个数据集上效果很好，并不代表它在所有数据集上都比其它模型好。

原文地址： https://www.analyticsvidhya.com/blog/2018/02/time-series-forecasting-methods/

后续TODO :

深入学习statsmodels
深入学习Holt-Winters季节性预测模型
深入学习自回归移动平均模型（ARIMA）

The post 用Python进行时间序列预测的7种方法 appeared first on 标点符.

使用Python进行相关性分析

Mon, 17 Sep 2018 18:34:59 CST

在数据分析时，经常会针对两个变量进行相关性分析。在Python中主要用到的方法是pandas中的corr()方法。

corr()：如果由数据框调用corr函数，那么将会计算每个列两两之间的相似度，返回DataFrame
corr(other)：如果由序列调用corr方法，那么只是该序列与传入的序列之间的相关度，返回一个数值型，大小为相关度

我们以pandas.DataFrame.corr()为例进行详细说明：

DataFrame.corr(method=’pearson’, min_periods=1)

method : 指定相关系数的计算方式，可选性为：{‘pearson’,‘kendall’,‘spearman’}
- pearson : 皮尔逊相关系数
- kendall : kendall秩相关系数
- spearman : 斯皮尔曼等级相关系数
min_periods : int, optional，指定每列所需的最小观察数，可选，目前只适合用在pearson和spearman方法。

参考链接： http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.corr.html

线性相关关系通常采用皮尔逊（Pearson）相关系数r来度量连续变量之间线性相关强度

r>0：线性正相关
r<0：线性负相关
r=0：两个变量之间不存在线性关系（并不代表两个变量之间不存在任何关系）

线性相关系数|r|的取值范围：

低度相关：0 <= |r| <= 0.3
中度相关：3 <= |r| <= 0.8
高度相关：8 <= |r| <= 1

聚类算法之DBSCAN

Tue, 26 Jun 2018 12:26:43 CST

K-Means算法和 Mean Shift算法都是基于距离的聚类算法，基于距离的聚类算法的聚类结果是球状的簇，当数据集中的聚类结果是非球状结构时，基于距离的聚类算法的聚类效果并不好。

与基于距离的聚类算法不同的是，基于密度的聚类算法可以发现任意形状的聚类。在基于密度的聚类算法中，通过在数据集中寻找被低密度区域分离的高密度区域，将分离出的高密度区域作为一个独立的类别。DBSCAN（Density-Based Spatial Clustering of Application with Noise）是一种典型的基于密度的聚类算法。

DBSCAN算法原理

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

在DBSCAN算法中将数据点分为三类：

核心点（Core point）。若样本的邻域内至少包含了MinPts个样本，即，则称样本点为核心点。
边界点（Border point）。若样本的邻域内包含的样本数目小于MinPts，但是它在其他核心点的邻域内，则称样本点为边界点。
噪音点（Noise）。既不是核心点也不是边界点的点

在这里有两个量，一个是半径Eps（），另一个是指定的数目MinPts。

在DBSCAN算法中，还定义了如下一些概念：

密度直达(directly density-reachable)：我们称样本点 p 是由样本点 q 对于参数 {Eps,MinPts} 密度直达的，如果它们满足 p∈NEps(q) 且 |NEps(q)|≥MinPts （即样本点 q 是核心点）
密度可达(density-reachable)：我们称样本点 p 是由样本点 q 对于参数{Eps,MinPts}密度可达的，如果存在一系列的样本点 p1,…,pn（其中 p1=q,pn=p）使得对于i=1,…,n−1，样本点 pi+1 可由样本点 pi 密度可达
密度相连(density-connected)：我们称样本点 p 与样本点 q 对于参数 {Eps,MinPts} 是密度相连的，如果存在一个样本点 o，使得 p 和 q 均由样本点 o 密度可达。

基于密度的聚类算法通过寻找被低密度区域分离的高密度区域，并将高密度区域作为一个聚类的“簇”。在DBSCAN算法中，聚类“簇”定义为：由密度可达关系导出的最大的密度连接样本的集合。

DBSCAN算法流程

在DBSCAN算法中，有核心对象出发，找到与该核心对象密度可达的所有样本形成“簇”。DBSCAN算法的流程为：

根据给定的邻域参数Eps和MinPts确定所有的核心对象
对每一个核心对象
- 选择一个未处理过的核心对象，找到由其密度可达的的样本生成聚类“簇”
重复以上过程

伪代码：

(1) 首先将数据集D中的所有对象标记为未处理状态  
(2) for（数据集D中每个对象p） do  
(3)    if （p已经归入某个簇或标记为噪声） then  
(4)         continue;  
(5)    else  
(6)         检查对象p的Eps邻域 NEps(p) ；  
(7)         if (NEps(p)包含的对象数小于MinPts) then  
(8)                  标记对象p为边界点或噪声点；  
(9)         else  
(10)                 标记对象p为核心点，并建立新簇C, 并将p邻域内所有点加入C  
(11)                 for (NEps(p)中所有尚未被处理的对象q)  do  
(12)                       检查其Eps邻域NEps(q)，若NEps(q)包含至少MinPts个对象，则将NEps(q)中未归入任何一个簇的对象加入C；  
(13)                 end for  
(14)        end if  
(15)    end if  
(16) end for

Python实现：

# -*- coding: utf-8 -*-
import numpy as np


def distance(data):
    '''计算样本点之间的距离
    :param data(mat):样本
    :return:dis(mat):样本点之间的距离
    '''
    m, n = np.shape(data)
    dis = np.mat(np.zeros((m, m)))
    for i in range(m):
        for j in range(i, m):
            # 计算i和j之间的欧式距离
            tmp = 0
            for k in range(n):
                tmp += (data[i, k] - data[j, k]) * (data[i, k] - data[j, k])
            dis[i, j] = np.sqrt(tmp)
            dis[j, i] = dis[i, j]
    return dis


def find_eps(distance_D, eps):
    '''找到距离≤eps的样本的索引
    :param distance_D(mat):样本i与其他样本之间的距离
    :param eps(float):半径的大小
    :return: ind(list):与样本i之间的距离≤eps的样本的索引
    '''
    ind = []
    n = np.shape(distance_D)[1]
    for j in range(n):
        if distance_D[0, j] <= eps:
            ind.append(j)
    return ind


def dbscan(data, eps, MinPts):
    '''DBSCAN算法
    :param data(mat):需要聚类的数据集
    :param eps(float):半径
    :param MinPts(int):半径内最少的数据点数
    :return:
        types(mat):每个样本的类型：核心点、边界点、噪音点
        sub_class(mat):每个样本所属的类别
    '''
    m = np.shape(data)[0]
    # 在types中，1为核心点，0为边界点，-1为噪音点
    types = np.mat(np.zeros((1, m)))
    sub_class = np.mat(np.zeros((1, m)))
    # 用于判断该点是否处理过，0表示未处理过
    dealt = np.mat(np.zeros((m, 1)))
    # 计算每个数据点之间的距离
    dis = distance(data)
    # 用于标记类别
    number = 1

    # 对每一个点进行处理
    for i in range(m):
        # 找到未处理的点
        if dealt[i, 0] == 0:
            # 找到第i个点到其他所有点的距离
            D = dis[i,]
            # 找到半径eps内的所有点
            ind = find_eps(D, eps)
            # 区分点的类型
            # 边界点
            if len(ind) > 1 and len(ind) < MinPts + 1:
                types[0, i] = 0
                sub_class[0, i] = 0
            # 噪音点
            if len(ind) == 1:
                types[0, i] = -1
                sub_class[0, i] = -1
                dealt[i, 0] = 1
            # 核心点
            if len(ind) >= MinPts + 1:
                types[0, i] = 1
                for x in ind:
                    sub_class[0, x] = number
                # 判断核心点是否密度可达
                while len(ind) > 0:
                    dealt[ind[0], 0] = 1
                    D = dis[ind[0],]
                    tmp = ind[0]
                    del ind[0]
                    ind_1 = find_eps(D, eps)

                    if len(ind_1) > 1:  # 处理非噪音点
                        for x1 in ind_1:
                            sub_class[0, x1] = number
                        if len(ind_1) >= MinPts + 1:
                            types[0, tmp] = 1
                        else:
                            types[0, tmp] = 0

                        for j in range(len(ind_1)):
                            if dealt[ind_1[j], 0] == 0:
                                dealt[ind_1[j], 0] = 1
                                ind.append(ind_1[j])
                                sub_class[0, ind_1[j]] = number
                number += 1

    # 最后处理所有未分类的点为噪音点
    ind_2 = ((sub_class == 0).nonzero())[1]
    for x in ind_2:
        sub_class[0, x] = -1
        types[0, x] = -1

    return types, sub_class

DBSCAN的参数选择

MinPts

这个参数建议根据数据量及具体的业务进行自行设定

Eps

《Python机器学习算法》这本书上给出了一个计算公式，但是没有解释中间的原因，并不清楚理论依据是什么，算法如下：

def epsilon(data, MinPts):
    '''计算最佳半径
    input:  data(mat):训练数据
            MinPts(int):半径内的数据点的个数
    output: eps(float):半径
    '''
    m, n = np.shape(data)
    xMax = np.max(data, 0)
    xMin = np.min(data, 0)
    eps = ((np.prod(xMax - xMin) * MinPts * math.gamma(0.5 * n + 1)) / (m * math.sqrt(math.pi ** n))) ** (1.0 / n)
    return eps

其他参考资料：

Scikit-learn中的DBSCAN的使用

主要函数介绍：

DBSCAN(eps=0.5, min_samples=5, metric='euclidean', algorithm='auto', leaf_size=30, p=None, n_jobs=1)

核心参数：

eps: float，ϵ-邻域的距离阈值
min_samples ：int，样本点要成为核心对象所需要的 ϵ-邻域的样本数阈值

其他参数：

metric ：度量方式，默认为欧式距离，可以使用的距离度量参数有：
- 欧式距离 “euclidean”
- 曼哈顿距离 “manhattan”
- 切比雪夫距离“chebyshev”
- 闵可夫斯基距离 “minkowski”
- 带权重闵可夫斯基距离 “wminkowski”
- 标准化欧式距离 “seuclidean”
- 马氏距离“mahalanobis”
- 自己定义距离函数
algorithm：近邻算法求解方式，有四种：
- “brute”蛮力实现
- “kd_tree” KD树实现
- “ball_tree”球树实现
- “auto”上面三种算法中做权衡，选择一个拟合最好的最优算法。
leaf_size：使用“ball_tree”或“kd_tree”时,停止建子树的叶子节点数量的阈值
p：只用于闵可夫斯基距离和带权重闵可夫斯基距离中p值的选择，p=1为曼哈顿距离， p=2为欧式距离。如果使用默认的欧式距离不需要管这个参数。
n_jobs ：CPU并行数，若值为 -1，则用所有的CPU进行运算

属性：

core_sample_indices_ : 核心点的索引，因为labels_不能区分核心点还是边界点，所以需要用这个索引确定核心点
components_：训练样本的核心点
labels_：每个点所属集群的标签，-1代表噪声点

使用示例：

import numpy as np
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt
from math import radians, sin, cos, asin, sqrt


def haversine(latlon1, latlon2):
    """
    计算两经纬度之间的距离
    """
    if (latlon1 - latlon2).all():
        lat1, lon1 = latlon1
        lat2, lon2 = latlon2
        lon1, lat1, lon2, lat2 = map(radians, [lon1, lat1, lon2, lat2])
        dlon = lon2 - lon1
        dlat = lat2 - lat1
        a = sin(dlat / 2) ** 2 + cos(lat1) * cos(lat2) * sin(dlon / 2) ** 2
        c = 2 * asin(sqrt(a))
        r = 6370996.81  # 地球半径
        distance = c * r
    else:
        distance = 0
    return distance


if __name__ == "__main__":
    data = []
    f = open("k_means_sample_data.txt", 'r')
    for line in f:
        data.append([float(line.split(',')[0]), float(line.split(',')[1])])
    data = np.array(data)
    MinPts = int(data.shape[0] / 100)
    eps = 2000

    db = DBSCAN(eps=eps, min_samples=MinPts, metric=haversine).fit(data)
    core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
    core_samples_mask[db.core_sample_indices_] = True
    labels = db.labels_
    n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)

    unique_labels = set(labels)
    colors = ['r', 'b', 'g', 'y', 'c', 'm', 'orange']
    for k, col in zip(unique_labels, colors):
        if k == -1:
            col = 'k'
        class_member_mask = (labels == k)
        xy = data[class_member_mask & core_samples_mask]
        plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=col, markeredgecolor='w', markersize=10)

        xy = data[class_member_mask & ~core_samples_mask]
        plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=col, markeredgecolor='w', markersize=3)

    plt.title('Estimated number of clusters: %d' % n_clusters_)
    plt.show()

执行结果：

DBSCAN优缺点总结

优点：

相比K-Means，DBSCAN 不需要预先声明聚类数量。
可以对任意形状的稠密数据集进行聚类，相对的，K-Means之类的聚类算法一般只适用于凸数据集。
可以在聚类的同时发现异常点，对数据集中的异常点不敏感。
聚类结果没有偏倚，相对的，K-Means之类的聚类算法初始值对聚类结果有很大影响。

缺点：

当空间聚类的密度不均匀、聚类间距差相差很大时，聚类质量较差，因为这种情况下参数MinPts和Eps选取困难。
如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进。
在两个聚类交界边缘的点会视乎它在数据库的次序决定加入哪个聚类，幸运地，这种情况并不常见，而且对整体的聚类结果影响不大（DBSCAN*变种算法，把交界点视为噪音，达到完全决定性的结果。）
调参相对于传统的K-Means之类的聚类算法稍复杂，主要需要对距离阈值eps，邻域样本数阈值MinPts联合调参，不同的参数组合对最后的聚类效果有较大影响。

The post 聚类算法之DBSCAN appeared first on 标点符.

用 ASUS Merlin 路由器 VPN 科学上网

Mon, 15 Aug 2016 22:05:00 CST

作者：左耳朵 http://coolshell.cn 前言：这篇文章及其脚本可以写的更好，欢迎到https://github.com/haoel/haoel.github.io 更新。

作者：左耳朵 http://coolshell.cn
来源： https://haoel.github.io/

准备

首先，你应该对英文读写没什么问题

为什么这么说？ 逻辑是这样的，如果你上了Google还是在用中文关键词，那么你科学上网有什么意义呢？ 换言之，科学上网的目的是为了进入广阔的世界范围与全世界的人交流，所以，英文是必备的，如果你英文有问题，VPN过去也的用处也不大。

所以，我把这个前提条件放在第一的位置，就是说—— 真正的墙不是GFW，而是人的大脑

然后，你需要一个VPN

这里我用的是PPTP，可以上AWS日本申请个免费试用一年的EC2 VPS，或是Linode买个一月USD10刀的VPS，然后自建一个PPTP的VPN。

我在北京，感觉日本的VPS是比较快，其本上ping值可以在100ms以内，linode的似乎可以在50ms左右。Anyway， 现在你买一台VPS也不贵了，也就是一个月10美金左右（60-70元），千万别告诉我，一个月你花60-70元钱对你是件很奢侈的事。

关于PPTP服务器的设置，请参看《 How To Setup Your Own VPN With PPTP》

最后，你需要一台ASUS的路由器

用这台路由器的目的是为了用路由器科学上网，这样全家或全公司就科学上网了。

朋友安利我的是 华硕（ASUS） RT-AC68U 1900M AC 双频智能无线路由路，可能这个路由器对你来说有点贵，你也可以看看别的，比如：RT-AC66U，大约600元。

当然，不用这样的路由器也没有什么问题，在所有的客户端设备上设置VPN也没有问题。

路由器设置

给路由器刷 merlin 固件

首先Asuswrt是华硕公司为他的路由器所开发的固件。Asuswrt-merlin是一个对Asuswrt固件二次开发进行各种改进和修正的项目。源代码在这里： https://github.com/RMerl/asuswrt-merlin

Merlin固件拥有更多的功能，由于第三方不断维护代码，各种新功能也在不断增加。Merlin固件的升级并不需要反复的操作过程，方法与官方固件的升级相同，有很好的硬件软件兼容性。继承了Asuswrt官方固件优秀的交互界面。

另外，不必担心把路由器刷废了，华硕的路由器可以让你一键重置回来

1）下载固件。先到 https://asuswrt.lostrealm.ca/download 下载相应的固件，并解压。（我下载的是 RT-AC68U_380.61_0.zip ）

2）升级固件。登录到你的路由器后台 http://192.168.1.1/ ，在 系统管理 -> 固件升级中上传固件文件（我上传的是： RT-AC68U_380.61_0.trx）

3）打开 JFFS 分区。 系统管理 -> 系统设置 -> Persistent JFFS2 partition

Format JFFS partition at next boot - 否
Enable JFFS custom scripts and configs - 是

4）打开 ssh 登录。 系统管理 -> 系统设置 -> SSH Daemon

Allow SSH password login - 是

连接 VPN

1）到 VPN -> PPTP/L2TP Client 中添加设置文件。

注：最好使用PPTP，设置起来比较简单。L2TP不支持PEK的共享密码。

2）保存配置后，点 Active，如果一切正确，可以看到连接成功。

设置路由

此时，你的路由器就VPN了，但是，包括访问中国的网站也被代理了。所以，还要设置一下路由表。

  ssh admin@192.168.1.1

输入你设置的路由器后台的登录口令，你就可以进入路由器的操作系统了。

下载路由表

为什么要设置路由表？

路由器VPN后，你所有的网络访问都得多国外绕一圈了。所以，需要把国内的IP给过滤出来，所以，需要设置静态路由表。

  cd /jffs/scripts   
wget https://haoel.github.io/downloads/route.sh   
echo -e "#!/bin/sh\n\n/jffs/scripts/route.sh delete\n/jffs/scripts/route.sh add" > /jffs/scripts/wan-start   
chmod a+rx /jffs/scripts/*

wan-start 是什么？

注： wan-start 是一个事件脚本，在wan口连上后会运行，这里的运行指令是，先删除路由，再加入（因为WAN口的IP可能会换了）

route.sh 怎么来的？

这个脚本的路由表是由来高春辉的这个项目。 https://github.com/17mon/china_ip_list （之前的 https://github.com/fivesheep/chnroutes 已经没有人维护）
这个脚本包含5000多条路由规则，几乎包括了中国的网段。
我使用这个配置生成了 route.sh （生成脚本 https://github.com/haoel/haoel.github.io/tree/master/scripts ）
你可以使用 route.sh add 来生效路由表，用 ./route.sh delete 来删除路由表。

下载动态DNS配置

为什么要设置动态DNS？

因为很多网站都会使用CDN，使用CDN的通常都会用DNS的CNAME做解析，所以，你的路由器VPN后，你的DNS服务器也会变了，我们这里默认使用的是Google的8.8.8.8，当然，这台服务器在国外，所以，用这台服务器解析域名的时候，就会解析到国外。所以，我们还需要一个动态的DNS配置，对于国内的站点，使用国内的DNS，对于国外的站点，使用8.8.8.8

  cd /jffs/configs   
wget https://haoel.github.io/downloads/dnsmasq.conf.add

dnsmasq.conf.add怎么来的？

这个配置来自 https://github.com/felixonmars/dnsmasq-china-list
因为似乎他没有加上 itunes.apple.com ，所以，我就简单的把 server=itunes.apple.com/114.114.114.114 加到了 accelerated-domains.china.conf ，然后直接改名为 dnsmasq.conf.add
另外， linkedin.com 使用到的 static.licdn.com 也在这个文件中，建议去掉，不然linkedin.com打开会因为找不到相应的资源文件而异常。
生成脚本 https://github.com/haoel/haoel.github.io/tree/master/scripts

注：文件里用到的是 114.114.114.114 作为国内的DNS解析服务。经网友指出这个不靠谱 http://bobao.360.cn/news/detail/1793.html

你可以在路由器上通过 nvram get wan0_dns 查看你自己的DNS，然后替换掉，如：

  sed -i "s/114.114.114.114/$(nvram get wan0_dns|awk '{print $1}')/" dnsmasq.conf.add

运行命令生效

  /jffs/scripts/route.sh add    
service restart_dnsmasq

接下来，你需要让你的设备重新连接一下WiFi路由器。

检查

你可以使用一些命令在检查，相应的域名是否被CNAME到了正确的地方。

如：

  nslookup itunes.apple.com

  ping www.google.com

  traceroute weibo.com

然后查一查相关的IP是的位置在哪个国家。

已知问题

QUIC 的问题

使用上述配置，在使用Chrome访问Googlet系统的网站时，比如：www.google.com、www.youtube.com 会出现打不开页面的问题。我做了一些调查，发现，这个问题是和Google的 QUIC 协议相关，因为Safari和FireFox是没有这个问题的，因为Safari和Firefox用的是HTTPS而不是QUIC。

Workaround的方式是 Disable Chrome的试验型的QUIC协议，在Chrome里访问 chrome://flags/#enable-quic 可以关闭QUIC。

目前，我在ASUS Merlin的官方论坛发了个贴： http://www.snbforums.com/threads/quic-issue.34105/

（全文完）

翻墙技术博客订阅地址及社交帐号

KDNuggets：数据科学家使用工具调查

Mon, 04 Apr 2016 00:45:32 CST

工具／产品／解决方案是数据科学家洞察数据的利器。 KDNuggets网站对此观点进行了年度调查，来分析数据科学家在用哪些类型的工具，并提供了调查的匿名原始数据。

通过主成分析（PCA）法进行降维分析

对所有的工具同时进行关系分析，常规来说，PCA通过对大样本数据统计性质（eg, 协方差）的分析，试图用主要特征来解释关系。

分析结果：

当前分析的目标：通过一些主成分来分析95种工具之间的关系。最终决定以PCA的特征值来决定主成分的数目，这里选用了两种规则：一种是以特征值大于1的特征值数量来选择主成分数量；一种是画陡坡图（scree plot），通过95个特征值你会发现一个拐点的特征值。

特征点点陡坡图显示在第13和第14特征点时出现拐点，因此，这里选择的13个主成分来解释它们之间的关系，见下图。

点击上图可放大

工具分类

下面列出根据主成分析得出的13类工具（投票数大于20）：

大数据生态（Hadoop、Spark）和开源项目：Hadoop, HBase, Hive, Mahout, MLlib, Other Hadoop/HDFS-based tools, Pig, Scala, Spark, SQL on Hadoop tools
微软数据科学家工具：Microsoft Azure ML, Microsoft Power BI, Microsoft SQL Server, Revolution Analytics
基于Python的机器学习：Dataiku, H2O (0xdata), Python, scikit-learn, Theano, Vowpal Wabbit
SAS公司产品：JMP, SAS Base, SAS Enterprise Miner
MATLAB、R语言等统计工具：Gnu Octave, MATLAB, Orange, R, RapidMiner, Rattle, Weka
IBM公司产品：IBM Cognos, IBM SPSS Modeler, IBM SPSS Statistics, IBM Watson Analytics
Linux工具和SQLang：Actian, C/C++, Perl, SQLang, Unix shell/awk/gawk
深度学习：Caffe, Pylearn2
商务智能软件：Pentaho and QlikView
数据分析平台：Datameer and Zementis
Excel和Word统计工具：XLSTAT for Excel
其它：Other Deep Learning tools, Other free analytics/data mining tools, Other Hadoop/HDF-based tools, Other paid analytics/data mining/data science software, Other programming languages
数据可视化：C4.5/C5.0/See5, Miner3D, Oracle Data Miner

总结

数据科学家在选择大数据、数据挖掘和数据分析工具时，更倾向于有一定生态基础的工具，这样各个工具间可以相互支持。

为了提高在大数据项目中成功的机会，选择正确的工具是非常重要的。没有一个孤立的工具能够做所有的数据分析，职业的数据专家趋向于使用不止一种相关的工具（分析中发现，数据专家平均使用5种数据分析工具）。你可以根据使用相关工具的数据专家来决定自己的选择。

另外一个观点是，要选择大厂的产品，比如，IBM、微软和SAS，大品牌的产品更丰富，可以使得你的产品更容易扩展。

作者：杜小芳

199IT大数据导航，汇集1000多款与数据相关的工具（ http://hao.199it.com/ ），欢迎分享收藏！

您可能也喜欢的文章：
数据科学家首先应该做的事：对作者情感观察的分析	一个优秀数据科学家的主要构成特点	KDnuggets：2013年数据挖掘工具使用情况调查	数据科学家角色	2015年中国大数据发展调查报告（附下载）
无觅

致国产伟哥的潜在受益者

Wed, 21 Jan 2015 07:45:42 CST

人们对新生事物往往具有怀疑与猜测，特写此文释疑。

1. 误区1

ED与前列腺炎或其他前列腺疾病没有什么关系。

2. 误区2

西地那非类药物不会导致心脏病／高血压等疾病。

3. 误区3

ED不是什么见不得人等健康问题，它说男人等一种常见病。

4. 误区4

同一种药物的国产与进口产品是完全一样的，没有高低贵贱好坏之分的。分子式是一样的，剂量也是一样的。

5. 误区5

所谓中医治本，西医治标；中药没有副作用，西药有副作用。没有科学道理。伟哥类药物对副作用是极其有限的，完全可以耐受的，除了对ED有好处，而且对肺动脉高压／前列腺肥大还有好处。

6. 误区6

伟哥类药物有依赖性，吃了就不能停。

7. 误区7

伟哥类药物越吃ED就越严重，这也是没有科学道理的。

8. 误区8

老年人不需要性生活了，其实性生活对老年人对身心健康极为有利，生命在于运动，有性才有命。

9. 误区9

性生活对老年人是危险的，很可能会发生马上风，所以过不得。这样的概率很低，大多数发生于婚外情而不是婚内。

10. 误区10

单纯使用伟哥，或者服用一两次就宣告无效是不慎重的，必须足量／足够的时间／足够品种的尝试／外加激素或中成药后仍然无效才宣告无效，所以无效的人是不多的。

青春就应该这样绽放游戏测试：三国时期谁是你最好的兄弟！！你不得不信的星座秘密

[v]白光LED也有黑暗的一面

Fri, 17 Oct 2014 11:54:21 CST

今年的诺贝尔物理奖颁给了三名发明蓝色发光二极管的科学家。他们的研究对制造白光LED——比传统白炽灯泡更节能的灯泡意义重大。然而LED的广泛使用可能带来黑暗的一面：比以前更为严重的光污染。

夜间可以用灯光照亮——人类文明已经被这种便利完全改变，而所有过量的灯光对于野生动物来说动会造成问题——尤其是对夜行性动物。除了灯光的量和照射方向以外，从灯泡中发出的不同波长的灯光也会对动物产生不同的影响。

几十年来灯泡发出的都是黄光，这是高压钠蒸汽灯中电弧通过汽化钠发出的光色。这种灯泡的发光效率和光亮度都很高。由于这种灯泡发出的黄光不是那么好看，所以仅仅在室外才使用。现在呢，白光LED迅速取代了前者的地位，一份发表在10月份《生态学应用》期刊上的研究显示白光LED对环境会造成一定的影响。

“灯泡向LED照明的转变对生态环境所造成了影响，其中主要原因是短波长的蓝光越来越多。”新西兰研究机构Scion的昆虫学家Stephen Pawson在一封电子邮件中这样写道。

“光谱中的蓝色波段可以影响许多动物的行为。比如说，昆虫具有只对蓝光起反应的光感受器。所以大量使用白光很可能使夜间照明对所有蓝光敏感物种产生更大的影响。”

工业化生产的白光LED一般是在蓝光LED外层覆盖一层荧光粉涂层，这些涂层会吸收掉短波蓝光，再以比之前更长波长的光波发射出来。长短波波长的光线的结合让人眼看到白色的光。在研究中Pawson和同事Martin Bader对工业化LED和钠灯对昆虫的影响进行了观察。他们在夜晚的户外架起了两种灯泡，同时，为了捕捉靠近的昆虫，他们还在灯泡附近放置了黏黏的粘虫板。

结果白光LED平均比钠灯吸引的昆虫多48%。Pawson和Bader测试了六个蓝光发射量不同的白光LED灯泡，研究人员的假设是不同蓝光发射量的LED灯泡对昆虫的吸引能力也有不同，不过结果没有证明他们的猜想。

在研究中，两人提到如果按照现有设计继续安装LED，白光LED灯泡会让害虫更加猖獗。蚊群就更喜欢白色光源。研究也强调在决定照明配置时，光源的安装位置也十分重要。研究人员指出入侵性害虫舞毒蛾也较喜欢白光，所以在码头等地方安装白光LED会吸引更多的舞毒蛾来此，它们会将卵产在船上，最后这种入侵性物种会随着船漂洋过海来到新的土地上大肆破坏。
[ 王大发财 via Smithsonian Mag]

芝加哥警方使用电脑预测犯罪

Fri, 21 Feb 2014 11:42:10 CST

电影《少数派报告》中，警察会使用几个先知来预测犯罪。而如今芝加哥警察也可以使用电脑来预测可能的犯罪，但是批评者也提出，这不过是另一种的种族歧视罢了。

你被计算机列入了‘热名单’

去年8月，当芝加哥警察找到Robert McDaniel 的时候，这位22岁的一生清白的小伙子惊呆了。虽然他在当地是出了名的‘Bloodshed(暴力)’，但是他并没有任何犯罪记录，在当时也并没有做任何暴力事件。但是警察叔叔却警告他说：如果你犯下了任何罪行，将受到重罚，我们在看着你。

其实Robert McDaniel 不知道，自己已经进入了芝加哥警方的heat list(热名单)了，包括他一共有400位芝加哥居民进入了警察的监视范围，这些市民都被认为有严总的暴力倾向。

使用了Illinois Institute of Technology 大学研发的算法和Yale 社会学家的研究包括，警察叔叔们搞出来了这么一个heat list。芝加哥警察该项目负责人Jonathan Lewin 说：这是一个最佳的实验，(如果成功)将帮助全国乃至全世界的警察叔叔及时发现问题、解决问题、预防问题。

项目起源

2008年，美国NIJ(国家司法研究所)，向美国全国的警察部门推荐了这个项目，最终CPD(芝加哥警察部门)配合得最为默契，他们结合了自己已有的数据库，让NIJ 这个项目更加完整。

去年CPD 的这个项目在一个名叫Miles Wernick 牛人的推动之下，得到全面升级，这才有了本文开头的那一幕。Miles Wernick 是谁？他是Motorola Medical Imaging Research Center 的教授。从1980年代就开始配合美国军方从事数据分析工作。

Miles Wernick 加入该项目之后，便带着自己在IIT(伊利诺理工大学)的团队，将自己毕生所学全弄都上来了。例如预测系统、算法等等。最终弄出来了这400人的heat list。

隐私问题？！

目前CPD 的这个项目仍旧处于初级阶段，我们还没有看到什么效果。同时，社会人士也纷纷表示担心，来自Electronic Frontier Foundation 的Hanni Fakhoury 说：我害怕的是，这个项目会成为警察乱闯民宅的一个借口。侵犯隐私将成为一个巨大的问题。

Fakhoury 说：最大的问题是，谁来决定哪个公民会登上这个heat list。并且一旦登上heat list 就有一点万劫不复的赶脚。还是这个预测系统又会成为另一种种族歧视的问题。

Wernick 对此用了，癌症检测几率来做了一个比较，说明了这个值是一种检查和预测，不带任何不公平的元素。

Yale 的社会学家Andrw Papachristos 认为：即便heat list 没有减少犯罪，但至少他减少了人们接触犯罪的机会。也是好的。 [ oioi via theverge]

福特首席数据科学家谈三点大数据经验

Mon, 10 Feb 2014 18:19:32 CST

Photo: Ford

数据已经成了福特公司的“燃油”，从产品设计到商业智能，从汽车部件到社交网络上的用户，福特公司每天需要处理海量且快速增长的数据。

今日福特公司首席数据官Michael Cavaetta做客Structure Show，介绍了福特公司的大数据处理经验，归结为三点：

一、数据可以影响设计

数周前福特公司在北美国际汽车展上亮相的F-150皮卡车型采用了轻型铝材取代钢材提高燃油经济性。鲜为人知的是，这项设计改动离不开Cavaetta领导的数据部门的贡献。Cavaretta的团队还分析社交网络数据，帮助公司了解为什么北美的福特嘉年华车主不喜欢变道转向灯自动三闪的设计。社会化数据分析显示，用户并非不喜欢三闪这个功能，而是对转向灯拨杆在转向柱上的位置不满意。

二、着眼价值，而不仅仅是成本

二战以后福特公司就已经是个数据驱动的公司，但是近年来福特的数据化进入了一个全新的阶段Alan Mulally上任后格外重视数据，对数据分析数量的要求是前任的两倍。进行任何重要决策时的第一句话都是：“好吧，给我看数据，证明给我看你的数据分析能够支持决策。”

对数据的超级重视使得福特开始着眼新技术，如将Hadoop看做是数据规则的改变者，而不仅仅是一种廉价的数据存储技术。对数据分析结果的时效性的要求使得福特开始重新思考整个数据环境的设计，但是Cavaretta指出：”对新技术要知道适可而止，对于福特这样庞大体量的企业来说，花三年时间建设一个牛逼的数据仓库也许并不能跟上业务发展的节奏。但是Cloudera推出数据总线产品后曾鼓吹企业不再需要数据仓库，这对于福特来说也不现实，我们不可能一下把所有系统都换成Hadoop，一切都已价值而不是成本作为衡量标准，如果新技术短期不能带来太多价值，那么就适可而止。“

三、数据科学家不是神

福特公司并没有追逐传说中的数据科学家，Cavaretta认为真正的数据科学家太少了，企业没有必要苛求，福特的数据分析团队更多的是依靠团队的互补和多元化，并从公司内部招募数据分析师，取得了很好的效果。此外，Cavaretta认为很多大数据分析厂商鼓吹的“软件取代数据科学家”的时代还远未到来。

七个用于数据科学(data science)的命令行工具

Wed, 01 Jan 2014 01:55:39 CST

数据科学是 OSEMN（和 awesome 相同发音），它包括获取(Obtaining)、整理(Scrubbing)、探索(Exploring)、建模(Modeling)和翻译(iNterpreting)数据。作为一名数据科学家，我用命令行的时间非常长，尤其是要获取、整理和探索数据的时候。而且我也不是唯一一个这样做的人。最近， Greg Reda介绍了可用于数据科学的经典命令行工具。在这之前，Seth Brown介绍了如何在Unix下进行探索性的数据分析。

下面我将介绍在我的日常工作中发现很有用的七个命令行工具。包括： jq、 json2csv、 csvkit、scrape、 xml2json、 sample 和 Rio。(我自己做的scrape、sample和Rio可以在这里拿到)。任何建议意见、问题甚至git上的拉取请求都非常欢迎(其他人建议的工具可以在最后找到)。好的，下面我们首先介绍jq。

1. jq – sed for JSON

JSON现在越来越流行，尤其当API盛行了以后。我还记得处理JSON时，用grep和sed写着丑陋的代码。谢谢jq，终于可以不用写的这么丑了。

假设我们对2008总统大选的所有候选人感兴趣。纽约时报有一个关于竞选财务的API。让我们用curl取一些JSON:

curl -s 'http://api.nytimes.com/svc/elections/us/v3/finances/2008/president/totals.json?api-key=super-secret' > nyt.json

-s表示静默模式。然后我们用jq最简单的格式jq ‘.’，可以把得到的丑陋的代码

{"status":"OK","base_uri":"http://api.nytimes.com/svc/elections/us/v3/finances/2008/","cycle":2008,"copyright":"Copyright (c) 2013 The New York Times Company. All Rights Reserved.","results":[{"candidate_name":"Obama, Barack","name":"Barack Obama","party":"D",

转换成漂亮的格式：

< nyt.json jq '.' | head { "results": [ { "candidate_id": "P80003338", "date_coverage_from": "2007-01-01", "date_coverage_to": "2008-11-24", "candidate_name": "Obama, Barack", "name": "Barack Obama", "party": "D",

同时，jq还可以选取和过滤JSON数据：

< nyt.json jq -c '.results[] | {name, party, cash: .cash_on_hand} | select(.cash | tonumber > 1000000)' 
{"cash":"29911984.0","party":"D","name":"Barack Obama"}
{"cash":"32812513.75","party":"R","name":"John McCain"}
{"cash":"4428347.5","party":"D","name":"John Edwards"}

更多使用方法参见手册，但是不要指望jq能做所有事。Unix的哲学是写能做一件事并且做得好的程序，但是jq功能强大！下面就来介绍json2csv。

2. json2csv – 把JSON转换成CSV

虽然JSON适合交换数据，但是它不适合很多命令行工具。但是不用担心，用json2csv我们可以轻松把JSON转换成CSV。现在假设我们把数据存在million.json里，仅仅调用

< million.json json2csv -k name,party,cash

就可以把数据转换成：

Barack Obama,D,29911984.0
John McCain,R,32812513.75
John Edwards,D,4428347.5

有了CSV格式我们就可以用传统的如 cut -d 和 awk -F 一类的工具了。grep和sed没有这样的功能。因为CSV是以表格形式存储的，所以csvkit的作者开发了csvkit。

3. csvkit – 转换和使用CSV的套装

csvkit不只是一个程序，而是一套程序。因为大多数这类工具“期望”CSV数据有一个表头，所以我们在这里加一个。

echo name,party,cash | cat - million.csv > million-header.csv

我们可以用csvsort给候选人按竞选资金排序并展示：

< million-header.csv csvsort -rc cash | csvlook

|---------------+-------+--------------|
|  name         | party | cash         |
|---------------+-------+--------------|
|  John McCain  | R     | 32812513.75  |
|  Barack Obama | D     | 29911984.0   |
|  John Edwards | D     | 4428347.5    |
|---------------+-------+--------------|

看起来好像MySQL哈？说到数据库，我们可以把CSV写到sqlite数据库（很多其他的数据库也支持）里，用下列命令：

csvsql --db sqlite:///myfirst.db --insert million-header.csv
sqlite3 myfirst.db
sqlite> .schema million-header
CREATE TABLE "million-header" (
    name VARCHAR(12) NOT NULL, 
    party VARCHAR(1) NOT NULL, 
    cash FLOAT NOT NULL
);

插入后数据都会正确因为CSV里也有格式。此外，这个套装里还有其他有趣工具，如 in2csv、 csvgrep 和csvjoin。通过csvjson，数据甚至可以从csv转换会json。总之，你值得一看。

4. scrape – 用XPath和CSS选择器进行HTML信息提取的工具

JSON虽然很好，但是同时也有很多资源依然需要从HTML中获取。scrape就是一个Python脚本，包含了lxml和cssselect包，从而能选取特定HTML元素。维基百科上有个网页列出了所有国家的边界线语国土面积的比率，下面我们来把比率信息提取出来吧

curl -s 'http://en.wikipedia.org/wiki/List_of_countries_and_territories_by_border/area_ratio' | scrape -b -e 'table.wikitable > tr:not(:first-child)' | head
<!DOCTYPE html>
<html>
<body>
<tr>
<td>1</td>
<td>Vatican City</td>
<td>3.2</td>
<td>0.44</td>
<td>7.2727273</td>
</tr>

-b命令让scrape包含和标签，因为有时xml2json会需要它把HTML转换成JSON。

5. xml2json – 把XML转换成JSON

如名字所说，这工具就是把XML(HTML也是一种XML)转换成JSON的输出格式。因此，xml2json是连接scrape和jq之间的很好的桥梁。

curl -s 'http://en.wikipedia.org/wiki/List_of_countries_and_territories_by_border/area_ratio' | scrape -be 'table.wikitable > tr:not(:first-child)' | xml2json | jq -c '.html.body.tr[] | {country: .td[1][], border: .td[2][], surface: .td[3][], ratio: .td[4][]}' | head
{"ratio":"7.2727273","surface":"0.44","border":"3.2","country":"Vatican City"}
{"ratio":"2.2000000","surface":"2","border":"4.4","country":"Monaco"}
{"ratio":"0.6393443","surface":"61","border":"39","country":"San Marino"}
{"ratio":"0.4750000","surface":"160","border":"76","country":"Liechtenstein"}
{"ratio":"0.3000000","surface":"34","border":"10.2","country":"Sint Maarten (Netherlands)"}
{"ratio":"0.2570513","surface":"468","border":"120.3","country":"Andorra"}
{"ratio":"0.2000000","surface":"6","border":"1.2","country":"Gibraltar (United Kingdom)"}
{"ratio":"0.1888889","surface":"54","border":"10.2","country":"Saint Martin (France)"}
{"ratio":"0.1388244","surface":"2586","border":"359","country":"Luxembourg"}
{"ratio":"0.0749196","surface":"6220","border":"466","country":"Palestinian territories"}

当然JSON数据之后可以输入给json2csv。

6. sample – 用来debug

我写的第二个工具是sample。（它是依据bitly的 data_hacks写的，bitly还有好多其他工具值得一看。）当你处理大量数据时，debug管道非常尴尬。这时，sample就会很有用。这个工具有三个用处：

逐行展示数据的一部分。
给在输出时加入一些延时，当你的数据进来的时候有些延时，或者你输出太快看不清楚时用这个很方便。
限制程序运行的时间。

下面的例子展现了这三个功能：

seq 10000 | sample -r 20% -d 1000 -s 5 | jq '{number: .}'

这表示，每一行有20%的机会被给到jq，没两行之间有1000毫秒的延迟，5秒过后，sample会停止。这些选项都是可选的。为了避免不必要的计算，请尽早sample。当你debug玩之后你就可以把它移除了。

7. Rio – 在处理中加入R

这篇文章没有R就不完整。将R/Rscript加入处理不是很好理解，因为他们并没有标准化输入输出，因此，我加入了一个命令行工具脚本，这样就好理解了。

Rio这样工作：首先，给标准输入的CSV被转移到一个临时文件中，然后让R把它读进df中。之后，在-e中的命令被执行。最后，最后一个命令的输出被重定向到标准输出中。让我用一行命令展现这三个用法，对每个部分展现5个数字的总结：

curl -s 'https://raw.github.com/pydata/pandas/master/pandas/tests/data/iris.csv' > iris.csv
< iris.csv Rio -e 'summary(df)'
  SepalLength      SepalWidth     PetalLength      PetalWidth   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.054   Mean   :3.759   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
     Name          
 Length:150        
 Class :character  
 Mode  :character

如果加入了-s选项，sqldf包会被引入，这样CSV格式就会被输出，这可以让你之后用别的工具处理数据。

< iris.csv Rio -se 'sqldf("select * from df where df.SepalLength > 7.5")' | csvlook
|--------------+------------+-------------+------------+-----------------|
|  SepalLength | SepalWidth | PetalLength | PetalWidth | Name            |
|--------------+------------+-------------+------------+-----------------|
|  7.6         | 3          | 6.6         | 2.1        | Iris-virginica  |
|  7.7         | 3.8        | 6.7         | 2.2        | Iris-virginica  |
|  7.7         | 2.6        | 6.9         | 2.3        | Iris-virginica  |
|  7.7         | 2.8        | 6.7         | 2          | Iris-virginica  |
|  7.9         | 3.8        | 6.4         | 2          | Iris-virginica  |
|  7.7         | 3          | 6.1         | 2.3        | Iris-virginica  |
|--------------+------------+-------------+------------+-----------------|

如果你用-g选项，ggplot2会被引用，一个叫g得带有df的ggplot对象会被声明。如果最终输出是个ggplot对象，一个PNG将会被写到标准输出里。

< iris.csv Rio -ge 'g+geom_point(aes(x=SepalLength,y=SepalWidth,colour=Name))' > iris.png

我制作了这个工具，为了可以在命令行中充分利用R的力量。当然它有很多缺陷，但至少我们不需要再学习gnuplot了。

别人建议的命令行工具

下面是其他朋友通过twitter和hacker news推荐的工具，谢谢大家。

结论

我介绍了七个我日常用来处理数据的命令行工具。虽然每个工具各有所长，我经常是将它们与传统工具（如grep, sed, 和awk）一起使用。将小工具结合起来使用组成一个大的流水线，这就是其用处所在。

不知你们对这个列表有什么想法，你们平时喜欢用什么工具呢。如果你们也做了什么好玩的工具，欢迎将其加入数据科学工具包 data science toolbox。

如果你不认为自己能制作工具，也不用担心，下次当你写一个异乎寻常的命令行流水线时，记得将它放到一个文件里，加一个#!，加一些参数，改成可执行文件，你就做成一个工具啦~

虽然命令行工具的强大在获取、处理和探索数据时不容小觑，在真正的探索、建模和理解翻译数据时，你还是最好在科学计算环境下进行。比如 R或者 IPython notebook+ pandas。

如果感兴趣，欢迎 follow me on Twitter。

七个用于数据科学(data science)的命令行工具，首发于博客 - 伯乐在线。

推介：20个让你“性”趣盎然的有关性的事实

Tue, 17 Dec 2013 18:28:46 CST

这里推介的是一些客观观察到的现象，，不一定是具有代表性，也不一定是权威性的结论，姑且听之吧。

译者：译言网销魂的小馄饨

发表时间：2013-12-16浏览量：1309 评论数：3 挑错数：0

20 个让你“性”趣盎然的有关性，阴茎，阴道的事实

你知道现在世界上正有成千上万的人在性交吗？你知道大部分的雄性长颈鹿都是双性恋吗？你知道精液含有多少卡洛里吗？（可不比一块奶油蛋糕少！）。 以下节选Sadie Cayman 的新书《性：369 个让你“性” 趣盎然的事实》 ：

1. 每天都发生至少1 亿此性交活动。也就是说，大概此时此刻全球有65000 对夫妇正在性交。

2. 一茶勺精液含7 卡洛里热量。

3. 加州大学的研究者发现，帮忙做家务的男性相比不做的男性，能够多得到50% 的性爱。

4. 玩偶癖是指能够感受到雕塑或者是玩偶产生的性吸引的一种心理特征。

5. 据报告显示，女性在一个小时内能够达到高潮的次数最高为134 次；而男性只有16 次。

6. 完全停止性爱活动会导致阴茎的尺寸缩短。

7. 俄国的一位女士 Tatyana Kozhevnikova 据报导是世界上用阴道的肌肉举起重量最重的女性。有足足14 公斤之多！

8. 当把精液擦入到皮肤中时，其含有的蛋白质可以赋予它防皱抗老的特性。

9. 在所有国家之中，希腊人民据称是做爱最多的（87% 人说他们每个星期都做一次爱）。

10. 大概每50 个女人之中就有一个拥有一个多余的乳头。

11. 戴两个安全套并不能够更好的保证安全套不发生破裂泄露，正好相反，因为摩擦的缘故，反而会增加破裂的几率。

12. 在大多数国家，卖淫都是合法的，其中甚至包括伊朗。在伊朗，你可以雇佣一个“临时妻子” 几个小时之久。但是，如果你怂恿，协助，教唆一名女性卖淫或者经营妓院，你的行为将被视作是违法的，最高的处罚是死刑。

13. 男性的其中一个睾丸要比另外一个下垂一点，这样能够保证男性在行走时，两个睾丸不会发生碰撞。

14. 根据2012 年的调查显示，60% 的英国人更喜欢关着灯做爱。

15. 英文单词merkin ，指的是女性佩戴的假阴发。这个词最早在1617 开始使用。 假阴发的使用最早要追溯到15 世纪，最初是由妓女所佩戴。那个时候她们一般会把自己的阴毛刮掉来防虱子，或者显示自己并没有任何得性病的表象。

16. 发明早餐玉米片的人是一个狂热的反自慰主义者，他相信健康的饮食能够减少性冲动。

17. 一个全球性的研究网站，OnePoll.com 报导，女性认为西班牙，巴西，和意大利是生产优质爱人的国家。而英国男人则被普遍认为“过于懒惰”。

18. 脱衣舞女在排卵期间能够赚到更多的钱，这大概是因为她们在月经时能够释放激起性冲动的信息素。

19. 在古代的中国，人们一般会在行房事之后饮用水银或者是铅。他们相信这样做可以避免怀孕，不幸的是，这样做往往会导致不孕和死亡。

20. 从生物学的角度上来看，男性因为进化的原因，会将其注意力聚集在女性能够表现生育能力的特点上 – 比如丰满的乳房，纤细的腰身，和圆润的臀部。这些特点都能体现她是一个年轻，健康，而且很有可能还没有怀孕的女人。

青春就应该这样绽放游戏测试：三国时期谁是你最好的兄弟！！你不得不信的星座秘密

IT屌丝如何成为数据科学家？

Thu, 26 Sep 2013 20:35:00 CST

数据科学家被《财富》杂志誉为21世纪最性感的职业，但遗憾的是大多数企业里都没有真正的数据科学家人才。根据麦肯锡报告，仅仅在美国市场，2018年大数据人才和高级分析专家的人才缺口将高达19万。此外美国企业还需要150万位能够提出正确问题、运用大数据分析结果的大数据相关管理人才。

那么，对于不同职业经历和专业背景的IT人士来说，如何才能尽快转型，加入数据科学家的钻石王老五的行列呢？

Ofer Mendelevitch近日在Hortonworks官方博客发表文章给出了自己的观点。

Mendelevitch认为无论是Java程序员还是业务分析师都有机会成为数据科学家，以下是他对不同人群给出的具体建议：

Java程序员

作为Java开发者，你对软件工程的规则已经了然于心，能够设计软件系统执行复杂任务。数据科学正是关于开发“数据产品”的一门科学，主要是基于数据和算法的软件系统。

对于Java程序员来说，第一步需要了解机器学习的各种算法：现在有哪些算法，都能解决哪些问题以及如何实现。另外还需要学习使用 R和 Matlab等建模工具，此外 WEKA、 Vowpal Wabbit和 OpenNLP等库也为大多数常见算法提供了经过验证的实现方法。如果你还不太熟悉Hadoop，学习map-reduce、 Pig、 Hive和 Mahout将很有帮助。

Python程序员

如果你是Python程序员，对软件开发和脚本编写一定很熟悉，也许已经在使用很多数据科学中常见的库例如 NumPy和 SciPy。

Python对数据科学应用的支持很好，尤其是 NumPy/ Scipy, Pandas, Scikit-learn, IPython 等用于探索性分析的库，以及可视化方面的 Matplotlib。

在处理大型数据集方面，多学些Hadoop及其与Python的流式集成。

统计学家与应用科学家

如果你有统计学或者机器学习的背景，那么你很可能很多年前就开始使用诸如 R, Matlab 或 SAS进行回归分析、聚类分析等机器学习相关任务。

R、Matlab和SAS是很强大的统计分析和可视化工具，对于很多机器学习算法都有很成熟的实现方法。

但是，这些工具通常被用于做数据勘探和模型开发，很少单独用来开发产品级的数据产品。在开发端到端的数据产品时，大多数情况下，你需要需要同时用到其他软件模块如Java、Python等，并与Hadoop等数据平台整合。

显然，熟悉一门或者多门现代编程语言，例如Python或Java是你的首要任务。此外，与有经验的数据工程师紧密合作将有助于更好地理解他们开发生产级数据产品所用到的工具和方法。

业务分析师

如果你的背景是SQL，那么说明你已经跟数据打交道很多年了，你很清楚如何通过数据获取业务分析结果。 Hive能让你以你熟悉的SQL语言访问Hadoop上的大数据集，因此是你步入大数据殿堂的首选。

数据产品通常需要使用SQL无法胜任的高级机器学习和统计，因此对于业务分析师来说，进入数据科学领域的第二个重要步骤就是在理论层面深入了解此类算法（例如推荐引擎、决策树、NLP），并熟悉目前的实现工具如 Mahout, WEKA,或Python的 Scikit-learn。

Hadoop开发者

作为Hadoop开发者，你一定已经了解了大数据集和集群计算的复杂性。你还可能熟悉Pig、Hive、HBase并有丰富的Java经验。

第一步，你需要深入了解机器学习和统计，以及这些算法面向大数据集的高效实现方法。Mahout是个不错的开始，可以在Hadoop上实现上述很多算法。

另外一个需要关注的领域是数据清理（data cleanup），很多算法在建模前都会为数据分配基本结构。但不幸的是，现实中数据大多很“脏”，清理这些数据是数据科学中一项很繁重的工作。Hadoop通常是建模前大规模数据清理和预处理的工具选择。

总结

通向数据科学殿堂之路不可能一帆风顺，你必须学习很多新规则、编程语言，更重要的是还要积累实战经验。这些都需要时间、精力和投入，但最终你会发现一切都物超所值。

这里有很多你可能会用到的学习参考书籍、培训和演示文稿。

打造顶级大数据团队的几个偏方

Sat, 21 Sep 2013 08:07:35 CST

出人意料的是，音乐人才、物理学家和工商管理人士能为大数据团队带来全新的视角。

你的企业正在打造数据科学团队吗？首先，你应当从业务部门抽调专家来提出正确的问题。然后考虑招募一些物理学家、音乐人才，当然，还有统计人才和计算机科学家。

这些才是顶级大数据团队的关键“配方”，至少管理咨询与技术顾问公司Booz Allen的战略创新部门副总裁乔什沙利文是这么认为的。沙利文的部门负责帮助客户开展数据分析项目，在这个过程中沙利文看到太多企业犯下相同的错误。

“大多数企业只知道招聘计算机科学家，因为他们认为大数据是一个技术问题，但他们错了，”在接受媒体采访时，沙利文说道：

我们问客户的第一个问题是：你准备向数据分析系统提出什么样的问题？而不是你需要如何去编写代码。你首先需要有创造力和好奇的人。

Booz Allen组件数据科学团队的第一步是确保团队成员包括数学与统计人才、计算机科学专家和企业各业务领域专家。其中业务专家非常关键，他们是确保大数据分析产生商业价值并提升企业决策的关键环节。

值得注意的是，大数据团队中的业务专家需要与业务部门进行岗位轮换，帮助企业所有业务部门都意识到大数据团队的存在，同时需要将数据团队中的业务专家送回到业务岗位，他们将成为数据驱动的企业经营管理方法与文化的布道者。

太多企业为特定部门或者业务线组件专门的分析团队，这些团队常常无法从企业的整体业务出发考虑问题，同时这也会滋长“数据保护主义”，部门间各自囤积数据，并为数据分享设置障碍。

另外一个令人质疑的做法是在研发团队内囤积分析专家，使他们很难接触到业务部门。

陶氏化学在这方面就做得非常好，其数据科学家团队与业务专家肩并肩合作，开发出新的业务成本模型仅仅在货运和原材料两个环节就帮助公司节省了数十亿美元。

在统计专家和计算机科学家之外，沙利文的部门还成功地将物理学家和音乐专业人士引入数据分析团队，这听上去有些古怪。实际上，这两类人才为数据分析团队带来了全新的观点和方法。例如物理学家带来了从猜测、假设到实验的一整套科学验证方法，而音乐专业人才则具备“惊人的创造力和量化技能”。

当数据分析团队在处理多种数据的时候，非常类似交响乐作者编配多种乐器的过程，而这方面音乐人才是最在行的。例如在一个医药公司的数据分析项目中，需要混搭不良药物反应数据、社交媒体数据、研究注释、实验室数据和分子数据。在大数据分析出现之前，从来没有人会将这么多不同来源的数据整合到一起。事实证明，在音乐人才的帮助下，这些数据形成了完美的“合奏”，并最终帮这家药企优化了药物研发的优先级。

在最近的一个项目中，沙利文的团队帮助一家航空公司实施的大数据项目证明了大数据的商业价值。在这个大数据项目中，旅客的行程、路线、票价、目的地、载客量历史数据与体育赛事日程、传统节日、学校假期、旅客人口统计和社交媒体数据整合到一起分析。

以上这些数据航空公司有很多对应的BI仪表盘和PDF报告工具，但航空公司们从来没想到过将这些数据综合起来分析。结果证明，这样的大数据分析能帮助他们优化航班时刻表和票价，每年增加数千万美元的收入。

数据分析团队多元化的优势在大数据众包平台 Kaggle上得到最佳体现。在那里，不乏天文学家、对冲基金金融工程师、经济学家以及数学家甚至律师提出能击败企业内部数据分析团队的更好的分析方法/算法。

病毒性肝炎病与性

Thu, 27 Dec 2012 20:16:28 CST

病毒性肝炎应该是中国覆盖面最大、涉及人数最多的传染病，目前已知有六种，即甲、乙、丙、丁、戊、庚型肝炎。甲肝主要经口传染，戊肝主要经水源、食物和个体密切接触传播，以上两种肝炎一般不易变为慢性，也不会发展为肝硬化。乙肝和丙肝主要经血液途径传播，易转为慢性肝炎和肝硬化，少数可演变为肝癌。因此肝炎在我国是危害较广、较大的传染病，尚无特效疗法。那么它们与人们的性健康有何关系呢？

急性期由于肝细胞破坏，转氨酶显著升高，厌食乏力明显，体力不支，性欲往往降低。慢性肝炎及肝硬化由于肝功能受损及内分泌代谢紊乱，血中雌激素增加、雄性激素减少，性欲普遍降低，男性可有睾丸萎缩、ED。

(1)急性肝炎应禁止一切性生活，以减少体力消耗和促进肝细胞恢复。否则性生活的能量消耗会使病情加重。

(2)肝炎恢复期，可以适当进行性活动，以不感疲劳为度。

(3)慢性肝炎及肝硬化病人，一般性欲低下不应勉强进行性生活。

(4)通过精液可以传播乙肝，因而乙肝患者性交时应带避孕套。

(5)乙肝可以通过胎盘传给胎儿，对乙肝表面抗原阳性的孕妇应采取措施阻断母婴传播。一般可用高效能乙肝免疫球蛋白给婴儿注射，分别于出生后即刻、1月、3月龄各肌注1支。同时最好于出生7天后、1月、6月龄各肌注乙型肝炎病毒疫苗1支。如果父亲有乙肝，其子女也应采取上述预防措施。

(6)乙肝病毒可以通过乳汁传播给婴儿，故乙肝母亲不宜母乳喂养。也有人认为既然已给婴儿进行预防注射，故母乳喂养并不一定能造成母婴间传染，母乳哺乳并非禁忌。

(7)慢性乙肝患者唾液、精液、阴道分泌物可以长期携带病毒，应避免接吻、口交及防止月经血污染物入口。

(8)
青春就应该这样绽放游戏测试：三国时期谁是你最好的兄弟！！你不得不信的星座秘密

如何快速学习一门语言

Thu, 27 Jun 2013 21:05:31 CST

# lmliu59 童鞋投递：

模拟显示，如果你假设每件东西有且只有一个名字和它相联系，那么你就能快速的掌握这个词的意思。

每个小屁孩每天大约能学会10个词，但是大人们还没有弄清楚小朋友们开了什么挂来达到如此快的学习速度 (你们当年也不是小孩么)。为此一个专业研究团队模拟了词语学习的过程，并揭示了一个简单有效的学习策略，那就是在想象中否定同义词的存在。这种看似平常用起来却威力强大的方法，满级后让你迅速记住仅仅听过一遍的单词。这么牛X的方法似乎起源于人类先祖发展语言的过程。

一个人到了18岁的时候，大约会学会60,000个词 (汗…大叔我中文+英语的词汇量也没这么多啊)。小朋友们放各种技能来区分词语的意思。例如，一个小屁孩在听到“杯子”这个词的时候，却同时目睹了一个杯子，一个球，一本书。下次她(凭什么是萝莉？)听到“杯子”这个词不仅会想起杯子，顺带还会想起那个球和那本书。如果当时仅仅只有杯子的存在，这个小孩就学会了“杯子”就意味着一个杯子。

如果这个小萝莉认定每样东西只有一个名字，那么她就可以学得更快。例二，如果这个小萝莉事先已经知道“球”和“书”的意思，那么当她看到一个杯子和一个球、一本书放在一起并听到“杯子”这个词的时候，小萝莉就马上学会“杯子”指的就是那个没有被取名字的圆柱形物体。来自英国爱丁堡大学的Richard Blythe解释说：“这是a boot-strapping technique, 你使用以前学习的词语来消除新词的一些容易让人混淆的含义。”小规模的实验测试小孩和大人都使用意思相互排斥的原则来领会新词的含义 ^[1]，但研究者并不清楚，和其他的学习方法比较起来，在遇到成百上千的词语时，这种方法的效率能有多高。

为了处理这个问题，Blythe和他的同事们把词语学习与非平衡统计物理学相类比。在统计物理中，有数量巨大的实体---比如说分子---相互作用，这些分子在某一个时刻都有一种分布_称之为一个“态”，一个态出现的概率随时间的流逝而变化。在语言学习中，“杯子”这个词在一开始会有很多混淆的含义，所以此时“杯子”意思就是一个杯子的可能性非常低。但是，类比物理系统达到平衡态，随着时间的推移，“杯子”意思是杯子的可能性会变成百分百。

研究者们从简单入手，假定一门语言只有50到100个词语，每个词语出现的频率不尽相同。在他们的计算机模拟中，“学习者”重复接收到一个词语和一串“物品”，其中的一个“物品”是词语所对应的，其余的“物品”都是干扰。这个“学习者”逐渐地学会了比较这一系列事件，找出其中保持不变的方法来学习词语。研究者对掌握这门假设的语言的时间做了细致的数学推导，发现设个时间强烈的依赖于每次事件中干扰物品的数目。

Blythe和他的同事们比较了两种情况。其一是学习者相信已经被命名的东西可能含有新词的正确含义。用这种方法学习60,000个词要耗尽一辈子的时间，干扰词的数目非常少的时候情况略有好转。其二，当包含了语义相互排斥的假设后，学习时间戏剧般地下降。比如对于有10个干扰词的情况，整个一门语言可以只花把每个词听一遍的时间就能搞定。单词几乎是遇到了就学会了，这解释了语义排斥的假设非常有效。作者还由此推测，掌握这种语言学习方法或许对早起人类发展语言能力来说是关键的一步。

一名来自印第安纳大学的认知科学家Linda Smith说：“相互排斥是大脑研究中常见的主题。大脑的工作模式是竞争，在每个层面所有领域都是如此。”她说，如果大脑在一个词和一个物体之间形成了关联，这会阻止其他的词和这个物体发生关联。她期望心理学家对学习者对每个词都保留了一串干扰词的想法感兴趣 ^[2]，但她同时说这种含糊不清被包括在大脑记忆恢复的理论之中。

1. E. M. Markman and G. F. Wachtel, “Children’s Use of Mutual Exclusivity to Constrain the Meanings of Words,” Cognitive Psychol. 20, 121 (1988).
2. T. N. Medina, J. Snedeker, J. C. Trueswell, and L. R. Gleitman, “How Words Can and Cannot Be Learned by Observation,” Proc. Natl. Acad. Sci. U.S.A. 108, 9014 (2011).

[ 投稿 via Physics]

>>点这里浏览原文<<

简要说明自慰（手淫）的好处

Fri, 08 Mar 2013 22:54:56 CST

手淫不仅仅增加你的性高潮和改进你的性生活，此外，还有助于你的健康。原因如下：

1. 有助于预防宫颈感染及减轻或解除泌尿道感染，因为高潮收缩可以把病原菌排出体外。有助于减少男子的前列腺癌。

2. 心血管会更加健康，妇女的高潮越多（无论是否与伴侣在一起），对心脏病和2型糖尿病的抵抗能力就越强。

3. 释放抑郁和紧张

当性唤起时，身体内让人情绪高涨的多巴胺和肾上腺素水平增高，定期的性活动时间也有助于释放情绪的紧张。许多研究表明如果妇女对她们的性生活感到满意，她们会觉得自己的生活质量更高。

4. 盆底、盆底、盆底

获得强烈的性高潮无疑增强盆底肌肉的力量，强化这组肌肉不仅仅有助于可能的分娩，而且可以预防盆底功能缺陷，如尿失禁和内脏脱垂。

有力的盆底肌肉也可以使高潮更加强烈，也就是说存在一个生命里的高潮循环，你做得越多，得到的也越多。

5. 激素释放，搏击失眠

妇女达到高潮之后催产素和内啡肽的分泌增加，有助于身体的放松和平静，有助于夜间的良好睡眠。
青春就应该这样绽放游戏测试：三国时期谁是你最好的兄弟！！你不得不信的星座秘密

人类大脑无法同时做到善解人意又逻辑清晰

Fri, 04 Jan 2013 16:10:30 CST

脑部扫描显示同感区域和逻辑区域是相互排斥的

逻辑清晰VS善解人意

逻辑和情感一直被认为是两个相反的极端。让我们来想象一个分析型的CEO——他的行为符合获取盈利的原则，但是涉及到使用廉价劳动力或者解雇几百个员工的情况，就明显缺少了对这种行为带来的人际后果的考虑。我们所做的许多决定都是在难以两全的系统中纠结——这可能和我们大脑奇怪的工作方式有关。

一个最近发表在《神经成像》上的新的研究发现分开的神经通路交替的工作来进行同感或者逻辑分析的方式解决问题。这项研究可以类比于一个跷跷板。当你进行同感的活动时，用来逻辑分析的神经网络就被抑制了，反之亦然。

研究的主要作者之一，凯斯西储大学认知科学的助理教授安东尼•杰克（Anthony Jack），把这个研究的想法和视错觉联系在了一起。比如在一幅图中，你可能看到一只鸭子或者一只兔子，但是你没法同时看到两个动物。这种对眼见事物的限制是一种知觉竞争。Jack的新研究把这个概念拓展到了视觉范围之外，并且研究了大脑的运作过程。研究发现社交、情感问题的处理和逻辑分析的神经网络是分立的。

研究对45个大学生进行了脑部的磁共振成像，成像是在他们解决社会问题和物理问题的过程中进行的。核磁共振的图像结果显示大脑的会根据学生们处理问题的类型激发或停用相应的区域。

杰克表示，在这两种神经活动中找到平衡可以为神经精神障碍的治疗带来新的洞见，例如抑郁症和精神分裂。——“科学美国人”中文版《环球科学》http://www.huanqiukexue.com/html/newqqkj/newsm/2013/0104/22976.html

（环球科学梁宝坤）

原文链接：http://www.popsci.com/science/article/2012-11/humans-cant-be-empathetic-and-logical-same-time

青春就应该这样绽放游戏测试：三国时期谁是你最好的兄弟！！你不得不信的星座秘密

通过身边小事解释机器学习是什么？

Sun, 30 Dec 2012 14:40:58 CST

一个给不知道机器学习是什么东西的人讲的一个挺不错的例子，方法。

今天从 quora上看了一个问题：如何给不是CS的学生，给不知道机器学习和数据挖掘的学生，讲明白什么是机器学习和数据挖掘。

其中有个答案很不错，拿买芒果的例子来给大家解释。老师们也应该多用用类似的一些例子，启发下学生的思考。

===

买芒果

有一天，你想吃芒果了，你就到地边的小摊上去买芒果，小摊上有好多芒果啊，你可以自己用手挑芒果。跳完之后，摊主会给你称称，多少斤？根据重量来付钱。

买芒果嘛，你只要不是重口味或者口味独特，还是选择最甜的，熟透了的芒果。因为你是根据重量来付钱的，又不是根据甜的程度或者熟了的程度，虽然摊主有时候会把好的芒果挑出一堆来单独涨价，但是这里这个摊主没这么做。

你奶奶曾经告诉你说，买芒果要买金黄色的，黄橙橙黄灿灿的，这样的最甜，不要买那些浅黄色的，那些还没熟。

好吧，这样你就有了一点经验，虽然这点经验是别人直接教给你的：买芒果，就买金黄色的。你在小摊上，挑了些金黄色的，过磅付钱，回家。这事就这么完了？别急，下文。

生活没那么简单

你回家，高高兴兴吃芒果，但是你发现，并不是每个芒果都那么甜，有部分不甜啊。唉，老奶奶的经验还是不足啊，虽然吃的盐比我走的路多，但是只通过颜色判断芒果甜不甜，不是很靠谱。

你回忆回忆看看到底什么样子的芒果甜？好像是又大又金黄色的比较甜，那些小点的金黄色的芒果，得有一半是不甜的。（买了100个金黄色的芒果，有50个大的，都是甜的；另外有50个小的，其中有25个是不甜的。）

嗯，你总算总结出来一条经验规则了：大的金黄色的是最甜的，哈哈。你又高高兴兴的去买芒果。Shit，你熟悉的、你信得过的那个摊主走了。所以你得换一个小摊买芒果了，但是新的摊主的芒果是产自不同的地方，你之前总结的经验可能不行了，你不知道能不能迁移过去（transfer learning），于是你从头再开始尝试吧，发现这里小的，浅黄色的是最甜的！

一天，你表妹来找你玩，想吃芒果，但是她不在乎甜不甜，她喜欢吃多汁的。唉，以前的经验又不顶用了。你只能进行新的一轮实验，目标就是多汁的芒果（优化目标变了）。你又总结出，越软的越多汁。

你出国了读PhD，这里的芒果跟你家乡的差不太大了，这里绿色的最好吃。PhD毕业后，你结婚了，老婆不喜欢吃芒果，喜欢吃苹果。你积累的丰富的挑选芒果的经验规则都不行了，或许有些你可以transfer过去。你不得不从头再开始一轮一轮的实验尝试，看看苹果的一些特征跟好吃不好吃的关系如何？虽然这个过程很枯燥，但是你去做了，因为你爱她。

规则列表

你想把如何挑选芒果（苹果）的这些东西用程序实现出来，这样在电脑上，甚至用你的手机扫描一下，就能自动挑选出很多好吃的芒果。因为你积累了一些规则，可以这么实现：

if (color is bright yellow and size is big and sold by favorite vendor): mango is sweet.
if (soft): mango is juicy.
etc.

但是你想啊，这些规则越来越多的话，特征之间的组合啥的就越来越麻烦了，管理、使用都很麻烦。包括写程序实现啊，谁会笨到写这么多If Then。

机器学习

机器学习算法是普通算法的进化，更加聪明和自动。看如何把选芒果的问题定义成标准的机器学习问题吧。

随机的选择了一个市场上的芒果，作为要研究的目标（training data）。你可以用一个表格描述芒果属性和类型的关系，每一行可以放一个芒果的数据，包括芒果的物理属性（feature）:颜色、大小、形状、软硬度、产地，等等，还有这么芒果的类型（ output variables）：甜度、成熟度、多汁度。然后这就是一个多分类问题，或者回归问题，自动的从数据中学习出特征与芒果类型的各种关系等。

如果你用决策树算法，那么这个模型的样子就是你的规则库了；当然你可以使用其他模型，例如线性模型，这样就是特征的线性组合了。

下次你去市场，采集了一个芒果的各个指标特征，扔进你的模型，模型告诉你这个芒果是什么类型的？熟的？多汁的？

各种方法

甚至你的选择芒果的模型，稍微变化下就可以选择苹果了，迁移学习。

甚至你的模型会随着新的样本、新芒果种类进来后，变的越来越好，增量学习。

。。。。。

有点知道机器学习什么事了么？

您可能也喜欢：
第12届中国机器学习会议征文通知	Free Mind：机器学习物语(1)-世界观设定	[收藏]机器学习的几本书：list of cool machine learning books	R机器学习包	机器学习相关书籍
无觅

从数据到价值——创业团队应该关注的四个阶段

Fri, 03 Jan 2014 09:21:45 CST

COS编辑部按：本文作者为北京大学王汉生教授，文章面向光华MBA学生系统梳理了从数据到价值的理念。作者简介：王汉生教授现任狗熊会会长、 北京大学商务智能研究中心主任、 北京大学光华管理学院商务统计与经济计量系副系主任。现为 ISI, ASA, IMS, RSS, ICSA会士。

问题背景

这是一个最好的时代，移动互联网技术为从业者提供了无比丰富的数据。从人们的言行举止、社交关系、到地里位置无处不在。这些详细宝贵的数据，蕴含了巨大的价值！但是，这也是一个最坏的时代，面对汹涌而来的海量数据，绝大多数从业者却无可适从，无法从中发掘出有用的信息，难以实现从数据到价值的转换，这是何等的遗憾！如果这是一个从业者的遗憾，无需担忧，因为这是他的个人问题。谁让他不好好上一门王老师的《商务统计学》呢？嘿嘿:-) 如果这是两个从业者的遗憾，也可以高枕无忧，两个人没上《商务统计学》呗！但是，如果这是绝大多数人的遗憾，那么这就是整个行业和教育的遗憾，我们就需要检讨：这是怎么回事，问题出在哪个环节上？

如果尝试从媒体中寻找答案，那么五花八门。但是，背后的故事基本都是一样的。那就是需要一个爱因斯坦一样的天才，掌握着可乐配方一样神秘的算法，然后从一群垃圾都不如的数据中，产生了惊为天人的发现，造就了巨大的商业成功。人们管这样一群神奇的天才叫：数据科学家！“数据科学家”这个词汇是一个伟大的创举，它笼统地覆盖了计算机、管理科学、统计学、营销、经济学等众多学科。因此，每个学科都喜欢这个名词，都觉得和自己相关。但是，谁都给不出一个精确的定义。但是，这不重要，这不妨碍人们以各自的标准去寻找自己心中的那个“数据科学家”。因此，不少创业团队在创始初期，不惜血本，从拥有大量“数据科学家”的知名企业招揽人才。这些企业有哪些呢？谷歌系、阿里系、腾讯系、百度系等等。不管这批“数据科学家”在自己的专业方面是如何优秀（而事实上也确实极其优秀），他们是否会对这个新生的创业团队带来相应的价值？无论他们自己是创业者，还是创业团队的核心员工，还是普通员工，他们成功的概率几何？要让我赌一把，我一定是赌他：不成功（不一定失败，不成功的定义是其实际价值产出远远低于预期）。这里并不是看低这些优秀个体的个人能力。来自一个优秀企业的优秀员工，其自身在专业上的出色是毋庸置疑，值得尊敬，甚至崇拜的。但是，一个基本事实：这些优秀的员工在高端大气上档次的企业，如龙如虎，价值发挥淋漓尽致。但是，一旦到一个草根初期的创业团队，他们实现完全成功的概率极低。为什么？因为从企业到个人，都没有仔细思考过从数据到价值的过程，进而无法理解这些优秀的个体在各自的组织中，在当前这个创业阶段，可以起到什么样的作用。进而，对人对事都产生了错误的判断。

既然从数据到价值的转变那么重要，那我们一起尝试描绘一下这个过程：数据是如何演变成为价值的？我将其拆分成大概四个阶段。

阶段1：首先是数据的生产、采集、与整理的阶段

俗话说，巧妇难为无米之炊。没有数据，哪来的价值？对数据生产、采集、以及整理的需求催生了形态各异、内容丰富的信息技术。与其高度相关的是计算机技术的快速发展。例如：条形码技术的成熟产生了大量的超市扫描数据；企业ERP系统的广泛实施产生了详细的业务流程数据；商户CRM系统的成熟应用产生了大量客户的消费行为数据；地磁技术的应用产生了大量的交通路况监控数据；城市中铺天盖地的监控摄像头产生了海量的视频图像数据；GPS定位技术的发展产生了巨大的位置数据；以微博微信为代表的移动社交软件的普及产生了海量的文本以及社交关系网络数据。这是从数据到价值的第一个阶段。其意义在于，人类具备了详细刻画世界的能力。能够通过可存储的文档，详细记录个人以及社会的方方面面。什么是数据？凡是可以记录的就是数据。而以上所述的形态各异的记录都是数据！这是从数据到价值的一个基本起点。从这个角度就可以理解阿里巴巴对新浪微博的收购，可以理解为什么华为进军车联网领域。因此，在很多巨头的眼中，数据的生产、采集、与整理是一个具有战略意义的阶段。因此，是他们布局以及混战的重点。竞争惨烈！那么请问各位：你们是否一定要介入其中？这不是一个好回答的问题。

阶段2：定义和数据相关的业务问题

在数据生产、采集、与整理的基础上，人们开始思考：能从数据中挖掘什么价值。不过首先需要明确这个“价值”是为谁定义的？在大学科研机构中，价值是为研究学者定义的。而学者关注的价值，主要从科学兴趣的角度。只要是原创的，增进人们对自然世界、人类社会认知的，甚至纯粹有趣的，都可以称为“价值”。但是，本文关注的价值是面向企业的“价值”。面向企业的价值就不能以纯粹的“兴趣”为判断的标准，而要以企业的战略目标为标准，以企业的业务实践为标准，以企业的生存、营收、发展为标准。如果以这样的视角去看问题，你会发现：（1）市面上能够看到的和大数据相关的书，恐怕都是“兴趣”有余，“价值”不足；看得都很开心，但是细想对我的企业、我的业务有什么启发？很少！（2）对这些优秀的企业（例如：谷歌、脸谱、腾讯）有意义的“价值”很可能对我没有任何价值。也就是说，价值因企业不同而不同，因战略目标不同而不同。小心被高富帅带进沟里！（3）很多看似非常有意义的“价值”，但是在业务层面无法把成本控制在合理的范围内，无法通过用户友好的方式实现，继而也是没有“价值”。因此，什么是真正的面向企业的“价值”，不是非常容易定义。该定义受到：企业战略目标的影响，受到业务的限制，受到资源以及实现能力的约束。请问：这么复杂的一个问题，是不是“数据科学家”乐于思考的？可以思考的？在绝大多数情况下，他们不会思考，也无力思考这个问题。为什么？原因很简单：关我什么事情？你请我来做一个具体工作，我认真工作，然后拿工资回家。你这些“战略”问题，和我什么关系？你的公司第一天倒闭，我第二天换个工作就好了，反正这个世界非常缺乏“数据科学家”，我很好找工作的。这个刻薄有余的讽刺故事虽有点过分。但是也是想和创业者分享一个基本事实：从数据到价值的第二个阶段：定义和数据相关的业务问题，这是一个有关商业模式，或者业务模式的核心问题。只有企业的核心管理者，站在企业战略的高度，才可能关心该问题，才可能思考该问题。但是，能不能想得明白另说，而且目前看来，大概率想不明白。因此，永远不要有不切实际的幻想：请一个牛人，配备一个很牛的团队，然后一切就会翻天覆地的变化。清醒一下，不会的！这个翻天覆地的变化，应该怎么变，只有你才具备思考清楚的可能！

阶段3：数据挖掘与统计建模

如果我是一个车联网的管理者。我关心：从车联网的数据，能够产生什么价值？经过很痛苦的思考摸索，有一天我终于明白了，我需要建立一个从驾驶员的驾驶习惯到出险概率的关系。我希望通过深刻分析，产生对驾驶员有实际意义的指导，并通过用户友好的APP展示出来。我希望通过深刻分析，产生对保险公司定价有实际意义的指导，并通过风险评估的方式表达出来。那么，这个创业者顺利的完成了第二个过程。他清楚的知道：车联网数据里面到底要获得什么价值，是一个具体的从数据到业务的具体问题。在这个基础上，一个具备良好数据挖掘基础、统计学建模训练的专业团队，就可以接着往下干了。该团队可以通过尝试不同的、标准的统计分析方法、线型非线性模型去刻画该关系、预测驾驶员的出险可能性。因此，这是从数据到价值的第3个阶段。这个阶段是在清晰业务目的（第2阶段的产物）指导下的统计分析。如果没有第2个阶段清晰思考的指导，泛泛地告诉分析团队：我有车联网数据，请给我发现价值！大家可以设想，数据分析团队应该怎么做？能怎么做？所以，一个好的管理者，自己可以不懂数据分析，但是要有以下几点技能：（1）擅长做第2个阶段的工作，擅长于定义从数据到价值的具体业务问题；（2）擅长于督促鼓励自己的数据分析团队深刻理解业务。一个纯粹的统计分析或者数据挖掘团队是不可能做出好的成果的。设想一下，连业务都不理解的分析，能靠谱吗？常见的媒体常常把这一部分描绘得神乎其神。而我恰恰相反，我认为这是从数据到价值的转换过程中，最容易的一个环节。为什么？因为数据挖掘相关的计算机、信息技术、统计学专业是海内外各个大学现有的标准学科。也就是说：每年都有大量的人才产出。相应的统计分析模型也比比皆是。对绝大多数企业，能正确套用一个最普通的统计分析方法，往往效果就好的不得了。但是，如何做到正确套用？却需要在阶段2中把业务问题定义地清清楚楚！

阶段4：数据业务的实施

有了数据基础，想明白了从数据到价值的业务问题，也产生不错的统计分析模型。然后呢？然后就是业务的实施。有可能是一个新的业务流程，有可能是一个新的产品，有可能是一个新的算法。无论是什么，没有这临门一脚，前面的都白干了。业务的实施有无风险？有。有无成本？有。成本风险是否可以忽略？不好说。依赖于具体情境，非常不一样。我们常常乐道的，市面媒体中可以看到的大数据案例，如果把实施风险和成本考虑在内，估计很多都是没有价值的。我们能够看到的是，很多团队前面3步都做得很好，但是最后一步，或没有强有力的执行，或没有出类拔萃的产品设计，都功亏一篑。举一个具体的例子，很多朋友有网上银行账户，登录后可以实现查账、汇款、投资等多种业务行为。大家对各个银行的菜单界面设计感觉如何？我的感觉是：太专业了！我在过去至少10年里，一共用过不超过3种功能，但是我满眼看到的是几十个菜单选择。这背后是否可以有数据分析？看看人们的实际使用习惯是什么？这些习惯中的主要习惯是什么？如何把主要习惯和次要习惯平衡好？如何把这种平衡表达在产品的设计上，进而实现令人愉悦的用户体验？各位网上银行用户，我的体验你有相似的感受吗？这个问题分析相对简单，不就是看看人们的主要使用习惯吗。但是要完成最后的业务实施，难上加难！你发现我最常使用的功能是：查账和转账。请问：产品界面到底又应该如何改进呢？大家想想360的产品设计可以成为一个非常优秀的标杆。每天电脑开机告诉我：您的开机时间18秒，击败90%的同类型电脑。哇塞，我好厉害啊！于是，愉快的一天开始了。请问：这里面有什么了不起的分析？这些分析对错如何？鬼才知道。但是，360的产品设计，不服不行！

总结讨论

在以上4个阶段论的指导下，我们重新检讨一下自己企业在数据分析方面的实施情况。或成功，或不成功。人们常常把不成功归咎于：【阶段3】我没有人才啊！于是去谷歌、微软、腾讯、百度挖人才，达到预期了吗？；有时候会归咎于【阶段1】我没有数据啊！于是想做平台，做BD，做一切可以做的方法获得数据，然后呢？很少有人把自己的失败归咎于【阶段4】我没有出色的产品设计，没有流畅的业务流程，其实数据分析根本不在话下。更少数更少数的人，会把自己的不成功归咎于【阶段2】是我自己stupid，不懂得定义数据业务问题，手底下人没法干，大头苍蝇乱转！Guess What? 【阶段2】是我能看到的数据分析不成功的最典型的情形，是核心管理者自己不了解从数据到价值的转换过程，因此定义不出契合业务的数据问题。

这给商学院的教育带来什么启示？MBA的同学要认真学习《商务统计学》，尤其是王老师的《商务统计学》，呵呵！要深刻理解从数据到价值转换过程，能够准确清晰定义相关的业务问题。这才是MBA《商务统计学》学习的要旨！为此，要从三个方面努力：（1）深刻理解自己的业务，自己工作都不了解，做不好，啥能做好？（2）要拓宽视野，保持对数据源，尤其是新的数据源的敏感。具备一流的Vision！（3）要具备根据数据业务定义数据分析课题的能力，并根据该定义整合资源，最终实现从数据到价值的转换！

最后，请记住王老师的名言：“深刻理解业务，再会点回归分析，就可以搞倒一大片。”怎么不信？请试试看：-）

您可能也喜欢：
COS数据分析沙龙（北京）第9期纪要	数据科学家的崛起	COS数据分析沙龙（北京）第12期纪要	数据科学家访谈系列：黄帅	通知：首届全国大学生数据挖掘邀请赛
无觅

中国教育科学研究院：小学生家庭教育现状调查

Fri, 14 Nov 2014 23:19:44 CST

　　近日，中国教育科学研究院《小学生家庭教育现状调查》课题组对北京、黑龙江、江西和山东四省市（每一省份选取不同行政级别的市、县）2万名家长和2万名小学生分别进行了家庭教育相关问题的调查。

本次调查将家庭教育中的影响因素划分为显性因素（主要包括物质经济类有形的、可量化的投入）和隐性因素（包括家庭氛围、亲子关系和家庭文化娱乐行为等无形的、不易量化的，但会间接反作用于小学生学业的因素）。

　　调查结果反映出目前小学生家庭教育的一些新特点和新问题：

　　家长对子女优先关注现实性因素，对发展性因素的关注度较低

家长的教育关注点能直接反映其教育态度和期望。调查发现，家长现阶段最关心孩子的方面从高到低依次为：健康安全（65.95%）、习惯养成（55.47%）、日常学习（53.58%）、人际交往（37.89%）、自理能力（33.75%）、性格养成（28.09%）、兴趣爱好（19.47%）、情绪情感（11.93%）。综合来看，健康安全、日常学习都属于现实性因素，家长对这两项关注度较高，而除去习惯养成排在第二位之外，家长对于人际交往、自理能力、性格养成、兴趣爱好、情绪情感等关乎子女未来成长的发展性因素关注度较低。可见，家庭教育立足点仍旧将子女“成才”置于首位，而对子女“成人”这一教育的终极目标较为忽视。

　　学生减负并未减压，学习仍是家庭教育重中之重

近六成学生对学习感到不同程度的“累”，且该数据随年级增高而直线上升。家长方面，尽管有35.27%的家长认为子女学业负担较重，但仍将学习作为家庭教育的重点，超过81.50%的学生放学后仍有不同程度的（课外班或家长布置的）额外作业，亲子沟通中也有近五成家庭将学习作为主要话题。由此，子女学业成绩的好坏直接影响到家长对其的教育方式：成绩好的学生能获得更多自主权，亲子沟通更融洽；成绩较差的学生则受到更多的约束，其情绪情感需求也易被家长忽视。

　　成绩成为家长对自身和配偶评价的重要标尺

在家长的自我评价中，子女成绩优秀的家长认为自己在家庭教育方面做得“很好”的为34.91%，子女成绩较差的家长仅为5.12%；认为自己在家庭教育方面做得较差的家长中，子女成绩好的家长比例仅为2.96%，子女成绩差的家长则高达33.69%。在家长对配偶的评价中，子女成绩越好，家长对配偶的评价越高：子女成绩优秀的家长认为配偶非常合格的为37.59%，比子女成绩较差的学生家长高4.85%，反之亦然。可见，这种以“学习”为标尺的评价方式，无疑会影响家长在家庭教育方面的判断力和自信度，甚至引发夫妻矛盾。

　　“人机时间”过多，家庭文化娱乐氛围不足

小学生家长回家后主要的娱乐活动为“看电视、玩电脑或手机”的高达45.63%，“人机对话”大量挤占了亲子互动时间。与此同时，家庭文化娱乐活动则远远不足，“经常组织家庭娱乐活动”的家庭仅占17.92%。学生回家后几乎没有户外活动和阅读时间的比例分别为40.03%和17.81%，超过1小时的分别为14.44%和13.18%，且这一现象随学生年级升高有所加剧，对建立亲密的亲子关系和营造良好的家庭文化氛围造成了不利影响。

　母亲在家庭性教育中扮演重要角色，且女生比男生接受性教育更为充分

尽管当下社会对涉“性”话题有所开放，但家长对子女进行性教育时，“说什么”、“如何说”仍然存在观念和能力上的双重阻碍。调查显示，超过七成的家长曾对子女进行过不同程度的性教育，但内容多集中于性别教育和性器官卫生保健，对防范性骚扰、生命教育等较少涉及。而阻碍家庭性教育的主要原因，一方面是家长的性教育能力不足（50.60%），对性教育的教授内容和方法均缺乏认知；另一方面则与态度保守有关（26.36%）。此外，家庭性教育还呈现出两大性别特点：一是母亲受教育程度相关度较高，在家庭性教育的作用比父亲更为重要；二是从接受性教育的广度和深度看，女生比男生得到家长重视的比例更高，尤其在“防范性骚扰”方面差异尤为明显。

学前班课外班都没多大用

调查发现，近三成家庭感觉教育支出负担过重，逾五成家庭仅“刚好能承受”教育支出压力，课外班等显性学业支持投入过度，性价比较低。

　　学前班没给孩子带来任何学业优势

在“幼儿园小学化”被明令禁止后，出现在幼小衔接交叉路口的学前班，能否让孩子在小学低年级出现短暂的学业优势呢？本次调查中有高达八成的小学生入学前都上过学前班，但成绩优秀的小学生中，“没上过学前班”的比“上过学前班”的孩子多10.89%，在成绩较差的小学生中，上过学前班的比没上过的多大约10%左右。可见，学前班不仅不能帮助小学生在学习早期赢得任何学业优势，而且也不能对其小学阶段的学业产生积极作用。

显然，这种让孩子提前脱离幼儿园、过早小学化的学业支持，看似先行一步，实际意义不大。从某种程度上讲，反而因为使孩子过早接触学科知识，学习与之生理、心理发展特点不符合的过难学习内容而引发其挫败感，降低孩子学习的自信心和兴趣。访谈中还发现，家长们一致有“学前班毕竟不是正规小学教育”的想法，所以一开始就弱化了培养孩子良好学习意识和习惯的想法，自身也未能适应孩子角色的转变，不知如何进行学业辅导和支持。以上种种原因，都使上过学前班的孩子进入小学后，反而会有学业上的倦怠和松懈。

　　择校的效果令人失望

家长的择校动机源于对优质教育资源的追求，希望让子女享有更优质的教育资源，获得学业上的长足动力与支持。但是，择校到底能不能提高小学生学业水平？本次调查通过对比“择校生”和“就近入学”小学生的学业情况，发现择校生中成绩优秀的学生为29.95%，就近入学学生中成绩优秀的为28.48%，二者相差甚微；同样，在良好、中等和较差等其他学业水平中，二者的数据也较为接近。可见，择校并不能让成绩优秀或良好的小学生比例因此升高，并不能给家长带来期待中的效果。

　　课外班与课外作业并不能提升孩子的成绩

现今的教育市场上各种儿童兴趣班、补习班五花八门。访谈发现，家长给孩子报班的目的，无论是短期提高学习兴趣和能力，还是觉得对子女未来发展有好处，都对课外班抱有提升孩子学习成绩的期望。本次调查显示，近九成小学生都在上“班”。成绩优秀的学生中，有63.82%的参加了课外班；成绩较差的学生中，更有高达93.95%都参加了课外班。由此看来，学习成绩欠佳的小学生是报课外班的主力，而在课外班上耗费的大量金钱、精力和宝贵时间是否能扭转“学习成绩较差”现状，还需进一步关注。

课外班的作业能否促进小学生的学业表现呢？调查中表示有课外班作业的小学生高达81.50%。其中，79.08%成绩优秀的小学生和91.79%的成绩较差的学生每日都会有课外班作业。访谈中问及家长“作业对孩子成绩的提高有作用吗？”受访的10位家长中有7位觉得“作用有限”，有1位觉得“应该有作用”，另外2位表示“没感觉”。而这10位家长的子女却一致认为“不知道”、“说不清楚”。这在一定程度上表明，额外作业时间与小学生学业水平之间并没有直接关系，更多的作业时间并不一定带来更好的学习成绩。

正如美国家庭作业问题专家威斯顿、奥斯古德和凯所说，学生家庭作业的时间与学习成绩呈曲线关系，即当作业时间达到最佳时间点时，学生成绩最好，一旦超过这个时间成绩会下降。库伯也曾指出，家庭作业时间所产生的效果与学生年龄密切相关，低年龄段（小学中低年级）孩子家庭作业时间与学习成绩的相关性几乎为零。由此看来，给孩子布置额外作业的效用确实有待斟酌。

总之，学前班教育、择校行为、课外班学习或者课外作业，这三项小学阶段最为常见的家庭教育行为，并不能换来小学生学习上的优势和理想的学业成就。可以说，此类投入性价比较低，不仅不能带来合理的收益，反而存在投入过度造成的负面效应，如孩子学习兴趣和自信心的减弱，重复学习带来的倦怠、注意力涣散等不良学习习惯，过度、过早学习让孩子身心俱疲，易产生厌学、逆反等不良心态等，这都会在基础教育阶段给个体带来难以预计、不可估量的消极影响。

您可能也喜欢的文章：
腾讯：2014年中国在线教育研究报告	中国智慧教育体系发展趋势如何？	腾讯：2014年中国在线职业教育研究国企和公务员成主力	腾讯：2014年在线教育研究报告之考研公考	美国投行Jefferies：中国教育行业研究报告
无觅

谈谈药物对性功能的影响

Wed, 14 Nov 2012 11:08:09 CST

应该说，凡是药物就不可避免地存在某些不良反应，哪怕是所谓的补药也好。目前，医疗实践中使用的药物越来越多，层出不穷，让人眼花缭乱，不论品种和剂量都有日益增加的趋势。因此，在临床用药之前，必须对一种药物的药效和不良反应进行全面分析，权衡利弊，合理用药。

有史以来，人们一直试图寻找治疗性功能障碍的性兴奋剂，但至今只有伟哥类的西地那非那几个药物获得成功，而且还是“无心栽柳柳成荫”的意外之喜。相反，临床上却发现了一个又一个的可能导致两性性欲低减和性功能障碍的药物，它们往往会给患者带来暂时性或永久性的精神与肉体上的极大痛苦。光是能造成ED的药物就达40多种，如能及时认识和发现这一问题，更换药物或采取其他措施就可能使性功能得到改善。

药物引起性功能障碍的机制很复杂，许多机制尚不明确，但其中更常见的是影响中枢神经调节和激素的分泌与代谢。不良反应因人、因时、因剂量而异，除去药物本身的因素外，还受吸收率、代谢率、排泄率、药物相互作用、机体遗传素质等因素的影响。作为医生要熟知药物的性能，防止药物的不良影响；作为患者要了解一些基本概念和必要的知识，有助于自己及时发现问题，并尽早向医生说明性功能的改变，以便提供医生用药时参考。

影响性功能的药物包括下面几类：

一、激素类药物

(1)雌激素：临床上曾经常见的是用雌激素类药物治疗良性前列腺增生症，这些患者不仅会发生男性乳房增生、胡须生长减少及减慢，而且还会出现性欲减退、ED、射精障碍、精液量减少等明显的副作用。

(2)肾上腺皮质激素：如地塞米松等药物是临床应用极广的药物，即使在男科学领域也能找到它们的用武之地，如治疗具有抗精子抗体的免疫性不育症，但当每天用药量达20毫克时，即可出现性功能障碍症状。长期服用这类药物还有可能诱发糖尿病、高血压、肥胖，这些病本身可影响性功能，由这些病带来的精神抑郁也能继发性影响到男性性功能。

(3)睾酮：睾酮曾作为能“返老还童”的性激素而风靡一时，但是大量外来的睾酮抑制了垂体和睾丸的内分泌功能，使内源性睾酮分泌减少，特别是那些心因性ED患者本来就不缺少睾酮，用药后反而干扰了正常代谢和内分泌功能。

(4)利尿药安替舒通是一种醛固酮对抗药，它能抑制睾酮合成酶的活性，使睾酮合成减少，血中水平下降，所以它是一个抗雄激素类药物。它能使22%的男性出现性欲减退。若每日服用量不超过100毫克，对性功能影响较少。

(5)环丙氯地孕酮是人工合成的具有抗雄激素活性的甾体化合物，用药1周左右即可见性欲减退、阴茎勃起不坚、ED等问题，欧洲利用该药的这些特性治疗性罪犯，使其变成药效而不再是不良反应了。

二、利尿药

美国进行的一项治疗轻度高血压的大规模研究证实，性功能障碍发病率明显高于其他各组。其他治疗精神病和抗抑郁等药物也可能引起性欲低下和ED。利尿药使体内钾丢失、血钾浓度下降、神经肌肉敏感性降低、血管平滑肌松弛，可导致阴茎勃起减弱。

三、降压药

降压药大概是影响男性性功能的最常见的药物了，服降压药的病人可有25%的ED，而不服药的健康人中只有7%的ED。此外，服降压药者中有25%的人出现射精障碍，而健康人则很难见到这类症状。利血平等会破坏神经轴索中的某类物质，从而使病人发生抑郁状态，并进而影响病人的性要求或出现勃起困难，胍乙啶直接对抗交感神经的作用，所以常常导致ED和射精困难。可乐宁一方面有抗交感神经作用，一方面又能引起抑郁状态，因此容易导致性功能障碍。长期服用心得安后可因阻断β肾上腺素能神经活性而使阴茎海绵体血管收缩，血流减少，最终导致ED。

四、镇静药

大剂量安定直接对大脑边缘系统有特异作用，直接降低或增强性欲和性功能。安定等有肌肉松弛作用，通过脊髓传出神经可致性欲减退和阳痿。这类药物还有利眠宁、巴比妥和安眠酮等。

五、抗精神病药物

有些药物使精囊括约肌麻痹，射精能力衰退，有些药物可导致睾酮水平下降、精子生成障碍。三环类抗抑郁药可提高抑郁症病人情绪，同时随着病情改善，病人会对性活动提高兴趣。以治疗精神分裂症等病为主的抗精神病药物如氯丙嗪、奋乃静、甲硫达嗪等具有对抗α肾上腺素能神经的作用，能抑制阴茎海绵体充血和排精过程使病人发生阳痿和射精困难，其中甲硫达嗪所致性功能障碍的发病率可高达60%，而其他药物大概在25%左右。氟哌啶醇和五氟利多等没有对抗交感神经的作用，所以难得引起性功能障碍，但其明显的镇静作用可降低患者的性要求。

抗抑郁药阿米替林、氯丙咪嗪和多虑平等能抑制α肾上腺素能神经的作用，使阴茎海绵体的充血消退延缓和推迟，故有人以此治疗早泄，效果颇佳。但长期大量服用所致的血管普遍收缩也会使阴茎勃起无力，最终可能导致阳痿，所幸这样的治疗不会持之以恒的。

六、嗜好品或毒品

(1)大麻：有关大麻对性功能的影响问题一直存在争议，有人认为能增加性感和性交能力；有人则持相反意见，认为使用大麻后具有降低血睾酮水平、发生ED及精子生成障碍的可能性，关键是剂量和时间。

(2)海洛因：经常吸海洛因和美散痛的男性，血清睾酮和垂体促性腺激素水平常下降，大多数有性欲抑制、射精延迟，还有很多人可出现ED。海洛因同样影响女性性欲，并可造成闭经、不育、溢乳等不良反应。

(3)酒精：68%的女性和45%的男性认为适量的酒精会降低个体平时的性抑制状态，克服性行为焦虑或内疚，使感觉松弛，增强性欲，所谓“酒为色媒人”、“酒为色之胆”即反映了这种情形。但是，若过量饮酒时，酒精可以抑制中枢神经系统，干扰性冲动刺激反射传递途径，抑制勃起，甚至降低年轻男性血睾酮和黄体生成素水平。当然，如果喝醉酒就根本谈不上进行性行为了。长期酗酒致慢性酒精中毒者，约有一半的男性和1/4的女性有性功能障碍。除此之外，若借酒助兴，醉以入房，久战不酣，对男女双方都有伤害。所以决不能以酒做催情药物。

(4)茶、咖啡、可可：这些饮料均具有一定的对中枢神经系统的兴奋作用，故认为它们能提高人对性刺激的感受力。

青春就应该这样绽放游戏测试：三国时期谁是你最好的兄弟！！你不得不信的星座秘密

年度调查发现女性性的新趋势

Mon, 10 Dec 2012 09:57:20 CST

瑞典 Lelo 公司对 8 个国家的万名以上的女性进行性调查，结果表明女性对性有着进一步的需求并寻求更多的变化。以下的信息可能让最开放最努力的男性都感到脸红。 76% 的人认为应该更加明确地告诉伴侣自己对性的需求； 55% 的人认为当她们主动时伴侣是否感到享受； 47% 在前戏和性交时尝试过捆绑； 43% 为了增加情趣而使用过鞭打游戏。

调查表明她们拥有更多的前戏，更多的性。她们比前一年付出更多的努力：前戏时间比前一年平均延长 15 分钟；每周要有性交 3 次；过去只有四分之一玩角色扮演，现在达到四分之三；过去每次性生活只是 采用1 种体位，现在是 3 种。

现在拥有更多的冒险精神：性生活的地点发生很大变化，如上班时间（ 11% ）、办公室（ 22% ）、汽车里（ 73% ）、野外（ 36% ）、飞机上（ 3% ）。

对性的表达更加明确、直率： 49% 的人在性活动时让伴侣录音留存； 73% 的人享受电话性爱； 71% 给伴侣发过荤段子短信； 42% 与伴侣在手机通话时分享亲昵的满足。

尽管美国有 60% 的家庭使用性玩具，但是 Lelo 的销售记录表明：阴道哑铃的销售量增加了 4 倍，夫妻使用的振荡器增加 2 倍；手铐增加 1 倍；眼罩增加 80% ；鞭子增加 30% ；性角色表演贴身内衣裤增加 34% 。

青春就应该这样绽放游戏测试：三国时期谁是你最好的兄弟！！你不得不信的星座秘密

大脑扫描器可阅读人类梦境看到动态梦境内容

Sun, 30 Oct 2011 10:33:37 CST

据英国每日邮报报道，通常多数人仅能回忆起睡梦中的片断内容，但目前科学家最新研制的新型装置或将完全复制人们的梦境。科学家预测我们不久便能使用计算机“看到”自己的梦境内容，甚至人们还能将昨天的梦境复制出来进行观看。德国慕尼黑市马克斯-普朗克协会物理学家表示，他们已证实新型大脑扫描器能够看到神智清晰造梦者的梦境。

俄罗斯方块可以永无止境地玩下去吗？

Sun, 30 Oct 2011 08:10:50 CST

大家在玩俄罗斯方块的时候有没有想过这样一个问题：如果玩家足够牛B的话，是不是永远也不可能玩死？换句话说，假设你是万恶的游戏机，你打算害死你面前的玩家；你知道任意时刻游戏的状态，并可以有针对性地给出一些明显不合适的方块，尽量迫使玩家面对最坏情况。那么，你有没有一种算法能保证害死玩家，或者玩家无论如何都存在一种必胜策略呢？

[小红猪]吸引力的心理学：用科学方法调情

Thu, 03 Nov 2011 10:00:28 CST

译者：Kiracus

译者自我简介：愿望是保持好奇心…的自然科学兴趣者一名，科技文翻译练习中。…太容易被自己奇怪的语序绕进去了。

校对：伏维阁主

小红花等级：3.5

原文: The Psychology of Attraction: How To Flirt With Science

原文作者：山姆•迈克纳尼（Sam McNerney）

最近有很多关于研究吸引力的文章，我打算从中挑选一些我最中意的研究做一个简单的介绍。这些研究讨论的都是潜意识中影响吸引力的某些东西，所以你可以借此提前斟酌一下你的搭讪用句——这可都是科学。请牢记以下四点，以备不时之需。

1. 约会之前，先激动起来

第一点是心理学界的一条经典。让我们回到20世纪70年代，当时两位心理学家唐纳德·达顿（Donald Dutton）和阿瑟·阿伦（Arthur Aron）提出了这样的疑问：“性吸引力是否会随着强烈情绪的产生而频率增加？”为了得到答案，他们设置了两组实验。其中一组实验由一位漂亮的女调查员在危险的吊桥上进行，而另一组则在并不危险的矮桥上进行。两组实验的内容是一样的。当男性受试者走过桥的时候，他们被要求：1) 完成一份问卷；2) 根据一张遮住脸部的女性照片编一个故事。另外，这位女调查员告诉受试者们可以在当天晚些时候打电话来提问，并给了他们自己的电话号码。

达顿和阿伦发现从危险吊桥上经过的受试者有50%拨打了女调查员的电话，而从矮桥上经过的受试者中这个比例只有12.5%。此外，与后一组相比，前一组受试者所编的故事中也带有更多的情爱色彩。因此，如果你觉得与你的心仪对象交谈太令人紧张，不如先试着找点事情刺激刺激自己的神经。

2. 咖啡还是冰激凌

第二点来自耶鲁大学心理学教授约翰·巴奇（John Bargh），他是研究启动效应的专家。“启动”是指一种内隐记忆效应，它是指由于之前受到某一刺激或者某一刺激物的影响而使得之后对同样的刺激或刺激物产生回应的现象。(例如你做了一份选择题测试，而题目中包含了使人联想到“年老”的词——例如“佛罗里达”（佛罗里达州的人口老龄化很严重——注），“灰色”和“虚弱的”——你很可能会比在答完一份不包含这些词汇的题目之后，行动更加缓慢。在一个几年前进行的实验中，巴奇让两组受试者分别拿着热饮和冷饮，对陌生人做出性格评估。测试结果显示，手握热饮的受试者会认为陌生人的性格比较热情，而拿着冷饮的受试者则认为陌生人性格冷淡。所以下次约会的时候和她或者他一起来杯热咖啡吧，就别去吃冰激凌了。

3. 月经周期来捣乱

第三点我几个月之前在博客介绍过，基本上可以归结为这样：男性可以在潜意识中判断出某女性处于月经期间，并对她失去兴趣。不同意吗？我们来看看实验记录。2006年的一个研究中，来自捷克的研究者们发现男性可以通过气味辨别在月经期间的女性。他们请12名女性在腋下放置棉垫24小时以获得气味样本。之后，让男性受试者嗅棉垫的气味并标记气味的强度以及吸引力。结果表明处于卵泡期（即受孕期）的女性的体味最清淡最具吸引力，反之亦然。此外一项今年一月份的调查显示，“男人和女人在观察女子面部特写照片的时候，会认为卵泡期女子的照片比黄体期的看上去更有魅力。”换句话说，即将排卵的女性最受到青睐。因此各位女士，出门前记住男士们是可以闻出生理期的。而男士们，如果你觉得那个她正合心意但是好像稍稍有什么地方“不对劲”，那就等几天再碰运气吧。

4. 置身于女士们中间

第四点来自德克萨斯大学奥斯汀分校的心理学家萨拉·E·希尔（Sarah E. Hill）和大卫·M·巴斯（David M. Buss）的研究。他们发现，相比独自一人或与其他男性在一起的男性，有女性相伴的男性被女受试者认为更吸引人（这是一种吸引力的放大效应）。与之形成鲜明对比的是，男受试者对有异性相伴的女性评价却不如对单独或是有同性相伴的女性高。那么如何利用上这一点呢？如果你是一名女士，待在一群女士中间；如果你是一名男士，也待在一群女士中间。够简单了。

可以说，吸引力的科学很简单：一切的目的，都是要传递我们的基因。除此之外，谁知道还有什么呢？我在这里列出的几点仅仅是皮毛而已。心理学家们至少还需要几十年才有可能初步了解吸引力。而现在至少记住这四点就可以了：1) 调情之前刺激一下自己的情绪。没有吊桥可走的话就找一个同样能让你心跳不已的方法；2) 身体的温暖容易使人感觉到性格上的温暖；3) 注意女性生理周期无意中对吸引力造成的影响；4) 与你相伴而行的朋友也会影响到你的魅力。

前面的介绍中已提到过，这些发现描述的都是潜意识的行为，所以，你只能控制其中的一部分。不过既然你已经对它们有所了解，不妨对其加以妥善运用，展示你的独特魅力。

Williams, L., & Bargh, J. (2008). Experiencing Physical Warmth Promotes Interpersonal Warmth Science, 322 (5901), 606-607 DOI: 10.1126/science.1162548

Dutton, D., & Aron, A. (1974). Some evidence for heightened sexual attraction under conditions of high anxiety. Journal of Personality and Social Psychology, 30 (4), 510-517 DOI: 10.1037/h0037031

Havlicek, J., Dvorakova, R., Bartos, L., & Flegr, J. (2006). Non-Advertized does not Mean Concealed: Body Odour Changes across the Human Menstrual Cycle Ethology, 112 (1), 81-90 DOI: 10.1111/j.1439-0310.2006.01125.x

Roberts, S., Havlicek, J., Flegr, J., Hruskova, M., Little, A., Jones, B., Perrett, D., & Petrie, M. (2004). Female facial attractiveness increases during the fertile phase of the menstrual cycle Proceedings of the Royal Society B: Biological Sciences, 271 (Suppl_5) DOI: 10.1098/rsbl.2004.0174

Hill, S., & Buss, D. (2008). The Mere Presence of Opposite-Sex Others on Judgments of Sexual and Romantic Desirability: Opposite Effects for Men and Women Personality and Social Psychology Bulletin, 34 (5), 635-647 DOI: 10.1177/0146167207313728

真相只有一个

Fri, 11 Nov 2011 11:11:33 CST

原作：SMBC
汉化：游识猷

为什么要保护大熊猫？

Wed, 09 Nov 2011 11:51:26 CST

答案一，大熊猫可爱。

真的是这样吗？我前几天去了趟四川省峨边彝族自治县黑竹沟保护区，那里的村民告诉我，大熊猫每年冬天都会下山抓羊吃，还会翻垃圾堆找猪骨头啃。野生的大熊猫也不咋地，不但掌握了一边吃饭一边拉屎的神功，甚至还会一边睡觉一边拉屎！这么个邋遢鬼你还觉得它可爱吗？

（上图为大熊猫粪便，闻上去有淡淡的清香。）

答案二，大熊猫是濒危动物。

这在几十年前当然是没错的，但是有人说，目前野生大熊猫约为1600只，已经不那么濒危了，不用再花大力气保护了。可他们不知道的是，大熊猫仍然面临很多危险，比如竹子大面积开花导致大熊猫断粮。这事过去也经常发生，但大熊猫可以搬到别的地方找没开花的竹子吃。现在低海拔的地方都被人类占了，大熊猫基本上都被赶上了山，很难再迁徙了。再比如，目前的野生大熊猫被人为地分割成了18个种群，种群内的近亲交配现象非常严重，部分种群面临着灭绝的风险。

（上图为黑竹沟保护区巡护人员，彝族人李时黑布，他们每年都要巡山几十次，密切监视大熊猫的生存状况。）

答案三，大熊猫是生态群落的指标动物。

这是很多环保人士挂在嘴边的理由，但你想过没有，大熊猫为什么是指标动物？大猫熊的生存状况为什么能够作为衡量一个生态系统好坏的标准？这里面有大学问。

答案四，大熊猫要保护，但圈养在卧龙保护区就行了，因为大熊猫离开人类就没办法生活，放出去太危险。

这也是很多人的真实想法，我只想说一点：大熊猫已经在长江中上游地区生活了几百万年，比人类的历史要长得多，大熊猫不是离开人就没办法生活，而是正相反，没了人会生活得更好。

答案五，大熊猫可以先在卧龙人工繁殖，然后再择机野化。

估计有不少人想过这个办法，但大熊猫是巢域动物，野生大熊猫应该是怕人的，这两条决定了大熊猫野化将非常困难，得不偿失。

答案六，大熊猫与人争地，当然应该先保护人民群众的利益，再考虑大熊猫。

这话对，但为什么不能两全呢？世界自然基金会（WWF）正在做的替代生计项目就是一个很好的例子。而且，随着经济的发展，也许再过几年当地人就主动把山林让给大熊猫了。

如果你想知道更多的细节，请关注本周出版的三联生活周刊，封面是温州钱史）

————————

每周一歌：彝族老大爷弹奏二弦琴，弹着弹着红歌旋律就出来了：

中国的乡村，其实是左右并存的，任何一方的话都不能信。

IT瘾科学推荐

本科生，正在成为求职市场最尴尬的存在

女生最后悔读的专业，在工科

开发 mRNA 疫苗的科学家

用Python进行时间序列预测的7种方法

数据准备

方法1：朴素法

方法2：简单平均法

方法3：移动平均法

方法4：简单指数平滑法

方法5：霍尔特(Holt)线性趋势法

方法6：Holt-Winters季节性预测模型

方法7：自回归移动平均模型（ARIMA）

后话

使用Python进行相关性分析

聚类算法之DBSCAN

DBSCAN算法原理

DBSCAN算法流程

DBSCAN的参数选择

Scikit-learn中的DBSCAN的使用

DBSCAN优缺点总结

用 ASUS Merlin 路由器 VPN 科学上网

准备

首先，你应该对英文读写没什么问题

然后，你需要一个VPN

最后，你需要一台ASUS的路由器

路由器设置

给路由器刷 merlin 固件

连接 VPN

设置路由

下载路由表

下载动态DNS配置

运行命令生效

检查

已知问题

QUIC 的问题

KDNuggets：数据科学家使用工具调查

致国产伟哥的潜在受益者

[v]白光LED也有黑暗的一面

芝加哥警方使用电脑预测犯罪

你被计算机列入了‘热名单’

项目起源

隐私问题？！

福特首席数据科学家谈三点大数据经验

七个用于数据科学(data science)的命令行工具

1. jq – sed for JSON

2. json2csv – 把JSON转换成CSV

3. csvkit – 转换和使用CSV的套装

4. scrape – 用XPath和CSS选择器进行HTML信息提取的工具

5. xml2json – 把XML转换成JSON

6. sample – 用来debug

7. Rio – 在处理中加入R

相关文章

推介：20个让你“性”趣盎然的有关性的事实

这里推介的是一些客观观察到的现象，，不一定是具有代表性，也不一定是权威性的结论，姑且听之吧。

译者：译言网 销魂的小馄饨

IT屌丝如何成为数据科学家？

打造顶级大数据团队的几个偏方

病毒性肝炎病与性

如何快速学习一门语言

简要说明自慰（手淫）的好处

人类大脑无法同时做到善解人意又逻辑清晰

通过身边小事解释机器学习是什么？

买芒果

相关文章

从数据到价值——创业团队应该关注的四个阶段

问题背景

阶段1：首先是数据的生产、采集、与整理的阶段

阶段2：定义和数据相关的业务问题

阶段3：数据挖掘与统计建模

阶段4：数据业务的实施

总结讨论

中国教育科学研究院：小学生家庭教育现状调查

谈谈药物对性功能的影响

年度调查发现女性性的新趋势

大脑扫描器可阅读人类梦境 看到动态梦境内容

俄罗斯方块可以永无止境地玩下去吗？

[小红猪]吸引力的心理学：用科学方法调情

1. 约会之前，先激动起来

2. 咖啡还是冰激凌

译者：译言网销魂的小馄饨

大脑扫描器可阅读人类梦境看到动态梦境内容