在真实数据集上的随机森林模型参数调优 - 简书

- -

搞机器学习的人，都会有自己偏爱的某种算法，有的喜欢支持向量机（SVM），因为它公式表达的优雅和可利用方法实现的高质量；有的人喜欢决策树，因为它的简洁性和解释能力；还有人对神经网络非常痴狂，因为它解决问题的灵活性（一般在超大规模的数据集上，使用神经网络，效果会好于其他所有的机器学习算法）. 但是就我本人而言，我最喜欢的算法是随机森林，理由如下：.

使用python训练随机森林模型辨别可疑流量

- -

通过数据分析辨别可疑和虚假流量的方法我们在之前的文章中曾经介绍过. 本篇文章我们对这个方法进行自动化，介绍如何通过随机森林分类预测模型对流量进行分类，从中发现可疑流量的影子. 需要特殊说明的是本篇文章中的数据并非真实数据，我们只使用三个简单用户行为特征指标对方法和过程进行说明. 随机森林是一个包含多颗决策树的分类预测算法.

一个3000万日活跃用户App的真实数据

- - 鲁塔弗的博客

前天和朋友聊了一会,他担任某App的技术负责人,得到一些数据如下. 日活跃用户3000万(DAU是按单天计算),其中Android用户和ios用户的比例是9:1,这个比例有点惊人. 说明业内软文水分太大,很多宣称ios有上千万用户的都是吹牛b. ios获取用户成本太高,简单折算用户获取成本是android用户成本的9倍,特别是免费应用,地主家都也没有余粮,大家都不敢怎么砸钱.

数据仓库

- Ran - Linux@SOHU

翻译：马少兵、曾怀东、朱翊然、林业. 尽管服务器存储、处理能力得到有效的提高，以及服务器价格的降低，让人们能够负担起大量的服务器，但是商业软件应用和监控工具快速的增加，还是使得人们被大量的数据所困扰. 在数据仓库领域中的许多系统管理员、应用开发者，以及初级数据库管理员发现，他们正在处理“海量数据”-不管你准备与否-都会有好多不熟悉的术语，概念或工具.

数据抽取

- - 数据库 - ITeye博客

转自： http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%8A%BD%E5%8F%96#. 　　数据抽取是指从源数据源系统抽取目的数据源系统需要的. 实际应用中，数据源较多采用的是. 数据迁移或数据复制，它将数据源中的表或视图的数据原封不动的从数据库中抽取出来，并转换成自己的ETL 工具可以识别的格式.

数据库sharding

- - 数据库 - ITeye博客

当团队决定自行实现sharding的时候，DAO层可能是嵌入sharding逻辑的首选位置，因为在这个层面上，每一个DAO的方法都明确地知道需要访问的数据表以及查询参数，借助这些信息可以直接定位到目标shard上，而不必像框架那样需要对SQL进行解析然后再依据配置的规则进行路由. 另一个优势是不会受ORM框架的制约.

数据脱敏

- - IT瘾-bigdata

作者|李呈祥，其中部分内容由十一城补充. 数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形. 百度百科对数据脱敏的定义为：指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护. 这样，就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集.

所谓舆论真实版

- yu - 天朝娱乐 | 每天开心一下！

感谢天朝临时工投递给天朝娱乐. 拿破仑进军巴黎时，一家报纸在几天内所用的标题：第一天：“科西嘉的怪物在儒安港登陆”；第二天：“吃人的魔鬼向格腊斯前进”；第三天：“篡位者进入格勒诺布尔”；第四天：“波拿巴占领里昂”；第五天：“拿破仑接近枫丹白露”；第六天：“陛下将于今日抵达自己的忠实的巴黎”. 王琳：无舆论压力即无司法公正更可怕.

战略：真实性检验

- 貝殼 - 互联网的那点事

在我过去十几年的代理商生涯中，我有幸和很多非常棒的战略师们共同工作过. 与来自不同背景的人工作是非常有价值的经历. 然而，有时当人们告诉我他们在制定战略的时候，我感到有些困惑. 我见过很多精彩的、充满漂亮的图表和很大的文字的“战略”演讲. 听过这些“战略”的每个人都非常激动，但是之后却没什么实际行动发生.

光知道怎么看数据，还是不成，你得熟悉这些数据拿到手上之后怎么去用它，怎么让数据显示出来它本身的威力来. 第一个部分，是看历史数据，发现规律. 以社区中的活动和电商中的促销为例，这些都是常见的活动，活动做得好的话有意想不到的效果. 在做这样的活动，最好是拿到前一个月或者两个月的历史数据. 对电商来说，从这里面要去分析各个品类的销售情况，那个品类销量最大，那个品类销量最小，每月或者每周的平均增长率和符合增长率是多少.

在真实数据集上的随机森林模型参数调优 - 简书

1 数据集

相关 [真实数据随机森林] 推荐：