基于Spark自动扩展scikit-learn (spark-sklearn) - CSDN博客

- -

1、基于Spark自动扩展scikit-learn(spark-sklearn). Spark MLlib 将传统的单机机器学习算法改造成分布式机器学习算法，比如在梯度下降算法中，单机做法是计算所有样本的梯度值，单机算法是以全体样本为计算单位；而分布式算法的逻辑是以每个样本为单位，在集群上分布式的计算每个样本的梯度值，然后再对每个样本的梯度进行聚合操作等.

用scipy(scikit-learn)做文本分类

- - CSDN博客研发管理推荐文章

文本挖掘的paper没找到统一的benchmark，只好自己跑程序，走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类（最好要所有类分类结果，全部或取部分特征无所谓）麻烦留言告知下现在的benchmark，万谢. 20newsgroups官网上给出了3个数据集，这里我们用最原始的 20news-19997.tar.gz.

使用 Scikit-learn 的进行 KNN 分类

- - 标点符

最近邻(KNN)是一种非常简单、易于理解、通用性强的机器学习算法，广泛应用于金融、医疗、政治、手写检测、图像识别、视频识别等领域. 在信用评级中，金融机构会预测客户的信用评级. 在贷款支付中，银行机构将预测贷款是否安全或有风险. 在政治学中，将潜在选民分为两类，要么投票，要么不投票. 上一篇《 K-近邻算法KNN学习笔记》主要讲解的是KNN的理论内容，今天主要学习怎么用KNN进行实战.

scikit-learn中的文本特征提取

- - 标点符

文本分析是机器学习算法的主要应用领域. 由于大部分机器学习算法只能接收固定长度的数值型矩阵特征，导致文本字符串等并不能直接被使用，针对此问题scikit-learn提供了将文本转化为数值型特征的方法，今天就一起来学习下. scikit-learn中的sklearn.feature_extraction.text提供了将文本转化为特征向量的工具：.

Spark概览

- - 简单文本

Spark具有先进的DAG执行引擎，支持cyclic data flow和内存计算. 因此，它的运行速度，在内存中是Hadoop MapReduce的100倍，在磁盘中是10倍. 这样的性能指标，真的让人心动啊. Spark的API更为简单，提供了80个High Level的操作，可以很好地支持并行应用.

我本人是类似Hive平台的系统工程师，我对MapReduce的熟悉程度是一般，它是我的底层框架. 我隔壁组在实验Spark，想将一部分计算迁移到Spark上. 年初的时候，看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性. 但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了.

Spark迷思

- - ITeye博客

目前在媒体上有很大的关于Apache Spark框架的声音，渐渐的它成为了大数据领域的下一个大的东西. 证明这件事的最简单的方式就是看google的趋势图：. 上图展示的过去两年Hadoop和Spark的趋势. Spark在终端用户之间变得越来越受欢迎，而且这些用户经常在网上找Spark相关资料. 这给了Spark起了很大的宣传作用；同时围绕着它的也有误区和思维错误，而且很多人还把这些误区作为银弹，认为它可以解决他们的问题并提供比Hadoop好100倍的性能.

Spark 优化

- - CSDN博客推荐文章

提到Spark与Hadoop的区别，基本最常说的就是Spark采用基于内存的计算方式，尽管这种方式对数据处理的效率很高，但也会往往引发各种各样的问题，Spark中常见的OOM等等. 效率高的特点，注定了Spark对性能的严苛要求，那Spark不同程序的性能会碰到不同的资源瓶颈，比如：CPU，带宽、内存.

[转][转]机器学习工具：scikit-learn/Weka

- - heiyeluren的blog（黑夜路人的开源世界）

开源机器学习工具scikit-learn入门. Scikit-Learn是基于python的机器学习模块，基于BSD开源许可证. 这个项目最早由DavidCournapeau 在2007 年发起的，目前也是由社区自愿者进行维护. Scikit-Learn的官方网站是 http://scikit-learn.org/stable/，在上面可以找到相关的Scikit-Learn的资源，模块下载，文档，例程等等.

Scikit-learn玩得很熟了？这些功能你都知道吗？

- - 机器之心

分享一些Scikit-learn程序包里鲜有人知的遗珠功能. Scikit-learn是Python所有的机器学习程序包中，你必须掌握的最重要的一个包，它包含各种分类算法，回归算法和聚类算法，其中包括支持向量机、随机森林、梯度提升、k均值和基于密度的聚类算法（DBSCAN），且旨在与Python数值库NumPy和科学库SciPy进行相互配合.

基于Spark自动扩展scikit-learn (spark-sklearn) - CSDN博客

1、基于Spark自动扩展scikit-learn(spark-sklearn)

1.1 导论

1.2 spark-sklearn背景

1.3 轻松应对大规模模型计算

1.4 随机森林的分布优化

相关 [spark 扩展 scikit] 推荐：