首页

搜索结果

"tag:"数据挖掘""


标题及摘要 日期/时间
1
使用Spark-MLlib进行内容推荐
在许多的现实生活中的很多场景中,我们常常只能接触到隐性的反馈(例如游览,点击,购买,喜欢,分享等等)在 MLlib 中所用到的处理这种数据的方法来源于文献:Collaborative Filtering for Implicit Feedback Datasets。 本质上,这个方法将数据作为二元偏好值和偏好强度的一个结合,而不是对评分矩阵直接进行建模。因此,评价就不是与用户对商品的显性评分而是和所观察到的用户偏好强度关联了起来。然后,这个模型将尝试找到隐语义因子来预估一个用户对一个商品的偏好。 pac...
2016-4-11
5:52:00
2
搜索引擎利用机器学习排序 - August_1989 - 博客频道 - CSDN.NET
首先,由人工标注训练数据。也就是说,对于某个查询Q,人工标出哪些文档是和这个査询相关的,同时标出相关程度,相关程度有时候可以用数值序列来表示,比如从1分 到5分为3个档次,1代表微弱相关,5代表最相关,其他数值代表相关性在两者之间。对于某个查询,可能相关文档众多,同时用户査询也五花八门,所以全部靠人工标注有时候 不太可能。此时,可以利用用户点击记录来模拟这种人工打分机制。 对于机器学习来说,输入是用户查询和一系列标注好的文档,机器学习系统需要学习打分函数,然后按照打分函数输出搜索结果,但是在其内部,每个文...
2016-3-24
17:34:00
3
(3)搜索与机器学习_李航博士_新浪博客
机器学习在互联网搜索中的应用 下面介绍一些基于统计机器学习的最前沿的互联网搜索技术。 排序学习 对给定的查询语句,将检索到的网页进行排序是排序学习的任务。排序学习将此问题形式化为监督学习的问题,将网页表示为特征向量,其中特征表示网页与查询语句的匹配程度或网页的重要度,基于标注数据学习一个排序模型。现在最常用的方法是LambdaMART [1]。该方法将排序问题转换为二类分类问题,利用Boosting算法优化学习目标函数。其最大特点是不显示地定义损失函数,而定义损失函数的梯度函数,以解决排序损失函数不易优...
2016-3-24
17:31:00
4
使用Mahout基于用户和物品相似度进行协同过滤推荐内容
基于用户User协同过滤 package mahout; import java.io.File; import java.io.IOException; import java.util.List; import org.apache.mahout.cf.taste.common.TasteException; import org.apache.mahout.cf.taste.impl.model.file.FileDataModel; import org.apache.mahout.cf.ta...
2015-6-2
23:31:00
5
几个可用于数据挖掘和统计分析的java库
WEKA:WEKA是一个可用于数据挖掘任务的机器学习算法集合。该算法可以直接应用到数据集或从自己的Java代码调用。 WEKA包含数据预处理,分类,回归,聚类,关联规则,和可视化工具。它也非常适用于开发新的机器学习方案。 jmotif:时间序列、分类、数据挖掘开发库 java-ml:Java机器学习库,聚类、分类、特征选择、 flanagan:数学和统计java开发库,包含回归算法,一次二次线性非线性回归算法,数据平滑算法,傅里叶变换,数值积分,插值法。http://www.ee.ucl.ac.uk/~m...
2015-1-9
5:17:00
6
Carrot2 - Open Source Search Results Clustering Engine
Carrot2is an Open SourceSearch Results Clustering Engine. It can automatically organize small collections of documents (search results but not only) into thematic categories. Search results clustered with Carrot2(live demo) Apart from two specializeddocum...
2014-6-8
1:13:00
7
Mahout学习笔记-分类算法之Decision Forest - 潘的博客 - 博客园
根据最近的Mahout Wiki,Mahout实现的分类算法有:随机梯度下降(SGD),贝叶斯分类,Online Passive Aggressive,HMM和决策森林(随机森林)。随机梯度下降当前不能并行处理,贝叶斯分类更适合处理文本数据,所以这两个算法都不太适合我的应用场景(并行处理,特征类型为数字),OPA和HMM不太熟悉,所以就选用了决策森林(随机森林)。 决策森林,顾名思义,就是由多个决策树组成森林,然后用这个森林进行分类,非常适合用MapReduce实现,进行并行处理。决策森林又称为随机森林...
2013-8-19
15:06:00
8
推荐引擎:使用Mahout协同过滤
Mahout is a collection of machine learning algorithms intended to perform the following operations as recommendation (Collaborative Filtering), Clustering and Classification. Initially to implement recommendation we need an input data file where every lin...
2013-8-19
14:56:00
9
使用Mahout为布尔型数据生成推荐内容
关于在Spark MLlib中基于布尔型数据集推荐可参考:Spark MLlib中的协同过滤 通过指定alpha:是一个针对于隐性反馈 ALS 版本的参数,这个参数决定了偏好行为强度的基准。 val alpha = 0.01 val model = ALS.trainImplicit(ratings, rank, numIterations, 0.01, alpha) 参考:http://spark.apache.org/docs/latest/mllib-collaborative-filtering...
2013-8-19
14:50:00
10
数据挖掘和机器学习的区别_失败只有一种,就是半途而废!——追梦(huzhyi)_百度空间
数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述《机器学习与数据挖掘》可以帮助大家理解。数据挖掘受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。简言之,对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两...
2013-1-20
11:44:38