Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2)

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1) - clebeg的个人空间 - 开源中国

- -

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1). 结构化数据处理比较直接，然而非结构化数据（比如：文本、语音）处理就比较具有挑战. 对于文本现在比较成熟的技术是搜索引擎，它可以帮助人们从给定的词语中快速找到包含关键词的文本. 但是，一些情况下人们希望找到某一个概念的文本，而不关心文本里面是否包含某个关键词.

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2) - clebeg的个人空间 - 开源中国

- -

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2). Spark 通过调用 RowMatrix 的 computeSVD 方法会得到三个重要的矩阵 U、S、V ，而且：原始矩阵近似等于 U * S * V. V: 每一行表示单词，列表示概念，矩阵的值表示单词在概念里面的重要程度.

Latent Semantic Analysis（LSA） - CSDN博客

- -

Latent Semantic Analysis（LSA）中文翻译为潜语义分析，也被叫做Latent Semantic Indexing ( LSI ). 意思是指通过分析一堆（不止一个）文档去发现这些文档中潜在的意思和概念，什么叫潜在的意思. 我第一次看到这个解释，直接懵逼. 假设每个词仅表示一个概念，并且每个概念仅仅被一个词所描述，LSA将非常简单（从词到概念存在一个简单的映射关系）.

数据挖掘是神马？

- - 互联网分析

1、数据挖掘需要‘神马样’的流程. 2、哥，有没有详细点的，来个给力的. 4、数据在统计意义上有哪些类型. 9、知道这些工具不知道如何在工作中用呀. 11、还有没有更人性化、智能化的展现. 12、上面这图看起来很给力，背后很复杂吧. 16、转载的留个来源，毕竟是我辛苦收集和想出来的，谢谢. 忘记“大数据”，从“中数据”开始.

这就是数据挖掘

- - 互联网分析

当今数据库的容量已经达到上万亿的水平（T）— 1,000,000,000,000个字节. 在这些大量数据的背后隐藏了很多具有决策意义的信息，那么怎么得到这些“知识”呢. 也就是怎样通过一颗颗的树木了解到整个森林的情况. 计算机科学对这个问题给出的最新回答就是：数据挖掘，在“数据矿山”中找到蕴藏的“知识金块”，帮助企业减少不必要投资的同时提高资金回报.

关于数据挖掘

- - 牛国柱

以下内容来自网络，关于数据挖掘的一些最基本的知识. 数据挖掘是对一系列数据进行分析和挖掘的方法的统称，在精准营销领域，最常用的数据挖掘方法主要包括以下三类：分类、聚类、关联. 分类（Classify）属于预测性模型. 分类模型的构建需要“训练样本”，训练样本中的每一个个体的类别必须是明确的. 分类模型的特征变量一般称为“自变量”，又叫“预测变量”，类别变量称为“目标变量”.

潜在语义分析（Latent Semantic Analysis），是语义学的一个新的分支. 传统的语义学通常研究字、词的含义以及词与词之间的关系，如同义，近义，反义等等. 潜在语义分析探讨的是隐藏在字词背后的某种关系，这种关系不是以词典上的定义为基础，而是以字词的使用环境作为最基本的参考. 他们认为，世界上数以百计的语言都应该有一种共同的简单的机制，使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言.

数据挖掘与Taco Bell编程

- everfly - 译言-每日精品译文推荐

来源Data Mining and Taco Bell Programming. Programmer Ted Dziuba suggests an alternative to traditional program that he called "Taco Bell Programming." The Taco Bell chain creates multiple menu items from about eight different ingredients.

使用Weka进行数据挖掘

- - 搜索研发部官方博客

数据挖掘、机器学习这些字眼，在一些人看来，是门槛很高的东西. 诚然，如果做算法实现甚至算法优化，确实需要很多背景知识. 但事实是，绝大多数数据挖掘工程师，不需要去做算法层面的东西. 他们的精力，集中在特征提取，算法选择和参数调优上. 那么，一个可以方便地提供这些功能的工具，便是十分必要的了. 而weka，便是数据挖掘工具中的佼佼者.

数据挖掘 - 分类算法比较

- - IBM developerWorks 中国 : 文档库

随着计算能力、存储、网络的高速发展，人类积累的数据量正以指数速度增长. 对于这些数据，人们迫切希望从中提取出隐藏其中的有用信息，更需要发现更深层次的规律，对决策，商务应用提供更有效的支持. 为了满足这种需求，数据挖掘技术的得到了长足的发展，而分类在数据挖掘中是一项非常重要的任务，目前在商业上应用最多.

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2) - clebeg的个人空间 - 开源中国

1 前言

2 粗浅的解决方案

3 基于LSA的解决方案

4 词-词相关性

5 文档-文档相关性

6 词-文档之间的相关性

7 查询多个词相关的文档

8 附录

相关 [spark 数据挖掘 lsa] 推荐：

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1) - clebeg的个人空间 - 开源中国