海量数据处理：经典实例分析

- - CSDN博客综合推荐文章

有关海量数据处理的问题，主要有以下3类：top K问题、重复问题、排序问题. 例子有1亿个浮点数找出其中最大的10000个. 在大规模数据处理中，经常会遇到的一类问题：在海量数据中找出出现频率最高的前K个数，或者从海量数据中找出最大的前K个数，这类问题通常被称为top K问题. 例如，在搜索引擎中，统计搜索最热门的10个查询词；在歌曲库中统计下载率最高的前10首歌等.

Android数据库升级实例

- - BlogJava-qileilove

　　Andoird的SQLiteOpenHelper类中有一个onUpgrade方法. 经过实践，解决了我一连串的疑问：. 帮助文档里说的“数据库升级”是指什么. 　　你开发了一个程序，当前是1.0版本. 到1.1版本时，你在数据库的某个表中增加了一个字段. 那么软件1.0版本用的数据库在软件1.1版本就要被升级了.

数据挖掘邻域的5篇经典文章

- yoyou - xlvector - Recommender System

转载自 http://www.dataminingblog.com/top-five-articles-in-data-mining/. Data Mining博客最近有篇文章，列举了他们认为的数据挖掘领域的5篇经典文章. Firefox 扩展：发现相关的论文.

数据挖掘十大经典算法（详解）

- - CSDN博客综合推荐文章

数据挖掘十大经典算法. C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进： . 1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足； .

全球分布式数据库遇到的经典问题

- - idea's blog

全球分布式数据库因为地理距离较远(上万公里), 网络通信延迟一般在 100ms 级别, 所以只能采取异步复制的方案. 采取异步复制方案, 那就决定了最终数据被复制的时效性无法得到保证, 例如正常情况仅仅比网络延迟多几毫秒(100ms+). 但坏情况时, 例如, 因为网络线路不好, 数据可能要花费数秒甚至数分钟才能同步.

如何让数据说话！ —网站实例分析

- - 互联网的那点事...

数据在很多网站都被看作是衡量一个产品或者一个设计好坏的基本指标之一. 数据指标也曾经压的我很长一段时间喘不过气来. 但是现在想想确实有时候数据能告诉你很多很多. 它未必是衡量产品好坏的唯一标准，但是它也确实能告知你很多. 那么数据究竟能告知我们些什么呢. – 你的流量有效吗. – 如何发现漏水的窟窿.

JDBC数据库的API对照实例学习

- - CSDN博客数据库推荐文章

实现数据库对数据的批处理，比如下面要输入一千条数据，不能每次都要创建连接等操作之后插入一条再断开再建立插入、、、、这样的话很显然是十分的浪费时间的. 当然了，批处理并不一定能到达很高的效率但是这是一种解决问题的方式. 时间：20131003 作者：烟大阳仔 */ public class PiChuLi {.

Oracle实例与数据库的概念详细解释

- - CSDN博客数据库推荐文章

刚接触ORACLE的人肯定会对实例和数据库感到困惑，实例到底代表些什么. ORACLE实例 = 进程 + 进程所使用的内存(SGA)实例是一个临时性的东西，你也可以认为它代表了数据库某一时刻的状态. 数据库 = 重做文件 + 控制文件 + 数据文件 + 临时文件. 数据库是永久的，是一个文件的集合.

实例剖析4种数据仓库的建模方法

- -

数据仓库，这个几乎是所有大数据开发面试必问的话题. 结合业务举例说明数据仓库建模的步骤，以及注意事项. 维度该如何选择建设，原则是什么，主键如何设计等等. 一众问题搞得小伙伴们死去活来，甚至工作好几年的小伙伴都没搞清楚过，尤其是大厂特别爱问这些问题. 有些小伙伴甚至觉得这些都是形而上学，不懂这些我不一样搞了很多年开发.

海量数据处理：经典实例分析

top K 问题

例子：有1亿个浮点数，找出其中最大的10000个？

解决方案

将数据全部排序

局部淘汰法

分治法

Hash法

最小堆

不同应用场景的解决方案

单机+单核+足够大内存

单机+多核+足够大内存

单机+单核+受限内存

多机+受限内存

小结

重复问题

排序问题

数据库排序法

分治法

位图法

相关 [数据经典实例] 推荐：