首页

搜索结果

"tag:"海量数据""


标题及摘要 日期/时间
1
布隆过滤器(Bloom Filter)之java实例
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash table)来存储的。它的好处是快速准确,缺点是费存储空间。当集合比较小时,这个问题不显著,但是当集合巨大时...
2011-1-7
11:18:56
2
Java使用BitSet做大数据量查重复
That's what I look for a long time.May used in Bloom Filter. publicstaticvoidmain(String[]args)throwsParseException{ BitSetbit=newBitSet(100); bit.set(1); bit.set(10); BitSetanBit=newBitSet(); anBit.set(10); anBit.set(5); //bit.and(anBit); bit.or(anB...
2011-1-7
11:05:04
3
海量数据处理常用思路和方法
大数据量的问题是很多面试笔试中经常出现的问题,比如 google、淘宝、百度、 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来...
2011-1-4
16:21:37