文本挖掘算法、热度识别体系：美味爱读是如何搭建个性化阅读架构的

- - PingWest

最近我在使用一款AVOS公司推出的个性化新闻类阅读产品—— 美味爱读，与其他产品相比，它推送的内容更加精确并具有时效性. 令人意外的是，这款产品本身并不在AVOS公司的产品计划中，而是由AVOS中国团队的四位工程师——孙宁、倪华杰、杨朝中和庄晓丹所提出的. 2011年4月，Youtube的两位创始人Chad Hurley和陈士骏从雅虎手中收购了书签网站 Delicious，在此基础上成立了AVOS公司.

最近在整理文本挖掘

- - 刘思喆 @ 贝吉塔行星

最近事情很多，每天下班回来，自己弄些东西吃，稀里糊涂就到了21点. 跟着再浏览一下圈子信息，时间更是倏地一下就到了0点，然后第二天变熊猫……. 翻译《R in a nutshell》，三月底应该会到出版社那边. 重头戏，整理文本挖掘的相关技术. 明天会在公司内部进行文本挖掘的培训，下面是提纲：. 说到文本挖掘，就要说一下文本云可视化.

手把手教你做文本挖掘

- - IT瘾-bigdata

文本挖掘指的是从文本数据中获取有价值的信息和知识，它是数据挖掘中的一种方法. 文本挖掘中最重要最基本的应用是实现文本的分类和聚类，前者是有监督的挖掘算法，后者是无监督的挖掘算法. 1)读取数据库或本地外部文本文件. 2.4)文字云检索哪些词切的不准确、哪些词没有意义，需要循环2.1、2.2和 2.3步骤.

斗鱼风控算法体系建设

- -

分享嘉宾：龚灿斗鱼算法负责人. 出品平台：DataFunTalk. 导读：直播行业在业务上面临运营安全、活动安全、流量安全、账号安全、交易安全、内容安全等风险问题，智能风控在技术方面主要有高频对抗、场景繁多、解释性弱等挑战. 本文将分享斗鱼算法团队针对以上问题，如何构建风控算法体系，以及如何应对风控技术方面的挑战.

缓存算法

- lostsnow - 小彰

没有人能说清哪种缓存算法由于其他的缓存算法. （以下的几种缓存算法，有的我也理解不好，如果感兴趣，你可以Google一下）. 大家好，我是 LFU，我会计算为每个缓存对象计算他们被使用的频率. 我是LRU缓存算法，我把最近最少使用的缓存对象给踢走. 我总是需要去了解在什么时候，用了哪个缓存对象.

BFPRT算法

- zii - 小彰

BFPRT算法的作者是5位真正的大牛（Blum 、 Floyd 、 Pratt 、 Rivest 、 Tarjan），该算法入选了在StackExchange上进行的当今世界十大经典算法，而算法的简单和巧妙颇有我们需要借鉴学习之处. BFPRT解决的问题十分经典，即从某n个元素的序列中选出第k大（第k小）的元素，通过巧妙的分析，BFPRT可以保证在最坏情况下仍为线性时间复杂度.

贪心算法

- Shan - 博客园-首页原创精华区

顾名思义，贪心算法总是作出在当前看来最好的选择. 也就是说贪心算法并不从整体最优考虑，它所作出的选择只是在某种意义上的局部最优选择. 当然，希望贪心算法得到的最终结果也是整体最优的. 虽然贪心算法不能对所有问题都得到整体最优解，但对许多问题它能产生整体最优解. 如单源最短路经问题，最小生成树问题等.

缓存算法

- 成 - FeedzShare

来自: 小彰 - FeedzShare . 发布时间:2011年09月25日, 已有 2 人推荐. 没有人能说清哪种缓存算法由于其他的缓存算法. （以下的几种缓存算法，有的我也理解不好，如果感兴趣，你可以Google一下）. 大家好，我是 LFU，我会计算为每个缓存对象计算他们被使用的频率.

K-Means 算法

- - 酷壳 - CoolShell.cn

最近在学习一些数据挖掘的算法，看到了这个算法，也许这个算法对你来说很简单，但对我来说，我是一个初学者，我在网上翻看了很多资料，发现中文社区没有把这个问题讲得很全面很清楚的文章，所以，把我的学习笔记记录下来，分享给大家. k-Means 算法是一种 cluster analysis 的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法.

查找算法：

- - CSDN博客推荐文章

从数组的第一个元素开始查找，并将其与查找值比较，如果相等则停止，否则继续下一个元素查找，直到找到匹配值. 注意：要求被查找的数组中的元素是无序的、随机的. 比如，对一个整型数组的线性查找代码：. // 遍历整个数组，并分别将每个遍历元素与查找值对比. 要查找的值在数组的第一个位置. 也就是说只需比较一次就可达到目的，因此最佳情况的大O表达式为：O(1).

文本挖掘算法、热度识别体系：美味爱读是如何搭建个性化阅读架构的

相关 [文本挖掘算法体系] 推荐：