更新于:08-14 10:31

最新推荐

局部敏感哈希开源项目和论文 Locality-Sensitive Hashing (LSH) · Jian Zhou

于08-13 16:26 - -
Although no single definition of a similarity measure exists, usually such measures are in some sense the inverse of distance metrics.. JorenSix/TarsosLSHA Java library implementing Locality-sensitive Hashing (LSH), a practical nearest neighbour search algorithm for multidimensional vectors that operates in sublinear time..

4.Spark特征提取、转换和选择 - 简书

于08-13 15:08 - -
在实际机器学习项目中,我们获取的数据往往是不规范、不一致、有很多缺失数据,甚至不少错误数据,这些数据有时又称为脏数据或噪音,在模型训练前,务必对这些脏数据进行处理,否则,再好的模型,也只能脏数据进,脏数据出. 这章我们主要介绍对数据处理涉及的一些操作,主要包括:. 特征提取一般指从原始数据中抽取特征.

Spark-mllib 文本特征提取算法 - CSDN博客

于08-13 13:59 - -
Spark MLlib 提供三种文本特征提取方法,分别为TF-IDF、Word2Vec以及CountVectorizer,. 词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度. 词语由t表示,文档由d表示,语料库由D表示. 词频TF(t,,d)是词语t在文档d中出现的次数.

Python提取数字图片特征向量 | kTWO-个人博客

于08-13 13:51 - -
在机器学习中有一种学习叫做手写数字识别,其主要功能就是让机器识别出图片中的数字,其步骤主要包括:图片特征提取、将特征值点阵转化为特征向量、进行模型训练. 第一步便是提取图片中的特征提取. 数据的预处理关系着后面模型的构建情况,所以,数据的处理也是机器学习中非常重要的一部分. 下面我就说一下如何提取图片中的特征向量.

转载:摩根大通70页PPT重磅报告:当前美国经济的真实状况

于08-13 00:12 - 但斌 - 财经
摩根大通70页PPT重磅报告:当前美国经济和全球市场的真实状况. 中国财富网  <更多内容2018-07-22 19:30:17. 摩根大通资产管理公司发布长报告,在进入3季度之前系统描述了美国市场及全球经济的整体状况. 本报告分为美国股市、美国经济、美国债市、国际市场、另类投资、投资原则6大部分.

API 之下

于08-13 07:33 - - Opinions
虽然标题里面有 API,但是本文谈的不是编程,而是更重要的事情. 很多公司的组织架构,都有一个中层. 高层领导和基层员工之间,存在大量的中层干部. 2015年,硅谷创业家 莱因哈特(Peter Reinhardt)观察到一个现象:硅谷科技公司正在变得越来越大,但是公司的中层几乎没有变大. 原因就在于,大公司正在用 API 替代掉中层干部.

Docker镜像仓库Harbor

于08-13 08:50 - allen - Docker & K8S Mesos & DC/OS
Habor是由VMWare公司开源的容器镜像仓库. Habor是在Docker Registry上进行了相应的企业级扩展,这些企业级特性包括:管理用户界面,基于角色的访问控制 ,AD/LDAP集成以及审计日志等. 京东使用了Harbor搭建了自己的私有Dockr镜像仓库. 用Harbor实现容器镜像仓库的管理和运维.

蒋锡培:政府不下决心减税裁员市场就不会有信心

于08-12 20:46 - -
8月10日,国务院召开“降成本减负担专项督查座谈会”,远东控股集团党委书记、创始人、董事局主席蒋锡培做了发言. 他认为,当前经济、金融、市场最大的问题是信心问题,最大的成本是制度成本,政府必须下决心降低企业的税费负担,大幅度精简财政供养人员,同时避免盲目投资,避免官僚主义、形式主义和教条主义带来的难以估量的巨额投入和劳民伤财.

世界上最成功的领导者的8大领导特质

于08-12 10:14 - 达达 - 职场漫谈
“领导者”这个词通常让你想起一些级别高的人:你的老板、政治家、总统、首席执行官等等. 但领导力实际上并不是只有特定职位的人才能拥有的能力,也不能因为说一个人已经工作了很多年就意味着他已经获得了领导一个团队的素质和技能. 晋升到一个管理岗位并不会让你自动成为一名领导者.  首席执行官和其他高管也不一定具备出色的领导能力.

【资管】银行理财极简史

于08-12 11:41 - -
银行理财业务的本质是财富管理业务. 以客户为中心,从客户需求出发,所有有助于客户实现财富管理目标的方法和手段都可以纳入财富管理的范畴. 关于理财的定义最早出现在2005年银监会2号令《商业银行个人理财业务管理暂行办法》中,“个人理财业务是指商业银行为个人客户提供的财务分析、财务规划、投资顾问、资产管理等专业化服务活动”.

掌握 3 个搜索技巧,在 GitHub 快速上找到实用软件资源

于08-11 14:40 - Eric_hong -
GitHub 作为目前广大程序猿最大的游乐场,在今年 6 月被  微软 以 75 亿美元价值的微软股票收购,GitHub 再次成为业界讨论的焦点. GitHub 以自由开放的定位吸引了相当多的个人开发者和企业,不断发布和更新相当好用的软件和工具. 之前少数派曾经为大家整理和推荐了 GitHub 上免费好用的 Windows、macOS 平台的软件:.

2018上半年中国三大运营商数据对比 移动宽带用户数逼近电信

于08-11 20:28 - 翠花 - 中国电信 中国移动 中国联通 三大运营商 运营商数据
昨日,中国移动发布2018年中期业绩,上半年营运收入达到3918亿元,同比增长2.9%;净利润达到656亿元,同比增长4.7%. 与靓丽业绩同步呈现的是,中国移动在固网家宽市场上的高歌猛进. 在今年上半年,中国移动宽带用户已经实现净增2238.6万户,其中家庭宽带客户净增1880万. 为此,中国移动将今年宽带用户发展目标从2100万户调高至3000万户,这也意味着中国移动今年的宽带用户数量有望超过1.4亿户.

Latent Semantic Analysis(LSA) - CSDN博客

于08-11 19:03 - -
Latent Semantic Analysis(LSA)中文翻译为潜语义分析,也被叫做Latent Semantic Indexing ( LSI ). 意思是指通过分析一堆(不止一个)文档去发现这些文档中潜在的意思和概念,什么叫潜在的意思. 我第一次看到这个解释,直接懵逼. 假设每个词仅表示一个概念,并且每个概念仅仅被一个词所描述,LSA将非常简单(从词到概念存在一个简单的映射关系).

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2) - clebeg的个人空间 - 开源中国

于08-11 18:55 - -
Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2). Spark 通过调用 RowMatrix 的 computeSVD 方法会得到三个重要的矩阵 U、S、V , 而且:原始矩阵 近似等于 U * S * V. V: 每一行表示单词,列表示概念,矩阵的值表示单词在概念里面的重要程度.

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1) - clebeg的个人空间 - 开源中国

于08-11 18:55 - -
Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1). 结构化数据处理比较直接,然而非结构化数据(比如:文本、语音)处理就比较具有挑战. 对于文本现在比较成熟的技术是搜索引擎,它可以帮助人们从给定的词语中快速找到包含关键词的文本. 但是,一些情况下人们希望找到某一个概念的文本,而不关心文本里面是否包含某个关键词.

如何使用ALS计算获得item相似度 How to get similar item recommendations using ALS - Quora

于08-11 18:50 - -
不幸的是,Spark ML不支持使用Matrix Factorization模型的item 相似性推荐. Spark不使用Matrix Factorization模型计算item相似度的原因只是该技术不计算item相似性,也不计算用户相似性矩阵. (MF会计算出结果用户因素和项目因素,但不会在这里详细介绍它.

龙大爷重仓这只股,20年赚了47倍

于08-11 08:00 - -
最近出了这新闻,大家都在质疑,这特么是不是又在骗我们接盘. 我觉得判断一个东西是不是在引诱,看一点就足够了. 5000点的时候,有人喊出“一万点不是梦”,大多数人都信. 反而,不信和质疑的人,才是异类. 不得不说,情绪是个很奇妙的东西. 现在行情这么惨淡,这种新闻大家肯定不信,但我觉得没必要一棍子否定.

60年前中国10%近视率,如今飙升至90%

于08-11 00:11 - -
2018年6月5日,中华人民共和国国家卫生健康委员会发布《近视防治指南》. 据数据调查,我国近视患者已经超过4.5亿人,居世界首位. 六十年前,中国只有10-20%的人是近视的;今天,高达90%的青少年患有近视. 在我们的邻国韩国,首尔的19岁男性96.5%是近视的. 世界其他地区的近视病情也急剧增加,美国和欧洲约有一半的青年有近视,大概是50年前的两倍.

防雪崩利器:熔断器 Hystrix 的原理与使用 - 编程随笔 - SegmentFault 思否

于08-10 20:02 - -
分布式系统中经常会出现某个基础服务不可用造成整个系统不可用的情况, 这种现象被称为服务雪崩效应. 为了应对服务雪崩, 一种常见的做法是手动服务降级. 而Hystrix的出现,给我们提供了另一种选择.. 服务调用者的不可用,并将不可用. 逐渐放大的过程.如果所示:. 上图中, A为服务提供者, B为A的服务调用者, C和D是B的服务调用者.

网易二季度财报:传媒业务广告收入与内容建设表现亮眼

于08-09 19:07 - - TechWeb
【TechWeb】北京时间8月9日,网易(NASDAQ:NTES)宣布了公司截止到2018年6月30日的第二季度未经审计财务业绩. 数据显示,网易第二季度净收入162.84亿元人民币,同比增加21.7%;净利润为21.07亿元,环比大涨180%. 广告服务净收入为6.34亿元,同比增加6.5%;其中,网易新闻客户端和门户为网易集团贡献超过85%的广告收入,同比增长10%.

Android 9.0发布后,这些小功能值得一试

于08-09 20:52 - -
8月7日,谷歌正式发布了Android 9.0正式版,其代号P的含义也终于真相大白,谷歌将其命名为Pie(馅饼). 首批支持升级的机型仅为自家的Pixel系列,而其他合作厂商的机型会在今年秋天获得更新推送. 本次更新除了Digital Wellbeing数字化健康功能,新的手势导航系统之外,还添加了自适应电池及适应刘海屏的全新状态栏等.

广东移动:终端行业分析报告

于08-09 23:45 - DinK - 智能手机 分析报告 广东移动 终端行业 终端行业分析报告
1)相较于第一季度,第二季度市场略有缩小. 2)华为表现不俗,市场占比,用户忠诚度均优于其他品牌. 3)选择在6-12月内的换机用户比例有较大幅度增长. 4)华为、苹果、OPPO、VIVO四大品牌中超50%的用户忠诚于原品牌. 5)用户更爱换至安卓机,流向苹果用户数量减少. (一)手机市场总洞察:第二季度销量下滑,华为超过苹果,iPhone以及OPPO机型表现出色  .

Flutter原理与实践

于08-10 01:10 - 美团点评技术团队 -
Flutter是Google开发的一套全新的跨平台、开源UI框架,支持iOS、Android系统开发,并且是未来新操作系统Fuchsia的默认开发套件. 自从2017年5月发布 第一个版本以来,目前Flutter已经发布了近60个版本,并且在2018年5月发布了第一个 “Ready for Production Apps”的Beta 3版本,6月20日发布了第一个 “Release Preview”版本.

Facebook 的 NewsFeed 之死:所有社交媒体都逃不脱的宿命? | 人人都是产品经理

于08-09 22:49 - -
编者按:每一个经常使用社交媒体(Facebook)的人都会发现,当好友达到一定程度之后,NewsFeed(在国内,可以看做是微信朋友圈)就会爆炸. Facebook的做法是让算法帮你“打理”NewsFeed,这背后存在什么问题. 著名分析师Benedict Evans在最近的博客文章中讨论了关于NewsFeed的话题,并从NewsFeed背后的转变谈到了社交应用的发展历程.

为什么很多人分手之后,明明是自己甩了别人,却说是自己被甩了?

于08-09 22:45 - -
心理学上有一种叫做“被害化”的说法,人在事件后倾向于将自己作为被害者来描述经历. 恰巧路过目睹一次车祸后,也会有倾向说自己因此受到伤害或者恐吓,最简单的目的就是博取周围人(主要是倾听者)的同情. 【第一】学术上说,人的大脑中存在一个奖赏区,人在获得愉悦奖赏的时候奖赏区会活动(通过 fMRI 可以检测到),此时大脑会刺激多巴胺的释放,从而给人更多的快感(喝多种类的吸毒成瘾也是这个原理).

Cassandra on DC/OS

于08-09 07:16 - allen - Database & Storage Mesos & DC/OS
Apache Cassandra 是一个强大的开源分布式NoSQL数据库,高度的可伸展性. 基于DC/OS构建其分布式集群是个非常值得采纳的方法,其基本思路是:. 把Cassandra放到Docker里,然后由DC/OS调度Cassandra容器集群运行、管理. Mesos 的 persistence primitives 是一个新的强大的工具,它使得更多的有状态应用可以运行在 Mesos 上.

转载:张五常说中美大势,讲得太明白了,每个中国人都该看看!

于08-08 23:48 - 但斌 - 财经
张五常说中美大势,讲得太明白了,每个中国人都该看看. “我曾经和同胞一起忍饥挨饿,因此我有责任告诉同胞,制度是怎么回事;又因为血浓于水,所以我就做不到无动于衷. ”他说:“我有一个梦,梦见一个孩子在风雨中站在船头,不断地呐喊,这个孩子就是我. 本文为2018年7月2日,中美贸易战前夕,张五常先生在东北财经大学所做《话说天下大势》的讲座.

word2vec词向量训练及中文文本相似度计算 - CSDN博客

于08-08 16:22 - -
本文是讲述如何使用word2vec的基础教程,文章比较基础,希望对你有所帮助. 参考:《Word2vec的核心架构及其应用 · 熊富林,邓怡豪,唐晓晟 · 北邮2015年》.           《Word2vec的工作原理及应用探究 · 周练 · 西安电子科技大学2014年》.           《Word2vec对中文词进行聚类的研究 · 郑文超,徐鹏 · 北京邮电大学2013年》.

人民日报发布 Twitter 和 Facebook 欢迎 Google 回归

于08-07 13:00 - 张亚楠博客 -
刚得到消息,人民日报在 Twitter 和 Facebook 上发文,欢迎 Google 回归中国,不过要遵守中国法律. 这是上周 the Intercept 放出消息 Google 将要回归之后,人民日报首次做出的回应,也是非常重要的肯定. 尽管像 上篇讲的,国外民众对 Google 的此举非常有意见.

分布式系统设计策略

于08-07 15:08 - linyinpeng1989 -
摘自 《深入分布式缓存:从原理到实践》. 分布式系统本质是通过低廉的硬件攒在一起以获得更好地吞吐量、性能以及可用性等. 分布式系统有一些通用的设计策略,也是在分布式环境下普遍关心的几个问题:. 在分布式环境中,一般会有多个节点来分担任务的运行、计算或程序逻辑处理. 如上图所示,Client请求Server,Server转发请求到具体的Node获取请求结果.