更新于:10-28 22:23

有关[数据]分类推荐

使用ElasticSearch完成百万级数据查询附近的人功能 - tianyaleixiaowu的专栏 - CSDN博客

于11-08 13:45 - -
我们来看一下使用ElasticSearch完成大数据量查询附近的人功能,搜索N米范围的内的数据. 本机测试使用了ElasticSearch最新版5.5.1,SpringBoot1.5.4,spring-data-ElasticSearch2.1.4.. 新建Springboot项目,勾选ElasticSearch和web.

数据、算法、算力将是资产管理公司新核心能力

于11-04 18:42 - - Fintech&区块链
雷锋网AI金融评论报道,11月3日,中国机构投资者峰会--2019年资本市场高质量发展论坛在北京举行,中国万向控股副董事长、通联数据董事长肖风在峰会上表示,未来科技将从投资策略、估值方法、组织结构、核心能力、市场认知、公司文化等方面改变资产管理行业. 比如,在投资策略方面,肖风预测道,在AI技术成熟起来之后,也许主动投资策略会以另外一种形式重新回到这个市场的中心,成为主流投资策略.

谈Elasticsearch下分布式存储的数据分布

于10-31 00:00 - - geek
  对于一个分布式存储系统来说,数据是分散存储在多个节点上的. 如何让数据均衡的分布在不同节点上,来保证其高可用性. 所谓均衡,是指系统中每个节点的负载是均匀的,并且在发现有不均匀的情况或者有节点增加/删除时,能及时进行调整,保持均匀状态. 本文将探讨Elasticsearch的数据分布方法,文中所述的背景是Elasticsearch 5.5.

教你用几行Python和消费数据做客户细分

于10-26 12:01 - 大数据文摘 -
细分客户群是向客户提供个性化体验的关键. 它可以提供关于客户行为、习惯与偏好的相关信息,帮助企业提供量身定制的营销活动从而改善客户体验. 在业界人们往往把他吹嘘成提高收入的万能药,但实际上这个操作并不复杂,本文就将带你用简单的代码实现这一项目. 通过使用消费交易数据,我们将会通过创建一个2 x 2的有价值属性的矩阵来得到4个客户群.

Apache CarbonData 1.5.0 发布,华为大数据存储方案

于10-25 22:42 - - 软件更新新闻
CarbonData 1.5.0 发布了,该版本更贴近于统一分析. 我们希望能够从更多的引擎/库中读取CarbonData文件,以支持各种用例. 在这方面,我们增加了支持从C++库读取 CarbonData 文件的支持. 此外,可以使用Java SDK、Spark 文件格式接口、Spark、Presto 等读取 CarbonData 文件.

华为大数据存储方案 Apache CarbonData

于05-19 18:53 - - 大数据
Apache® CarbonData™是由华为开源贡献的大数据高效存储格式解决方案. 针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“交互式分析、详单查询、任意维度组合的过滤查询等”多种大数据应用场景,并通过丰富的索引技术、字典编码、列存等特性提升了IO扫描和计算性能,实现百亿数据级秒级响应,与大数据生态Apache Hadoop、Apache Spark等无缝集成.

开源数据平台Kafka落选!InfoWorld最佳开源数据平台奖公布

于10-15 16:27 - -
AI前线导读:一年一度由世界知名科技媒体InfoWorld评选的Bossie Awards于9月26日公布,本次Bossie Awards评选出了最佳数据库与数据分析平台奖、最佳软件开发工具奖、最佳机器学习项目奖等多个奖项. 在最佳开源数据库与数据分析平台奖中,Spark和Beam再次入选,连续两年入选的Kafka这次意外滑铁卢,取而代之的是新兴项目Pulsar;开源数据库入选的还有PingCAP的TiDB.

将数据与应用分离

于10-07 08:50 - -
匿名读者 写道 " Solid(Social Linked Data 社交关联数据)是 Web 之父 Tim Berners-Lee 爵士所领导 MIT 团队的 Web 重新去中心化项目,基于 Linked Data(关联数据)原则以构建去中心化 Web 应用. 将数据与应用分离,数据存储在 POD(Personal Online Data 个人在线数据) 上,应用访问数据需被授权.

产品数据体系建设基础:一个产品的数据体系建设

于10-06 16:18 - 观花 - 数据分析 2年 初级 数据体系
本文抽象介绍了一个产品数据体系建设,以支持产品了解数据如何采集、计算与展现. 近期有师弟师妹不断问到产品经理必备技能中,数据分析是怎么回事. 简单了解了下其产生问题的原因与诉求,将其问题拆分为二:. 关于问题2,网上已经有足够丰富的资源进行学习与讨论,这里不再赘述,简而言之根据运营或迭代的目的进行深度思考与结论沉淀.

MySQL binlog 增量数据解析服务 - 简书

于09-28 09:56 - -
MySQL binlog 增量数据解析服务. 介绍如何借助于 MySQL 的 Master-slave 协议实现 MySQL 增量数据获取服务. 做过后端开发的同学都知道, 经常会遇到如下场景:. 后端程序根据业务逻辑, 更新数据库记录. 过了几天, 业务需求需要更新搜索索引. 又过了几天, 随着数据需求方的增多, 结构改成发送数据到消息中间件(例如 Kafka), 其他系统自行从消息中间件订阅数据.

基于Consul的数据库高可用架构 - yayun - 博客园

于09-28 03:25 - -
      几个月没有更新博客了,已经长草了,特意来除草. 本次主要分享如何利用consul来实现redis以及mysql的高可用. 以前的公司mysql是单机单实例,高可用MHA加vip就能搞定,新公司mysql是单机多实例,那么显然这个方案不适用,后来也实现了故障切换调用dns api来修改域名记录,但是还是没有利用consul来实现高可用方便,后面会说明优势.

美团数据库高可用架构的演进与设想 -

于09-27 17:10 - -
本文介绍最近几年美团MySQL数据库高可用架构的演进过程,以及我们在开源技术基础上做的一些创新. 同时,也和业界其它方案进行综合对比,了解业界在高可用方面的进展,和未来我们的一些规划和展望. 在2015年之前,美团(点评侧)长期使用MMM(Master-Master replication manager for MySQL)做数据库高可用,积累了比较多的经验,也踩了不少坑,可以说MMM在公司数据库高速发展过程中起到了很大的作用.

工信部:2018年大数据产业发展试点示范项目名单

于09-26 15:52 - DinK - 工信部 大数据产业
2018年大数据产业发展试点示范项目名单进行公示. 根据《工业和信息化部办公厅关于组织开展2018年大数据产业发展试点示范项目申报工作的通知》(工厅信软〔2017〕987号)要求,工业和信息化部组织开展了相关申报和评审工作. 现将2018年大数据产业发展试点示范项目名单进行公示,请社会各界监督. 公示时间:2018年9月25日-2018年9月30日.

Redis数据备份方案-Luffy的梦-51CTO博客

于09-25 14:30 - -
###只是为了查询方便,方法为借鉴网络的文章,文章贴在这里供参考: http://blog.csdn.net/subuser/article/details/8157178. Redis提供了两种持久化选项,分别是RDB和AOF. 默认情况下60秒刷新到disk一次[save 60 10000 当有1w条keys数据被改变时],Redis的数据集保存在叫dump.rdb一个二进制文件,这种策略被称为快照.

上海数据治理的经验探索

于09-23 11:03 - -
近年来,信息网络迅猛发展,已渗透到人类生产生活、社会经济运行的方方面面,构建了一个以网络为支撑的发展大环境. 随着网络应用的不断深化,大数据应用的影响与日俱增,国家政治、经济中绝大部分的活动都与数据的创造、采集、流通和使用有关,国家的核心竞争力也部分体现为拥有数据的规模、活性及分析、运用数据的能力.

Redis 的 KEYS 命令引起 RDS 数据库雪崩,宕机 2 次,造成几百万损失

于09-22 22:23 - 伯小乐 - IT技术 Redis
最近的互联网线上事故发生比较频繁, 9月19日网上爆料出顺丰近期发生了一起线上删库事件,在这里就不介绍了. 在这里讲述一下最近发生在我公司的事故,以及如何避免,并且如何处理优化. 该宕机的直接原因是使用 Redis 的 . keys * 命令引起的,一共造成了某个服务化项目的两次宕机. 间接原因还有很多,技术跟不上业务的发展,由每日百万量到千万级是一个大的跨进,公司对于系统优化的处理优先级不高,技术开发人手的短缺.

Kafka跨数据中心迁移方案MirrorMaker使用及性能调优实践 | 网易乐得技术团队

于09-21 14:55 - -
Kakfa MirrorMaker是Kafka 官方提供的跨数据中心的流数据同步方案. 其实现原理,其实就是通过从Source Cluster消费消息然后将消息生产到Target Cluster,即普通的消息生产和消费. 用户只要通过简单的consumer配置和producer配置,然后启动Mirror,就可以实现准实时的数据同步.

阿里如何实现秒级百万TPS?搜索离线大数据平台架构解读

于09-17 20:32 - -
阿里妹导读:搜索离线数据处理是一个典型的海量数据批次/实时计算结合的场景,阿里搜索中台团队立足内部技术结合开源大数据存储和计算系统,针对自身业务和技术特点构建了搜索离线平台,提供复杂业务场景下单日批次处理千亿级数据,秒级实时百万TPS吞吐的计算能力. 一个典型的商品搜索架构如下图所示,本文将要重点介绍的就是下图中的离线数据处理系统(Offline System).

Kylin 大数据时代的OLAP利器 - CSDN博客

于09-14 21:15 - -
Olap全称为在线联机分析应用,是一种对于多维数据分析查询的解决方案. 典型的Olap应用场景包括销售、市场、管理等商务报表,预算决算,经济报表等等. 最早的Olap查询工具是发布于1970年的Express,然而完整的Olap概念是在1993年由关系数据库之父 Edgar F.Codd 提出,伴随而来的是著名的“twelve laws of online analytical processing”.

流行 iOS Apps 被发现将用户位置数据发送给第三方数据分析公司

于09-08 20:04 - -
GuardianApp 的安全研究人员 发现,数十款流行 iOS Apps 被发现会将用户位置数据发送给第三方数据分析公司. 这些应用都需要位置数据才能正常工作,它们是气象、交友或健身类应用,而与第三方公司分享数据可以为免费应用产生收入. 这些应用收集的数据包括低功耗蓝牙信标数据,GPS 经维度数据,Wi-Fi SSID 和 BSSID,部分应用还收集加速计,广告标识符,电池状态和蜂窝网络信息等.

想从事人工智能和大数据的学生们,这里有几条职业建议给你

于09-04 21:43 - - 人工智能
雷锋网 AI 科技评论按:人工智能、大数据的热度一直在延续. 越来越多的企业把人工智能和大数据运用在自己的产品设计和长期规划中,相关职位的招聘待遇诱人且竞争火热;高校也积极扩展相关专业,培养出越来越多计算机科学出身的可用之才. 在这样竞争激烈的环境之中,一些关于未来职业规划的建议肯定会对如今的学生、未来的科技骨干人才们有所帮助.

Uber 的实时数据分析系统架构 - 网站架构札记

于09-03 15:44 - -
Uber 实时系统的 Use case:. 举一个更详细些的例子,UberEATS 是 Uber 的外卖服务. 实时系统也为这个功能估算送餐时间. 所有来自乘客和司机的事件 event ,由 Kafka 收集. Kafka 使用 Pub-sub 的订阅发布模式. Uber 整个系统中各个 microservice 之间的通信也通过了 Kafka.

为什么区块链永远不会干掉数据库

于09-03 00:00 - - tuicool
区块链前线导读:现在有一种声音,说数据库不行了,要被区块链干掉了. 诚然,数据库在IT界,确实是一个特别古老的研究领域,从最初的文件系统,到后来的ER实体关系模型. 大数据实际就是数据库研究的一个分支. 而区块链对于数据库的关系,就好比虚拟现实和电影的关系. 虚拟现实并不会取代电影,数据库同样也如此.

数据埋点太难!知乎的做法有何可借鉴之处?

于08-28 08:00 - -
埋点作为商业智能(BI)和人工智能(AI)体系中重要的一环,是公司提升产品工程质量、实施 AB Testing、个性化推荐服务重要的数据来源. 在传统的纯 Web 和 Native 开发的产品中,埋点从技术的角度来说未必多深奥,但从业务的角度来说要做到埋点设计规范、流程高效和保证质量却是很难. 本文重点介绍一下知乎客户端的埋点模型、流程和平台技术.

金融数据分析与挖掘具体实现方法 -1 - 汪凡 - 博客园

于08-29 07:07 - -
有人让我写一下关于数据挖掘在金融方面的应用,再加上现在金融对数据方面的要求不断提高,准备用两篇随笔来做个入门总结. 首先,在看这篇随笔以前稍微补充一点金融方面的知识,因为我不是金融专业的,以下补充知识来自互联网与个人整理,欢迎批评指正并补充说明. 1 先来了解一下什么是金融市场呢. 通常狭义的金融市场特指有价证券(股票、债券)发行和流通的场所.

Kylin在马蜂窝数据分析团队的应用实战

于08-24 14:13 - -
AI 前线导读:马蜂窝大数据平台自 2017 年下半年引入 Apache Kylin 以来,极大的提升了数据分析师对于数据探索的效率. 因为使用了 Apache Kylin,数据分析师可以直接查询大数据、无需排队、亚秒级响应,整体开发效率提高了 10 倍以上. 更多优质内容请关注微信公众号“AI 前线”(ID:ai-front).

2018上半年中国三大运营商数据对比 移动宽带用户数逼近电信

于08-11 20:28 - 翠花 - 中国电信 中国移动 中国联通 三大运营商 运营商数据
昨日,中国移动发布2018年中期业绩,上半年营运收入达到3918亿元,同比增长2.9%;净利润达到656亿元,同比增长4.7%. 与靓丽业绩同步呈现的是,中国移动在固网家宽市场上的高歌猛进. 在今年上半年,中国移动宽带用户已经实现净增2238.6万户,其中家庭宽带客户净增1880万. 为此,中国移动将今年宽带用户发展目标从2100万户调高至3000万户,这也意味着中国移动今年的宽带用户数量有望超过1.4亿户.

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2) - clebeg的个人空间 - 开源中国

于08-11 18:55 - -
Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2). Spark 通过调用 RowMatrix 的 computeSVD 方法会得到三个重要的矩阵 U、S、V , 而且:原始矩阵 近似等于 U * S * V. V: 每一行表示单词,列表示概念,矩阵的值表示单词在概念里面的重要程度.

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1) - clebeg的个人空间 - 开源中国

于08-11 18:55 - -
Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1). 结构化数据处理比较直接,然而非结构化数据(比如:文本、语音)处理就比较具有挑战. 对于文本现在比较成熟的技术是搜索引擎,它可以帮助人们从给定的词语中快速找到包含关键词的文本. 但是,一些情况下人们希望找到某一个概念的文本,而不关心文本里面是否包含某个关键词.

数据分表小结

于08-04 00:00 - - dev
最近一段时间内结束了数据库表拆分项目,这里做个简单的小结. 本次拆分主要包括订单和优惠券两大块,这两块都是覆盖全集团所有分子公司所有业务线. 随着公司的业务飞速发展,不管是存储的要求,还是写入、读取的性都基本上到了警戒水位. 订单是交易的核心,优惠券是营销的核心,这两块基本上是整个平台的正向最核心部分.