更新于:09-21 09:10

有关[数据]分类推荐

上海数据治理的经验探索

于09-23 11:03 - -
近年来,信息网络迅猛发展,已渗透到人类生产生活、社会经济运行的方方面面,构建了一个以网络为支撑的发展大环境. 随着网络应用的不断深化,大数据应用的影响与日俱增,国家政治、经济中绝大部分的活动都与数据的创造、采集、流通和使用有关,国家的核心竞争力也部分体现为拥有数据的规模、活性及分析、运用数据的能力.

Redis 的 KEYS 命令引起 RDS 数据库雪崩,宕机 2 次,造成几百万损失

于09-22 22:23 - 伯小乐 - IT技术 Redis
最近的互联网线上事故发生比较频繁, 9月19日网上爆料出顺丰近期发生了一起线上删库事件,在这里就不介绍了. 在这里讲述一下最近发生在我公司的事故,以及如何避免,并且如何处理优化. 该宕机的直接原因是使用 Redis 的 . keys * 命令引起的,一共造成了某个服务化项目的两次宕机. 间接原因还有很多,技术跟不上业务的发展,由每日百万量到千万级是一个大的跨进,公司对于系统优化的处理优先级不高,技术开发人手的短缺.

Kafka跨数据中心迁移方案MirrorMaker使用及性能调优实践 | 网易乐得技术团队

于09-21 14:55 - -
Kakfa MirrorMaker是Kafka 官方提供的跨数据中心的流数据同步方案. 其实现原理,其实就是通过从Source Cluster消费消息然后将消息生产到Target Cluster,即普通的消息生产和消费. 用户只要通过简单的consumer配置和producer配置,然后启动Mirror,就可以实现准实时的数据同步.

阿里如何实现秒级百万TPS?搜索离线大数据平台架构解读

于09-17 20:32 - -
阿里妹导读:搜索离线数据处理是一个典型的海量数据批次/实时计算结合的场景,阿里搜索中台团队立足内部技术结合开源大数据存储和计算系统,针对自身业务和技术特点构建了搜索离线平台,提供复杂业务场景下单日批次处理千亿级数据,秒级实时百万TPS吞吐的计算能力. 一个典型的商品搜索架构如下图所示,本文将要重点介绍的就是下图中的离线数据处理系统(Offline System).

Kylin 大数据时代的OLAP利器 - CSDN博客

于09-14 21:15 - -
Olap全称为在线联机分析应用,是一种对于多维数据分析查询的解决方案. 典型的Olap应用场景包括销售、市场、管理等商务报表,预算决算,经济报表等等. 最早的Olap查询工具是发布于1970年的Express,然而完整的Olap概念是在1993年由关系数据库之父 Edgar F.Codd 提出,伴随而来的是著名的“twelve laws of online analytical processing”.

流行 iOS Apps 被发现将用户位置数据发送给第三方数据分析公司

于09-08 20:04 - -
GuardianApp 的安全研究人员 发现,数十款流行 iOS Apps 被发现会将用户位置数据发送给第三方数据分析公司. 这些应用都需要位置数据才能正常工作,它们是气象、交友或健身类应用,而与第三方公司分享数据可以为免费应用产生收入. 这些应用收集的数据包括低功耗蓝牙信标数据,GPS 经维度数据,Wi-Fi SSID 和 BSSID,部分应用还收集加速计,广告标识符,电池状态和蜂窝网络信息等.

想从事人工智能和大数据的学生们,这里有几条职业建议给你

于09-04 21:43 - - 人工智能
雷锋网 AI 科技评论按:人工智能、大数据的热度一直在延续. 越来越多的企业把人工智能和大数据运用在自己的产品设计和长期规划中,相关职位的招聘待遇诱人且竞争火热;高校也积极扩展相关专业,培养出越来越多计算机科学出身的可用之才. 在这样竞争激烈的环境之中,一些关于未来职业规划的建议肯定会对如今的学生、未来的科技骨干人才们有所帮助.

Uber 的实时数据分析系统架构 - 网站架构札记

于09-03 15:44 - -
Uber 实时系统的 Use case:. 举一个更详细些的例子,UberEATS 是 Uber 的外卖服务. 实时系统也为这个功能估算送餐时间. 所有来自乘客和司机的事件 event ,由 Kafka 收集. Kafka 使用 Pub-sub 的订阅发布模式. Uber 整个系统中各个 microservice 之间的通信也通过了 Kafka.

为什么区块链永远不会干掉数据库

于09-03 00:00 - - tuicool
区块链前线导读:现在有一种声音,说数据库不行了,要被区块链干掉了. 诚然,数据库在IT界,确实是一个特别古老的研究领域,从最初的文件系统,到后来的ER实体关系模型. 大数据实际就是数据库研究的一个分支. 而区块链对于数据库的关系,就好比虚拟现实和电影的关系. 虚拟现实并不会取代电影,数据库同样也如此.

数据埋点太难!知乎的做法有何可借鉴之处?

于08-28 08:00 - -
埋点作为商业智能(BI)和人工智能(AI)体系中重要的一环,是公司提升产品工程质量、实施 AB Testing、个性化推荐服务重要的数据来源. 在传统的纯 Web 和 Native 开发的产品中,埋点从技术的角度来说未必多深奥,但从业务的角度来说要做到埋点设计规范、流程高效和保证质量却是很难. 本文重点介绍一下知乎客户端的埋点模型、流程和平台技术.

金融数据分析与挖掘具体实现方法 -1 - 汪凡 - 博客园

于08-29 07:07 - -
有人让我写一下关于数据挖掘在金融方面的应用,再加上现在金融对数据方面的要求不断提高,准备用两篇随笔来做个入门总结. 首先,在看这篇随笔以前稍微补充一点金融方面的知识,因为我不是金融专业的,以下补充知识来自互联网与个人整理,欢迎批评指正并补充说明. 1 先来了解一下什么是金融市场呢. 通常狭义的金融市场特指有价证券(股票、债券)发行和流通的场所.

Kylin在马蜂窝数据分析团队的应用实战

于08-24 14:13 - -
AI 前线导读:马蜂窝大数据平台自 2017 年下半年引入 Apache Kylin 以来,极大的提升了数据分析师对于数据探索的效率. 因为使用了 Apache Kylin,数据分析师可以直接查询大数据、无需排队、亚秒级响应,整体开发效率提高了 10 倍以上. 更多优质内容请关注微信公众号“AI 前线”(ID:ai-front).

2018上半年中国三大运营商数据对比 移动宽带用户数逼近电信

于08-11 20:28 - 翠花 - 中国电信 中国移动 中国联通 三大运营商 运营商数据
昨日,中国移动发布2018年中期业绩,上半年营运收入达到3918亿元,同比增长2.9%;净利润达到656亿元,同比增长4.7%. 与靓丽业绩同步呈现的是,中国移动在固网家宽市场上的高歌猛进. 在今年上半年,中国移动宽带用户已经实现净增2238.6万户,其中家庭宽带客户净增1880万. 为此,中国移动将今年宽带用户发展目标从2100万户调高至3000万户,这也意味着中国移动今年的宽带用户数量有望超过1.4亿户.

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2) - clebeg的个人空间 - 开源中国

于08-11 18:55 - -
Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2). Spark 通过调用 RowMatrix 的 computeSVD 方法会得到三个重要的矩阵 U、S、V , 而且:原始矩阵 近似等于 U * S * V. V: 每一行表示单词,列表示概念,矩阵的值表示单词在概念里面的重要程度.

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1) - clebeg的个人空间 - 开源中国

于08-11 18:55 - -
Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1). 结构化数据处理比较直接,然而非结构化数据(比如:文本、语音)处理就比较具有挑战. 对于文本现在比较成熟的技术是搜索引擎,它可以帮助人们从给定的词语中快速找到包含关键词的文本. 但是,一些情况下人们希望找到某一个概念的文本,而不关心文本里面是否包含某个关键词.

数据分表小结

于08-04 00:00 - - dev
最近一段时间内结束了数据库表拆分项目,这里做个简单的小结. 本次拆分主要包括订单和优惠券两大块,这两块都是覆盖全集团所有分子公司所有业务线. 随着公司的业务飞速发展,不管是存储的要求,还是写入、读取的性都基本上到了警戒水位. 订单是交易的核心,优惠券是营销的核心,这两块基本上是整个平台的正向最核心部分.

30个MySQL千万级大数据SQL查询优化技巧详解

于07-31 00:00 - - tuicool
本文总结了30个mysql千万级大数据SQL查询优化技巧,特别适合大. 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select id from t where num=0.

Kafka系列(八)跨集群数据镜像

于12-23 22:00 - - 分布式系统
本系列文章为对《Kafka:The Definitive Guide》的学习整理,希望能够帮助到大家. 在之前系列文章中,我们讨论了一个Kafka集群的搭建、维护和使用,而在实际情况中我们往往拥有多个Kafka集群,而且这些Kafka集群很可能是相互隔离的. 一般来说,这些集群之间不需要进行数据交流,但如果在某些情况下这些集群之间存在数据依赖,那么我们可能需要持续的将数据从一个集群复制到另一个集群.

Avoiding Data Loss - 避免Kafka数据丢失

于07-25 23:23 - -
If for some reason the producer cannot deliver messages that have been consumed and committed by the consumer, it is possible for a MirrorMaker process to lose data..

记一次kafka数据丢失问题的排查 - CSDN博客

于07-25 18:19 - -
数据丢失为大事,针对数据丢失的问题我们排查结果如下. 第二:是在什么地方丢失的数据,是否是YDB的问题.     数据丢失是在导入阶段,数据并没有写入到Kafka里面,所以YDB也就不会从Kafka里面消费到缺失的数据,数据丢失与延云YDB无关.     1.测试数据会一共创建365个分区,每个分区均是9亿数据,如果最终每个分区还是9亿(多一条少一条均不行),则数据完整.

Kafka重复消费和丢失数据研究 | Zollty's Blog

于07-22 19:06 - -
底层根本原因:已经消费了数据,但是offset没提交. 原因1:强行kill线程,导致消费后的数据,offset没有提交. 原因2:设置offset为自动提交,关闭kafka时,如果在close之前,调用 consumer.unsubscribe() 则有可能部分offset没提交,下次重启会重复消费.

专访阿里巴巴毕玄:异地多活数据中心项目的来龙去脉

于07-20 11:00 - -
大数据时代,数据中心的异地容灾变得非常重要. 在去年双十一之前,阿里巴巴上线了数据中心异地双活项目. InfoQ就该项目采访了阿里巴巴的林昊(花名毕玄). 毕玄是阿里巴巴技术保障部的研究员,负责性能容量架构. 数据中心异地多活项目就是他主导的. InfoQ:首先请介绍一下数据中心异地多活这个项目. 毕玄:这个项目在我们内部的另外一个名字叫做单元化,双活是它的第二个阶段,多活是第三个阶段.

Oracle - Spool导出数据到TXT文件 - CSDN博客

于07-18 18:12 - -
spool的作用可以用一句话来描述:在sqlplus中用来保存或打印查询结果. 即,可以将sql查询的结果保存问文件. set termout off;   //不显示脚本中的命令的执行结果,缺省为on set trimout on;   //去除标准输出每行的拖尾空格,缺省为off set trimspool on;  //去除重定向(spool)输出每行的拖尾空格,缺省为off set term off;.

唯品金融大数据团队的图数据库实践

于07-13 10:35 - -
在大数据时代,社交关系趋于复杂化,越来越多的互联网项目都和社交关系联系起来. 而对社交关系的良好契合,使得图数据库(Graph Database)在互联网领域迅速崛起. 通过图数据库可以高效地进行社交关系查询、分析和数据挖掘,以发现有价值的信息. 近几年互联网金融发展火热,用户对消费分期、现金贷等需求也越来越高.

MySQL多数据源笔记3-分库分表理论和各种中间件 - 狂小白 - 博客园

于07-11 17:28 - -
  使用中间件对于主读写分离新增一个从数据库节点来说,可以不用修改代码,达到新增节点数据库而不影响到代码的修改. 因为如果不用中间件,那么在代码中自己是先读写分离,如果新增节点,. 你进行写操作时,你的轮询求模的数据量就要修改.   1.MYSQL官方的mysqlProxy,它可以实现读写分离,但是它使用率很低,搞笑的是MySQL官方都不推荐使用.

MySQL多数据源笔记2-Spring多数据源一主多从读写分离(手写) - 狂小白 - 博客园

于07-11 17:13 - -
一.为什么要进行读写分离呢.   因为数据库的“写操作”操作是比较耗时的(写上万条条数据到Mysql可能要1分钟分钟). 但是数据库的“读操作”却比“写操作”耗时要少的多(从Mysql读几万条数据条数据可能只要十秒钟). 所以读写分离解决的是,数据库的“写操作”影响了查询的效率问题. 读写分离: 大多数站点的数据库读操作比写操作更加密集,而且查询条件相对复杂,数据库的大部分性能消耗在查询操作上了.

数据仓库数据质量管理【转】 - CSDN博客

于07-08 19:46 - -
 一个完善的数据仓库必须含有一个完整的. 元数据管理系统,但是目前国内的数据仓库对数据质量管理这块都不是那么重视,我个人觉得这是一个很大的误区,一个数据仓库如果连数据质量都无法保证,还如何基于做出有效的分析来给决策者做决策的依据.        从个人理解的角度看,数据质量管理系统应该包含. 数据质量检测、脏数据的处理与修正这两块.

微服务下无侵入式动态路由数据库

于06-27 00:00 - - dev
本文可全文转载,但需要保留原作者和出处. 项目主要采用 springboot + dubbo + mybatis框架,大体分为 web和 service两层. web提供api接口给 sdk客户端使用, service则提供mysql数据库表等操作,为 web提供 dubbo服务支持.

从定制到开放,四维图新 MineData 大数据平台的又一年

于06-15 20:03 - 吴鹏飞 - 董车会 MineData 2.0 大数据平台 四维图新
「数据要盘活才有新的价值,数据要跨界才有新的故事」,在四维图新发展了一年 MineData 大数据平台后,四维图新高级副总裁、世纪高通总经理梁永杰得到了这样的感悟. 时隔一年,MineData 2.0 正式发布,在过去的一年里,MineData 位置大数据平台横跨了很多个行业,已经在交警、公安、规划、电信、保险、物流、车厂等领域开展了很多项目.

构建企业级数据仓库的五步法

于06-04 17:03 - kingding -
       即确定数据分析或前端展现的主题(例如:某年某月某地区的啤酒销售情况). 主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系, 确定主题时要综合考虑..         确定主题后, 需要考虑分析的技术指标(例如: 年销售额等). 它们一般为数值型数据, 其中有些度量值不可以汇总; 有些可以汇总起来, 以便为分析者提供有用的信息.