更新于:10-11 15:31

有关[数据]分类推荐

人工智能遇冷,腾讯云升级之后的大数据AI版图

于12-14 18:04 - - 业界
一年半以前,腾讯云副总裁王龙在与腾讯系创业公司内部分享时提出,AI期望值已经到了一个比较高的阶段,潜在风险浮现. 2019年这样的趋势变得更加明显,最典型的事实是从2017年的顶点到2019年,AI投资融资事件频次降落了70%. 本质上各大人工智能平台都是厂商自身能力外化的结果,和厂商原有业务属性高度相似.

架构师详解:从0-1构建大数据平台

于12-13 00:00 - - tuicool
如今大数据在各行业的应用越来越广泛:运营基于数据关注运营效果,产品基于数据分析关注转化率情况,开发基于数据衡量系统优化效果等. 美图公司有美拍、美图秀秀、美颜相机等十几个 app,每个 app 都会基于数据做个性化推荐、搜索、报表分析、反作弊、广告等,整体对数据的业务需求比较多、应用也比较广泛. 因此美图数据技术团队的业务背景主要体现在:业务线多以及应用比较广泛.

有赞数据中台建设实践

于12-11 00:00 - - dev
概述究竟什么是中台, 业界并没有一个标准答案, 各个厂商都有自己的定义. 笔者比较认可的一个定义是 ThoughtWorks 提出的"企业级能力复用平台". 各个领域涌现出很多中台产品, 如业务中台, 搜索中台, 数据中台等. 其中数据中台这个词汇越来越多的出现在视野中, 从百度指数中可以看到这一趋势.

基于 Flink SQL 构建实数据仓库:OPPO 数据中台之基石

于12-11 00:00 - - dev
本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink contributor. - OPPO 实时数仓的演进思路;. - 基于 Flink SQL 的扩展工作;. - 构建实时数仓的应用案例;.

ElasticSearch 亿级数据检索深度优化

于12-02 00:00 - - dev
数据平台已迭代三个版本,从头开始遇到很多常见的难题,终于有片段时间整理一些已完善的文档,在此分享以供所需朋友的实现参考,少走些弯路,在此篇幅中偏重于ES的优化,关于HBase,Hadoop的设计优化估计有很多文章可以参考,不再赘述. 在一业务系统中,部分表每天的数据量过亿,已按天分表,但业务上受限于按天查询,并且DB中只能保留3个月的数据(硬件高配),分库代价较高.

数据一致性检测的应用场景与最佳实践-云栖社区-阿里云

于12-01 12:07 - -
随着业务规模的扩张,企业系统变得越来越复杂,在这种复杂的分布式系统架构下,难免会出现远程调用失败,消息发送失败,并发 bug 等等问题,这些问题最终会导致系统间的数据不一致,导致用户体验受损,用户利益受损,对平台来说就是产生资损. 因此如何持续保障系统的业务稳定性对于企业来说是一个很重要的课题,本文旨在介绍一些常见业务应用场景下的业务数据一致性保障最佳实践.

数据仓库简介、发展、架构演进、实时数仓建设、与离线数仓对比

于11-23 00:00 - - Flink 大数据 流式计算
数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环. 本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容. 原地地址: https://ververica.cn/developers/how-to-do-real-time-counting/.

数据库分库分表思路

于11-17 23:04 - -
作者 | butterfly100. 链接 | cnblogs.com/butterfly100/p/9034281.html. 关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限. 当单表的数据量达到1000W或100G以后,由于查询维度较多,即使添加从库、优化索引,做很多操作时性能仍下降严重.

腾讯基于 PostgreSQL 历时 8 年研发的 HTAP 分布式数据库 TBase 开源了,对数据库有兴趣的同学可以去了解体验一下

于11-14 19:23 - jackdu -
github 地址: https://github.com/Tencent/TBase.

Spring Boot 2 整合 shard-jdbc 中间件,实现数据分库分表

于11-13 00:00 - - dev
以字段为依据,按照一定策略,将一个库中的数据拆分到多个库中. 每个库的结构都一样;数据都不一样;. 所有库的并集是全量数据;. 以字段为依据,按照一定策略,将一个表中的数据拆分到多个表中. 每个表的结构都一样;数据都不一样;. 所有表的并集是全量数据;. 二、Shard-jdbc 中间件. 1)、Sharding-JDBC直接封装JDBC API,旧代码迁移成本几乎为零.

大型互联网公司数据安全实践

于11-05 09:30 - 美团点评安全应急响应中心 - 企业安全 数据安全 美团点评
相信很多企业都面临数据泄漏的问题,例如用户投诉注册后收到了很多骚扰电话,内部员工频繁接到到猎头电话骚扰,业务上的竞争对手准确地掌握了公司的经营数据动态等. 而这些泄漏事件的追查难度又非常大. 如下图,用户的一个购买行为,沿途可能经过若干路径,每个路径下面又包含N多分叉. 最终交易成功,可能会被几百个服务调用,这些服务同时又对应到后台,最终可能有几千人会看到,究竟是谁泄漏了,如同大海捞针.

人脸识别新工具:数据少也能认识“国际脸”

于10-28 21:13 - -
日前,亚马逊的一款人脸识别工具错误地将28位美国国会议员与罪犯相匹配,这一新闻引发关注. 人脸识别工具为何出现这样的错误. 其实,机器与人类一样,见到陌生的外国人也会有“脸盲”,只能识别“当地人”,对于来自其他国家/地区的“外地人”识别精度较低,这一问题如何解决呢. 引用公开的个人信息进行研究与验证 邓伟洪团队供图.

数据库用什么样的密码HASH算法才是最安全的? - andylau00j的专栏 - CSDN博客

于10-25 17:41 - -
以下是在公司内部技术分享时总结的,希望对你有用:. 我们数据库的权限管理十分严格,敏感信息开发工程师都看不到,密码明文存储不行吗. 存储在数据库的数据面临很多威胁,有应用程序层面、数据库层面的、操作系统层面的、机房层面的、员工层面的,想做到百分百不被黑客窃取,非常困难. 如果密码是加密之后再存储,那么即便被拖库,黑客也难以获取用户的明文密码.

数梦工场宣布完成6亿元B轮融资,提出「数据智能++」数据资产管理理念

于09-26 23:25 - 新闻助手 -
9月26日,杭州数梦工场科技有限公司(简称“数梦工场”)宣布完成B轮融资,金额达6亿元人民币,公司估值达15亿美元. 此轮融资由浙江省国企改革发展基金和浙商创投联合主投,融资资金将用于产品研发、人才引进和市场拓展等方向. 数梦工场创立于2015年3月,总部位于杭州云栖小镇,在全国三十一个省市设有分支机构,在北京、杭州、南京、成都、广州、长沙成立技术创新中心.

再谈主数据管理系统(9.23)

于09-23 08:45 - 人月神话 - SOA架构实施
对于MDM主数据管理在我前两年的博客文章中谈的比较多,由于MDM一直不是我们重点研发的一个产品,因此最近关注的并不太多,但是对于SOA或ESB的应标会经常遇到客户有MDM主数据管理的需求,因此对于主数据管理系统的建设再做下简单的说明. 基础层应该具备的两个关键功能-ETL和流程引擎. 对于主数据管理系统的基础层应该具备两个关键能力,一个是ETL,一个是流程引擎.

微服务架构下,MySQL 读写分离后,数据库 CPU 飙升卡壳问题解析

于09-21 00:00 - - dev
最近系统(基于SpringCloud+K8s)上线,运维团队早上8点左右在群里反馈,系统登录无反应. 我的第一反应是Mysql数据库扛不住了. 排查问题也是一波三折,有网络问题,也有mysql读写分离后数据库参数优化问题. 1、运维团队早上8点左右在群里反馈,系统登录无反应. 2、DevOps团队通过查看Kibana日志,发现ELK、k8s集群、Redis、Mongodb、Nigix、文件服务器全部报:”Connect Unknown Error“,惊出一身冷汗.

保证分布式系统数据一致性的6种方案 - 左正 - 博客园

于09-20 07:12 - -
编者按:本文由「高可用架构后花园」群讨论整理而成. 在电商等业务中,系统一般由多个独立的服务组成,如何解决分布式调用时候数据的一致性. 具体业务场景如下,比如一个业务操作,如果同时调用服务 A、B、C,需要满足要么同时成功;要么同时失败. A、B、C 可能是多个不同部门开发、部署在不同服务器上的远程服务.

拆解大数据总线平台DBus的系统架构

于09-12 10:29 - 宜信技术学院 - 大数据
拓展阅读: 大数据总线平台DBus设计思路与工作原理. 如何基于日志,同步实现数据的一致性和实时抽取?. 快速部署DBus体验实时数据流计算. Dbus所支持两类数据源的实现原理与架构拆解. 大体来说,Dbus支持两类数据源:. 一、RMDBMS类数据源的实现. 1.1 日志抽取模块(Extractor).

2019 年,数据中台为什么火了?

于09-09 00:00 - - dev
目前的数据中台创业企业都是以项目制的方式为用户交付全套的解决方案,其中既包含标准化的工具产品,也有大量针对用户个性化需求的定制开发项目. 但在客户和模式的选择上各家又有差别. 简单地讲就是“通用”和“垂直”的选择. “通用型”企业的策略是围绕数据中台底层的核心能力搭建产品和交付能力,不过多地牵涉业务层也就可以不分行业地去拓展客户.

Vue 组件数据通信方案总结

于09-08 00:00 - - dev
(给前端大全加星标,提升前端技能). 作者:政采云前端团队 公号 / 季节 (本文来自作者投稿). 初识 Vue.js ,了解到组件是 Vue 的主要构成部分,但组件内部的作用域是相对独立的部分,组件之间的关系一般如下图:. 组件 A 与组件 B 、C 之间是父子组件,组件 B 、C 之间是兄弟组件,而组件 A 、D 之间是隔代的关系.

大数据: 知乎1.3万亿条数据毫秒级响应

于09-06 08:43 - -
Zhihu,在中文古典中文中意为“你知道吗. ”是中国的Quora:一个问答网站,其中各种问题由用户社区创建,回答,编辑和组织. 作为中国最大的知识共享平台,我们目前拥有2.2亿注册用户,3000万个问题,网站答案超过1.3亿. 随着用户群的增长,我们的应用程序的数据大小无法实现. 我们的Moneta应用程序中存储了大约1.3万亿行数据(存储用户已经阅读过的帖子).

日均处理万亿数据!Flink在快手的应用实践与技术演进之路

于09-05 17:24 - ApacheFlink - 实时计算 流计算-storm 大数据处理 大数据 flink
作者介绍:董亭亭,快手大数据架构实时计算引擎团队负责人. 目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设. 2013 年毕业于大连理工大学,曾就职于奇虎 360、58 集团. 主要研究领域包括:分布式计算、调度系统、分布式存储等系统. 本次的分享包括以下三个部分:. 介绍 Flink 在快手的应用场景以及目前规模;.

一行命令导致的数据丢失,阿里工程师是如何恢复的?

于09-05 18:56 - 阿里技术 -
阿里妹导读:数据安全性被提到了前所未有的高度,数据保护的话题越来越成为敏感. 因为,业务的中断时间对用户造成的影响愈来愈大. 阿里技术专家凡钧从数据安全的形势与发展,面临的挑战,问题的定义,传统的解决方案,当前云厂商的解决方案,去阐述什么是连续数据保护并提出了弹性的可验证的连续数据保护方案(Elastic Assured Continuous Data Protection).

如何保证缓存与数据库的双写一致性?

于08-28 22:16 - -
如何保证缓存与数据库的双写一致性. 你只要用缓存,就可能会涉及到缓存与数据库双存储双写,你只要是双写,就一定会有数据一致性的问题,那么你如何解决一致性问题. 一般来说,如果允许缓存可以稍微的跟数据库偶尔有不一致的情况,也就是说如果你的系统不是严格要求 “缓存+数据库” 必须保持一致性的话,最好不要做这个方案,即:读请求和写请求串行化,串到一个内存队列里去.

数据仓库系列之数据质量管理 - 黄昏前黎明后 - 博客园

于08-28 22:15 - -
数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量. 因此数据仓库的数据质量建设是一些公司的重点工作.   数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期. 数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较.

基于datax的数据同步平台 - 黄小雪 - 博客园

于08-28 22:14 - -
为此开发了一个数据同步平台,将同步任务的增删改查、执行的历史日志全部放到平台里,然后交给DBA去自己去操作.          市面上也有一些ETL工具,比如kettle,但是为了练手决定重新造轮子.           平台主要用于数据同步、数据处理等等ETL操作.           平台基于阿里的开源同步工具datax3.0开发.

[个推 CTO 谈数据智能] 之多维度分析系统的选型方法

于08-28 17:18 - jack -
“最近看到一句话:“架构设计的关键思维是判断和取舍,程序设计的关键思维是逻辑和实现”,深以为然. 文 | 个推CTO Anson. 前文回顾:《数据智能时代来临:本质及技术体系要求》作为本系列的第一篇文章,概括性地阐述了对于数据智能的理解以及推出了对应的核心技术体系要求:. 数据智能就是以数据作为生产资料,通过结合大规模数据处理、数据挖掘、机器学习、人机交互、可视化等多种技术,从大量的数据中提炼、发掘、获取知识,为人们在基于数据制定决策时提供有效的智能支持,减少或者消除不确定性.

datax 3.0配合crontab实现数据定时增量同步

于08-18 10:22 - -
使用datax 实现数据增量同步踩坑记录. 由于项目上需要将a服务器数据同步至b服务器,一开始使用mysql主从复制,但是由于主从同步无法触发位于b服务器的触发器,只能放弃此方案. 后来找到了datax可以实现数据同步同时也可以触发触发器,决定使用此方案. 安装datax,python,jdk  datax下载及安装地址.

每天用SpringBoot,还不懂RESTful API返回统一数据格式是怎么实现的?

于08-13 09:12 - 日拱一兵 - spring
关于 Spring 的全局处理,我有两方面要说:. 为了将两个问题说明清楚,将分两个章节分别说明,本章主要说第一点. 有童鞋说,我们项目都做了这种处理,就是在每个 API 都单独工具类将返回值进行封装,但这种不够优雅;我想写最少的代码完成这件事,也许有童鞋说,加几个注解就解决问题了,说的没错, 但这篇文章主要是为了说明为什么加了几个注解就解决问题了,目的是希望大家知其所以然.

[个推 CTO 谈数据智能] 之本质及技术体系要求

于08-07 01:34 - jack -
毕业于浙江大学,现全面负责个推技术选型、研发创新、运维管理等工作,已带领团队开发出针对移动互联网、金融风控等行业的多项前沿数据智能解决方案. 曾任MSN中国首席架构师,拥有十余年资深技术开发与项目管理经验,在大数据处理系统、大规模并发平台、分布搜索系统、手机应用开发、无线通信领域和智慧金融系统等领域拥有丰富实践经验.