更新于:10-11 15:31

有关[数据]分类推荐

Spark Streaming 数据限流简述

于01-24 00:00 - - dev
  Spark Streaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理;.   流处理与批处理有明显区别,批处理中的数据有明显的边界、数据规模已知;而流处理数据流并没有边界,也未知数据规模;.   由于流处理的数据流特征,使之数据流具有不可预测性,而且数据处理的速率还与硬件、网络等资源有关,在这种情况下如不对源源不断进来的数据流速率进行限制,那当Spark节点故障、网络故障或数据处理吞吐量下来时还有数据不断流进来,那将有可能将出现OOM进而导致Spark Streaming程序崩溃;.

在有序的KV引擎之上建造结构化数据库引擎

于01-15 19:30 - ideawu - SSDB
KV 数据结构极大地简化了存储引擎的接口和实现. 基本的 KV 接口一般就是 Get(), Set(), 实现上代码也很简单, 极简的实现可以直接利用编码语言提供的 map(哈希, 红黑树)来提供内存数据结构, 而且硬盘上直接 dump 内存数据即可(类似 Redis 的策略).. 不过, KV 存储引擎自己省事了, 但使用者不喜欢, 因为大部分的业务并不是 KV 所能表达的, 业务需要丰富的数据结构, 表格(table), 列表(list), map 等各种容器.

JAVA操作HBASE数据操作详解

于01-10 09:11 - -
Hbase对于建表,和RDBMS类似,HBase也有namespace的概念,可以指定表空间创建表,也可以直接创建表,进入default表空间. 对于数据操作,HBase支持四类主要的数据操作,分别是:. Put :增加一行,修改一行;. Delete :删除一行,删除指定列族,删除指定column的多个版本,删除指定column的制定版本等;.

Spring多数据源事务

于01-08 15:00 - xbmchina -
接着上一篇文章 Spring事务基础,本文主要是关于Spring多数据源的情况下如何保证事务正常回滚. 这里也是使用大家广泛使用的 jta-atomikos进行,我只是做一些总结方便以后自己直接拿来用. 如果你非常着急,那么可以直接下载这个项目看看即可:. 网上已经有很多关于jta-atomikos的相关文章,本文可能有点绕,不容易看得懂,所以在此描述一下思路:.

漫谈大数据平台安全风险与建设

于12-28 08:00 - superhuawei - 数据安全 大数据 平台安全
上篇文章【 漫谈大数据平台架构】大家应该对大数据平台有了一个整体架构上的理解和认识,作为姊妹篇,本篇着重讲解大数据平台安全风险与建设. 大数据平台安全伴随着大数据平台而生. 随着互联网和大数据应用的普及,新闻头条上发布的数据泄露、滥用、诈骗层出不穷,引发了一系列发人深思的社会事件和问题. 本文以大数据发展面临的安全挑战开篇.

基于大数据企业网络威胁发现模型实践

于12-27 00:00 - - dev
关于企业安全威胁数据收集分析是一个系统工程,每天在我们网络环境中,都会产生各种形式的威胁数据. 为了网络安全防护,会收集各种流量日志、审计日志、报警日志、上网设备日志,安防设备日志等等. 很多公司都有自己的数据处理流程,大数据管理工具. 我们根据过去的实践经验,总结出了一个威胁数据处理模型,因为引用增长黑客的模型的命名方式,我们称这种模式为:沙漏式威胁信息处理模型.

关于数据中台你最想知道的几个问题,我们这次聊了个透

于12-19 19:35 - - 智慧零售
如果在科技圈组织一次评选,选出过去一年里最火的技术概念,中台必定能收获不少选票. 从去年开始,阿里、腾讯、百度、京东、美团、滴滴等一众互联网巨头先后开始了组织架构调整,意图建立中台架构体系. 很快,不少中小企业也群起而效之,吹响了向中台架构转型的号角. 一时间,中台仿佛成了企业的万金油,不管什么毛病只要有了中台就能药到病除.

Oracle大规模数据快速导出文本文件 - 王亨 - 博客园

于12-17 12:19 - -
哈喽,前几久,和大家分享过如何把文本数据快速导入数据库(点击即可打开),今天再和大家分享一个小技能,将Oracle数据库中的数据按照指定分割符、指定字段导出至文本文件. 首先来张图,看看导出的数据是什么样子. 用到的就是Oracle的spool命令,可以将数据库数据导出一个文本文件,而且也可以指定数据分隔符,其中!^是数据之间的分隔符.

人工智能遇冷,腾讯云升级之后的大数据AI版图

于12-14 18:04 - - 业界
一年半以前,腾讯云副总裁王龙在与腾讯系创业公司内部分享时提出,AI期望值已经到了一个比较高的阶段,潜在风险浮现. 2019年这样的趋势变得更加明显,最典型的事实是从2017年的顶点到2019年,AI投资融资事件频次降落了70%. 本质上各大人工智能平台都是厂商自身能力外化的结果,和厂商原有业务属性高度相似.

架构师详解:从0-1构建大数据平台

于12-13 00:00 - - tuicool
如今大数据在各行业的应用越来越广泛:运营基于数据关注运营效果,产品基于数据分析关注转化率情况,开发基于数据衡量系统优化效果等. 美图公司有美拍、美图秀秀、美颜相机等十几个 app,每个 app 都会基于数据做个性化推荐、搜索、报表分析、反作弊、广告等,整体对数据的业务需求比较多、应用也比较广泛. 因此美图数据技术团队的业务背景主要体现在:业务线多以及应用比较广泛.

有赞数据中台建设实践

于12-11 00:00 - - dev
概述究竟什么是中台, 业界并没有一个标准答案, 各个厂商都有自己的定义. 笔者比较认可的一个定义是 ThoughtWorks 提出的"企业级能力复用平台". 各个领域涌现出很多中台产品, 如业务中台, 搜索中台, 数据中台等. 其中数据中台这个词汇越来越多的出现在视野中, 从百度指数中可以看到这一趋势.

基于 Flink SQL 构建实数据仓库:OPPO 数据中台之基石

于12-11 00:00 - - dev
本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink contributor. - OPPO 实时数仓的演进思路;. - 基于 Flink SQL 的扩展工作;. - 构建实时数仓的应用案例;.

ElasticSearch 亿级数据检索深度优化

于12-02 00:00 - - dev
数据平台已迭代三个版本,从头开始遇到很多常见的难题,终于有片段时间整理一些已完善的文档,在此分享以供所需朋友的实现参考,少走些弯路,在此篇幅中偏重于ES的优化,关于HBase,Hadoop的设计优化估计有很多文章可以参考,不再赘述. 在一业务系统中,部分表每天的数据量过亿,已按天分表,但业务上受限于按天查询,并且DB中只能保留3个月的数据(硬件高配),分库代价较高.

数据一致性检测的应用场景与最佳实践-云栖社区-阿里云

于12-01 12:07 - -
随着业务规模的扩张,企业系统变得越来越复杂,在这种复杂的分布式系统架构下,难免会出现远程调用失败,消息发送失败,并发 bug 等等问题,这些问题最终会导致系统间的数据不一致,导致用户体验受损,用户利益受损,对平台来说就是产生资损. 因此如何持续保障系统的业务稳定性对于企业来说是一个很重要的课题,本文旨在介绍一些常见业务应用场景下的业务数据一致性保障最佳实践.

数据仓库简介、发展、架构演进、实时数仓建设、与离线数仓对比

于11-23 00:00 - - Flink 大数据 流式计算
数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环. 本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容. 原地地址: https://ververica.cn/developers/how-to-do-real-time-counting/.

数据库分库分表思路

于11-17 23:04 - -
作者 | butterfly100. 链接 | cnblogs.com/butterfly100/p/9034281.html. 关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限. 当单表的数据量达到1000W或100G以后,由于查询维度较多,即使添加从库、优化索引,做很多操作时性能仍下降严重.

腾讯基于 PostgreSQL 历时 8 年研发的 HTAP 分布式数据库 TBase 开源了,对数据库有兴趣的同学可以去了解体验一下

于11-14 19:23 - jackdu -
github 地址: https://github.com/Tencent/TBase.

Spring Boot 2 整合 shard-jdbc 中间件,实现数据分库分表

于11-13 00:00 - - dev
以字段为依据,按照一定策略,将一个库中的数据拆分到多个库中. 每个库的结构都一样;数据都不一样;. 所有库的并集是全量数据;. 以字段为依据,按照一定策略,将一个表中的数据拆分到多个表中. 每个表的结构都一样;数据都不一样;. 所有表的并集是全量数据;. 二、Shard-jdbc 中间件. 1)、Sharding-JDBC直接封装JDBC API,旧代码迁移成本几乎为零.

大型互联网公司数据安全实践

于11-05 09:30 - 美团点评安全应急响应中心 - 企业安全 数据安全 美团点评
相信很多企业都面临数据泄漏的问题,例如用户投诉注册后收到了很多骚扰电话,内部员工频繁接到到猎头电话骚扰,业务上的竞争对手准确地掌握了公司的经营数据动态等. 而这些泄漏事件的追查难度又非常大. 如下图,用户的一个购买行为,沿途可能经过若干路径,每个路径下面又包含N多分叉. 最终交易成功,可能会被几百个服务调用,这些服务同时又对应到后台,最终可能有几千人会看到,究竟是谁泄漏了,如同大海捞针.

人脸识别新工具:数据少也能认识“国际脸”

于10-28 21:13 - -
日前,亚马逊的一款人脸识别工具错误地将28位美国国会议员与罪犯相匹配,这一新闻引发关注. 人脸识别工具为何出现这样的错误. 其实,机器与人类一样,见到陌生的外国人也会有“脸盲”,只能识别“当地人”,对于来自其他国家/地区的“外地人”识别精度较低,这一问题如何解决呢. 引用公开的个人信息进行研究与验证 邓伟洪团队供图.

数据库用什么样的密码HASH算法才是最安全的? - andylau00j的专栏 - CSDN博客

于10-25 17:41 - -
以下是在公司内部技术分享时总结的,希望对你有用:. 我们数据库的权限管理十分严格,敏感信息开发工程师都看不到,密码明文存储不行吗. 存储在数据库的数据面临很多威胁,有应用程序层面、数据库层面的、操作系统层面的、机房层面的、员工层面的,想做到百分百不被黑客窃取,非常困难. 如果密码是加密之后再存储,那么即便被拖库,黑客也难以获取用户的明文密码.

数梦工场宣布完成6亿元B轮融资,提出「数据智能++」数据资产管理理念

于09-26 23:25 - 新闻助手 -
9月26日,杭州数梦工场科技有限公司(简称“数梦工场”)宣布完成B轮融资,金额达6亿元人民币,公司估值达15亿美元. 此轮融资由浙江省国企改革发展基金和浙商创投联合主投,融资资金将用于产品研发、人才引进和市场拓展等方向. 数梦工场创立于2015年3月,总部位于杭州云栖小镇,在全国三十一个省市设有分支机构,在北京、杭州、南京、成都、广州、长沙成立技术创新中心.

再谈主数据管理系统(9.23)

于09-23 08:45 - 人月神话 - SOA架构实施
对于MDM主数据管理在我前两年的博客文章中谈的比较多,由于MDM一直不是我们重点研发的一个产品,因此最近关注的并不太多,但是对于SOA或ESB的应标会经常遇到客户有MDM主数据管理的需求,因此对于主数据管理系统的建设再做下简单的说明. 基础层应该具备的两个关键功能-ETL和流程引擎. 对于主数据管理系统的基础层应该具备两个关键能力,一个是ETL,一个是流程引擎.

微服务架构下,MySQL 读写分离后,数据库 CPU 飙升卡壳问题解析

于09-21 00:00 - - dev
最近系统(基于SpringCloud+K8s)上线,运维团队早上8点左右在群里反馈,系统登录无反应. 我的第一反应是Mysql数据库扛不住了. 排查问题也是一波三折,有网络问题,也有mysql读写分离后数据库参数优化问题. 1、运维团队早上8点左右在群里反馈,系统登录无反应. 2、DevOps团队通过查看Kibana日志,发现ELK、k8s集群、Redis、Mongodb、Nigix、文件服务器全部报:”Connect Unknown Error“,惊出一身冷汗.

保证分布式系统数据一致性的6种方案 - 左正 - 博客园

于09-20 07:12 - -
编者按:本文由「高可用架构后花园」群讨论整理而成. 在电商等业务中,系统一般由多个独立的服务组成,如何解决分布式调用时候数据的一致性. 具体业务场景如下,比如一个业务操作,如果同时调用服务 A、B、C,需要满足要么同时成功;要么同时失败. A、B、C 可能是多个不同部门开发、部署在不同服务器上的远程服务.

拆解大数据总线平台DBus的系统架构

于09-12 10:29 - 宜信技术学院 - 大数据
拓展阅读: 大数据总线平台DBus设计思路与工作原理. 如何基于日志,同步实现数据的一致性和实时抽取?. 快速部署DBus体验实时数据流计算. Dbus所支持两类数据源的实现原理与架构拆解. 大体来说,Dbus支持两类数据源:. 一、RMDBMS类数据源的实现. 1.1 日志抽取模块(Extractor).

2019 年,数据中台为什么火了?

于09-09 00:00 - - dev
目前的数据中台创业企业都是以项目制的方式为用户交付全套的解决方案,其中既包含标准化的工具产品,也有大量针对用户个性化需求的定制开发项目. 但在客户和模式的选择上各家又有差别. 简单地讲就是“通用”和“垂直”的选择. “通用型”企业的策略是围绕数据中台底层的核心能力搭建产品和交付能力,不过多地牵涉业务层也就可以不分行业地去拓展客户.

Vue 组件数据通信方案总结

于09-08 00:00 - - dev
(给前端大全加星标,提升前端技能). 作者:政采云前端团队 公号 / 季节 (本文来自作者投稿). 初识 Vue.js ,了解到组件是 Vue 的主要构成部分,但组件内部的作用域是相对独立的部分,组件之间的关系一般如下图:. 组件 A 与组件 B 、C 之间是父子组件,组件 B 、C 之间是兄弟组件,而组件 A 、D 之间是隔代的关系.

大数据: 知乎1.3万亿条数据毫秒级响应

于09-06 08:43 - -
Zhihu,在中文古典中文中意为“你知道吗. ”是中国的Quora:一个问答网站,其中各种问题由用户社区创建,回答,编辑和组织. 作为中国最大的知识共享平台,我们目前拥有2.2亿注册用户,3000万个问题,网站答案超过1.3亿. 随着用户群的增长,我们的应用程序的数据大小无法实现. 我们的Moneta应用程序中存储了大约1.3万亿行数据(存储用户已经阅读过的帖子).

日均处理万亿数据!Flink在快手的应用实践与技术演进之路

于09-05 17:24 - ApacheFlink - 实时计算 流计算-storm 大数据处理 大数据 flink
作者介绍:董亭亭,快手大数据架构实时计算引擎团队负责人. 目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设. 2013 年毕业于大连理工大学,曾就职于奇虎 360、58 集团. 主要研究领域包括:分布式计算、调度系统、分布式存储等系统. 本次的分享包括以下三个部分:. 介绍 Flink 在快手的应用场景以及目前规模;.