更新于:09-27 17:54

有关[数据]分类推荐

敏感数据加密方案及实现

于10-18 13:15 - 政采云前端团队 -
这是第 73 篇不掺水的原创,想获取更多原创好文,请搜索公众号关注我们吧~ 本文首发于政采云前端博客:. 现在是大数据时代,需要收集大量的个人信息用于统计. 一方面它给我们带来了便利,另一方面一些个人信息数据在无意间被泄露,被非法分子用于推销和黑色产业. 2018 年 5 月 25 日,欧盟已经强制执行《通用数据保护条例》(General Data Protection Regulation,缩写作 GDPR).

MySQL数据库规范 (设计规范+开发规范+操作规范) - 东山絮柳仔 - 博客园

于10-17 08:58 - -
      为了在软件生命周期内规范数据库相关的需求分析、设计、开发、测试、运维工作,便于不同团队之间的沟通协调,以及在相关规范上达成共识,提升相关环节的工作效率和系统的可维护性. 同时好的规范,在执行的时候可以培养出好的习惯,好的习惯是软件质量的保证.        本文档适用于开发、测试、QA及运维团队成员.

Android敏感数据泄露引发的思考

于10-11 08:18 - -
一个平淡的午后,我还悠哉悠哉的敲着代码品着茶. 突然服务端同事告诉我,关注接口正在被机械式调用,怀疑是有人在使用脚本刷接口(目的主要是从平台导流). 不会吧,因为据我所知接口请求是做了加密处理的,除非知道加密的密钥和加密方式,不然是不会调用成功的,一定是你感觉错了. 然而当服务端同事把接口调用日志发给我看时,彻底否定了我的侥幸心理.

MYSQL logstash 同步数据到es的几种方案对比以及每种方案数据丢失原因分析。

于10-07 15:59 - -
MYSQL logstash 同步增量数据到ES. 最近一段时间,在使用mysql通过logstash-jdbc同步数据到es,但是总是会有一定程度数据丢失. logstash-jdbc无非是通过sql遍历数据表的所有数据,然后同步到es. 对于表里面的所有字段都需要查出来然后同步到es中去. 数据同步脚本分为全量同步与增量同步.

大数据下的质量体系建设

于09-25 10:54 - -
      大数据、人工智能是当前也是未来几年IT部门的重点建设方向,新的技术可以为业务突破盈利瓶颈,带来新的增长点,同时我们也发现数据中台也频频在最近的企业财报予以体现,相关的技术岗位需求也是供不应求,与之形成对比的是,我们发现在招聘网站上很少有专职的数据测试岗位.       我们相信技术始终是为业务创造价值的,大数据也要输出他的产品(数据),产品必须要有质量的管控才可信,测试人员可以借助这个契机进行赛道的转换,在数据测试中形成自己的一套方法论参与到这个新技术引领的浪潮中.

踩坑记:Flink 事件时间语义下数据乱序丢数

于09-23 00:00 - - dev
❝ 本文详细介绍了在上游使用处理时间语义的 flink 任务出现故障后,重启消费大量积压在上游的数据并产出至下游数据乱序特别严重时,下游 flink 任务使用事件时间语义时遇到的大量丢数问题以及相关的解决方案. 「1.本次踩坑的应用场景」. 「2.应用场景中发生的丢数故障分析」. 「4.丢数故障解决方案及原理」.

基于ClickHouse造实时计算引擎,百亿数据秒级响应!

于09-10 11:30 - -
为了能够实时地了解线上业务数据,京东算法智能应用部打造了一款基于ClickHouse的实时计算分析引擎,给业务团队提供实时数据支持,并通过预警功能发现潜在的问题. 本文结合了引擎开发过程中对资源位数据进行聚合计算业务场景,对数据实时聚合计算实现秒级查询的技术方案进行概述. ClickHouse是整个引擎的基础,故下文首先介绍了ClickHouse的相关特性和适合的业务场景,以及最基础的表引擎MergeTree.

一键生成数据库文档,堪称数据库界的Swagger,有点厉害

于08-27 02:30 - 程序员内点事 -
www.chengxy-nds.top,技术资料共享,同进步. 最近部门订单业务调整,收拢其他业务线的下单入口,做个统一大订单平台. 需要梳理各业务线的数据表,但每个业务线库都有近百张和订单相关的表,挨个表一个一个字段的弄脑瓜子嗡嗡的. 为了不重复 CV 操作,抱着一丝希望开始在 GitHub里找,看看有没有什么工具可以用,结果就真的发现了宝藏, screw(螺丝钉),居然可以生成数据库文档,优秀啊~.

开源地理位置数据库:tile38

于08-28 12:25 - 标点符 - 程序 GIS
Tile38是地理定位数据存储,空间索引和实时地理围栏. 它支持多种对象类型,包括纬度/经度点,边界框,XYZ平铺,Geohashes和GeoJSON. 地理空间索引,支持类似附近、包含、相交... 通过 webhooks或 pub/sub channels实现实时地理围栏. 支持多种对象: lat/lon,  bbox,  Geohash,  GeoJSON,  QuadKey, and  XYZ tile..

常见电商项目的数据库表设计(MySQL版) - 简书

于08-27 23:03 - -
电商常用功能模块的数据库设计. 改进1:第三范式:将依赖传递的列分离出来. 比如:登录名<-用户级别<-级别积分上限,级别积分下限. 改进2:尽量做到冷热数据的分离,减小表的宽度. 用户登录表(customer_login). 用户信息表(customer_inf). 用户级别表(customer_level_inf).

MyCat 数据库实践注意事项

于08-26 00:07 - 毕小宝 -
最近两周研究了一下 MyCat ,下载了一份官方的实践指南,搜了几篇部署介绍,启动了三个虚拟机节点,然后就开始了验证过程. 毕竟不是专业 DBA,我的首要目标是弄清楚如何部署,产品从普通 MySQL 数据库迁移到 MyCat 需要注意的事项. 抓主要矛盾,了解关键技术点,解决关键疑惑,有一本书叫《关键20小时,快速学会任何技能》,跟它的核心思想类似.

深圳人到底有多拼?我们研究了40年的数据,发现……

于08-26 17:59 - -
过去40年,一批又一批建设者用世人瞩目的“深圳速度”“深圳模式”,将一个小渔村变成了一座“充满魅力、活力和创新力的国际化大都市”,创造了一个又一个“深圳奇迹”,成为全球经济特区的成功典范. 这一切都是每一位“深圳人”的辛勤付出、努力拼搏的成果. 改革开放的春风,经济特区的政策优势,让深圳焕发出前所未有的生命力,吸引了五湖四海的人为其发展做贡献.

实时数据同步服务如何保证消息的顺序性

于08-16 08:48 - -
上一篇 介绍了移山(数据迁移平台)实时数据同步的整体架构; . 本文主要介绍移山(数据迁移平台)实时数据同步是如何保证消息的顺序性. 这里 查看更多关于大数据平台建设的原创文章. 消息生产端将消息发送给同一个MQ服务器的同一个分区,并且按顺序发送;. 消费消费端按照消息发送的顺序进行消费. 在某些业务功能场景下需要保证消息的发送和接收顺序是一致的,否则会影响数据的使用.

关于大数据与明星选秀

于08-08 21:10 - -
[cp]我跟大家说一个我的感慨吧:关于大数据与明星选秀的. 所有搞过网红MCN机构的人都知道,你无法预测谁能红. 所有搞过电商的人,也都知道,你无法预测店里的哪个商品能成爆品. 那么在流量这么贵的时代,我应该给谁投资,培养谁,给谁砸渠道和宣发呢. 这个互联网时代的问题,在明星身上也在变化. 很多很多年前没有互联网,可以说谁上了电视,谁有电视曝光度,谁就红.

数据仓库介绍与实时数仓案例

于08-04 16:15 - taskctl2012 -
数据仓库是一个面向主题的 (Subject Oriented)、集成的 (Integrate)、相对稳定的 (Non-Volatile)、反映历史变化 (Time Variant)的数据集合,用于支持管理决策. 数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展.

海南自贸港国际互联网数据专用通道获批 预计年底前建成投用

于07-30 18:13 - -
海南日报记者30日从省工业和信息化厅获悉,工业和信息化部近日已正式批复同意建设海南自由贸易港国际互联网数据专用通道,预计年底前建成投用. 国际互联网数据专用通道是以园区为接入单位、服务于外向型企业、直达我国北上广国际通信出入口的专用链路. 据悉,按惯例我国国际互联网数据专用通道一般以城市或园区为申报单位,海南自由贸易港国际互联网数据专用通道是国内首次面向全省范围重点产业园区建设开通的专用通道.

趣头条基于Flink+ClickHouse打造实时数据分析平台

于07-26 21:37 - -
趣头条一直致力于使用大数据分析指导业务发展. 目前在实时化领域主要使用 Flink+ClickHouse 解决方案,覆盖场景包括实时数据报表、Adhoc 即时查询、事件分析、漏斗分析、留存分析等精细化运营策略,整体响应 80% 在 1 秒内完成,大大提升了用户实时取数体验,推动业务更快迭代发展. Flink to Hive 的小时级场景.

HDFS+Clickhouse+Spark:从0到1实现一款轻量级大数据分析系统

于07-25 14:04 - 云加社区 -
导语 | 在产品精细化运营时代,经常会遇到产品增长问题:比如指标涨跌原因分析、版本迭代效果分析、运营活动效果分析等. 这一类分析问题高频且具有较高时效性要求,然而在人力资源紧张情况,传统的数据分析模式难以满足. 本文尝试从0到1实现一款轻量级大数据分析系统——MVP,以解决上述痛点问题. 文章作者:数据熊(笔名),腾讯云大数据分析工程师.

理解 LSM 树:写入密集型数据库的秘诀

于07-14 03:45 - 咔叽咔叽 -
原文: yetanotherdevblog.com/lsm/. 日志结构的合并树( log-structured merge-tree LSM 树)通常是在处理大量写任务时使用的数据结构. LSM 树是许多数据库(包括 BigTable, Cassandra, Scylla,和 RocksDB)背后的核心数据结构.

ES数据插入和查询流程是怎么样的?

于07-13 15:47 - -
ES集群的状态有哪些,为什么主分片数目是固定的,副本分片却能动态调节,快看看这些关于ES的问题你都知道吗?. green 最健康的状态,说明所有的分片包括备份都可用. yellow 基本的分片可用,但是备份不可用(或者是没有备份). red 部分的分片可用,表明分片有一部分损坏. 此时执行查询部分数据仍然可以查到,遇到这种情况,还是赶快解决比较好.

网易分布式数据库多活架构的演进与实践

于07-08 16:03 - -
大家好,今天给大家分享一些网易近几年在数据库多活方向上的工作. 我将简单介绍下为什么我们要做数据库多活,再从三个阶段介绍网易在数据库多活上做的工作. 数据库多活的目标包括“容灾”和“提升处理能力”两方面. 容灾可以简单理解为当系统由于外部或内部原因出现部分不可用时,仍然能在短时间内恢复可用. 而容灾最常用的手段即是备份,在数据库领域不仅需要对计算能力做备份也要对数据做备份.

谈主数据和数据中台区别(200707)

于07-07 15:03 - 人月神话 - 微服务架构
主数据是描述核心业务实体(如客户、供应商、地点、产品和库存)的一个或多个属性. 所以主数据即是在进行企业业务架构分析中发现的核心业务对象. 或者讲主数据是企业已经存在的涉及到价值链核心业务流程的各个IT系统的基础数据. 对于ERP系统客户,供应商,物料,BOM,产品,合同,订单等都应该是最基础的数据,对于项目管理系统而言项目信息,WBS信息则是最基本的基础数据.

分布式数据库在光大银行关键业务系统的应用探索

于07-06 17:17 - 王志刚 -
近十年,我和我的团队一直负责光大银行总行的数据库运维,这里面既包括交易型数据库,也包括 MPP,还有 Hadoop 这样的大数据运维. 在运维的过程中,我们一直也在思考现在的数据库有哪些问题、面临哪些风险、数据库技术的发展趋势是什么,这一点是很重要的,因为它决定了我们为什么要转向分布式,我们希望分布式能替我们解决哪些问题,它能够解决哪些问题和它不能够解决哪些问题.

微博数仓数据延时优化方案

于06-30 12:48 - -
本文以离线数据仓库为背景,重点介绍因传输链路数据延时的不确定性,可能导致部分延迟文件无法参与正常的调度计算或同步,导致数据缺失的问题成因、业务影响及相应的解决方案. 关于这类问题的处理,有这么一种论调:我们认为正常情况下,. 缺失数据的比例是很小的,可以大致认为数据是可用的的;或者我们可以推后一下计算的时间,让数据尽可能的传输完整;诸如此类….

ES既是搜索引擎又是数据库?真的有那么全能吗? - 更多 - dbaplus社群:围绕Data、Blockchain、AiOps的企业级专业社群。技术大咖、原创干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙。

于06-30 11:04 - -
经常遇到很多朋友询问,如何学好Elasticsearch. 这个问题本质上很不好回答,但我一直又很想好好回答,所以本文就以我个人的经验视角,跟大家探讨一下如何正确的拥抱Elasticsearch. Elasticsearch是什么,不同的人有不同的理解定位,之前写过Elasticsearch对比其它数据产品的文章.

Mysql和Redis数据同步策略 - 元思 - 博客园

于06-24 09:55 - -
不更新缓存是防止并发更新导致的数据不一致. 所以为了降低数据不一致的概率,不应该更新缓存,而是直接将其删除,. 然后等待下次发生cache miss时再把数据库中的数据同步到缓存. 如果先删除缓存,有一个明显的逻辑错误:考虑两个并发操作,线程A删除缓存后,线程B读该数据时会发生Cache Miss,然后从数据库中读出该数据并同步到缓存中,此时线程A更新了数据库.

otter 数据同步项目 at master · alibaba/otter · GitHub

于06-21 19:08 - -
进入$otter_home目录. 执行:mvn clean install. 如果eclipse下报"Missing artifact com.oracle:ojdbc14:jar:10.2.0.3.0",修改$otter_home/pom.xml中"${user.dir}/lib/ojdbc14-10.2.0.3.0.jar"为绝对路径,比如"d:/lib/ojdbc14-10.2.0.3.0.jar".

饿了么MySQL异地多活的数据双向复制经验谈

于06-19 15:57 - -
陈永庭,饿了么框架工具部高级架构师,主要负责MySQL异地双向数据复制,支撑饿了么异地多活项目. 曾就职于WebEx、Cisco、腾讯等公司. 今天我主要分享饿了么多活的底层数据实施,会和大家介绍在整个多活的设计和实施过程中我们是怎么处理异地数据同步的,而这个数据同步组件在我们公司内部称之为DRC.

OGG双向复制oracle数据库配置

于06-19 13:06 - -
Oracle GoldenGate supports an active-active bi-directional configuration, where there are two systems with identical sets of data that can be changed by application users on either system.

Kafka日志及Topic数据清理 - moonandstar08 - 博客园

于06-14 22:27 - -
  由于项目原因,最近经常碰到Kafka消息队列拥堵的情况. 碰到这种情况为了不影响在线系统的正常使用,需要大家手动的清理Kafka Log. 但是清理Kafka Log又不能单纯的去删除中间环节产生的日志,中间关联的很多东西需要手动同时去清理,否则可能会导致删除后客户端无法消费的情况.   在介绍手动删除操作之前,先简单的介绍一下Kafka消费Offset原理.