更新于:03-11 06:59

有关[数据]分类推荐

数据库主键一定要自增吗?有哪些场景不建议自增?

于06-21 17:04 - CRMEB技术团队 -
我们平时建表的时候,一般会像下面这样. CREATE TABLE `user` (   `id` int NOT NULL AUTO_INCREMENT COMMENT '主键',   `name` char(10) NOT NULL DEFAULT '' COMMENT '名字',   PRIMARY KEY (`id`) ) ENGINE=InnoDB  DEFAULT CHARSET=utf8mb4;.

数据库内核的快照技术实现原理 - 吴祖洋的技术博客

于06-05 21:04 - -
"快照(Snapshot)"是数据库领域非常重要的一个概念, 最初是用于数据备份. 如今, 快照技术已经成为数据库内核(引擎)最核心的技术特性之一. 数据库内核的绝大多数操作, 都依赖于快照, 例如,. LevelDB的每一次读取操作和遍历操作, 其内部都必须创建一个快照, 所以, 对于一个请求量非常大的系统, 数据库内核每秒种就要创建和销毁几十万次快照.

字节跳动数据库的过去、现状与未来

于05-26 17:05 - 字节跳动技术团队 -
日前,字节跳动技术社区 ByteTech 举办的第四期字节跳动技术沙龙圆满落幕,本期沙龙以《字节云数据库架构设计与实战》为主题. 在沙龙中,字节跳动基础架构数据库资深工程师张雷,跟大家分享了《字节跳动数据库的过去、现状与未来》,本文根据分享整理而成. 数据库技术一直是信息技术中极其重要的一环,在步入云原生时代后,云基础设施和数据库进一步整合,弥补了传统数据库的痛点,带来了高可扩展性、全面自动化、快速部署、节约成本、管理便捷等优势.

4步走,搭建好用的数据指标体系

于05-25 10:05 - 接地气的陈老师 - 经验分享 2年 初级 数据指标体系
编辑导语:说起数据指标体系,大家总会想起“AARRR”、“OSM”和“UJM”等,但如果细问,你真的能说清吗. 要搭建好用的数据指标体系,光有理论是不行的. 这篇文章分四步讲解搭建数据指标体系的方法,一起看看吧. 一提起指标体系,很多同学像说相声一样,脱口而出“AARRR”“OSM”“UJM”……讲得好开心,可面试官多反驳一句:“我这是销售运营的指标体系.

Istio 数据平面 Pod 启动过程详解

于05-12 19:18 - -
Istio 中 sidecar 自动注入过程. Istio 中的 init 容器启动过程. 启用了 Sidecar 自动注入的 Pod 的启动流程. 下图中展示了 Istio 数据平面中的 Pod 启动完后的组件. Istio 数据平面 Pod 内部组件. Istio 中的 sidecar 注入. Istio 中提供了以下两种 sidecar 注入方式:.

数据仓库的分层架构与演进

于05-11 05:38 - 阿里云云栖号 -
​**简介:**分层架构很容易在各种书籍和文档中去理解,但是把建模方法和分层架构放在一起就会出现很多困惑了. 接下来,我会从数据研发与建模的角度,演进一下分层架构的设计原因与层次的意义. 分层架构很容易在各种书籍和文档中去理解,但是把建模方法和分层架构放在一起就会出现很多困惑了. 之所以会有分层架构,最主要的原因还是要把复杂冗长的数据吹流程分拆成一些有明确目的意义的层次,这样复杂就被拆解为一些相对简单小的模块.

为什么我建议需要定期重建数据量大但是性能关键的表

于05-02 01:32 - 干货满满张哈希 -
个人创作公约:本人声明创作的所有文章皆为自己原创,如果有参考任何文章的地方,会标注出来,如果有疏漏,欢迎大家批判. 如果大家发现网上有抄袭本文章的,欢迎举报,并且积极向这个. github 仓库 提交 issue,谢谢支持~. 本文是“为什么我建议”系列第三篇,本系列中会针对一些在高并发场景下,我对于组内后台开发的一些开发建议以及开发规范的要求进行说明和分析解读,相信能让各位在面对高并发业务的时候避开一些坑.

【长文干货】一文详解电商数据指标体系

于04-19 21:13 - -
在各大电商平台或电商公司内部,最常见到的就是这种数据监控大屏,用于帮助平台和商家实时了解业务情况. 要观测数据,首先就要建立一套完备的数据指标体系,定义清楚我们要看什么,怎么看. 本文将通过电商数据的定义、体系构建、指标详解介绍电商数据指标体系. 电商数据指用来记录用户行为的数字信息,包括用户的注册、登录、流量、点击、消费、复购等一系列行为习惯的量化数据.

经验复盘-使用docker方式搭建mock数据平台

于03-30 10:13 - 小飞仔 -
「Offer 驾到,掘友接招. 我正在参与2022春招系列活动-经验复盘,点击查看  征文活动详情. 我们在进行前端开发时需要后端提供相应接口,这样我们需要等后端开发完毕后才能进行开发. 这样的话大大影响我们的开发进度,一般情况下我们只需要让后端提供接口文档即可. 但是如果想测试交互的话就需要自己mock数据了.

大数据AI Notebook产品介绍和对比

于03-29 02:02 - aibigdata -
本文已参与「新人创作礼」活动,一起开启掘金创作之路. Apache Zeppelin简介. Zeppelin是一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表,notebook可以包括多个paragraph(段). paragraph是进行数据分析的最小单位,即在 paragraph中可以完成数据分析代码的编写以及结果的可视化查看.

用 Nginx 在公网上搭建加密数据通道

于03-16 19:10 - laixintao - SRE&Devops CA cert Certificate HTTPS
最近在跨机房做一个部署,因为机房之间暂时没有专线,所以流量需要经过公网. 对于经过公网的流量,我们一般需要做以下的安全措施:. 只能允许已知的 IP 来访问;. 第一项很简单,一般的防火墙,或者 Iptables 都可以做到. 对于加密的部分,最近做了一些实验和学习,这篇文章总结加密的实现方案,假设读者没有 TLS 方面的背景知识,会简单介绍原理和所有的代码解释.

数据库与缓存数据一致性解决方案

于03-15 02:24 - Java知识图谱 -
在分布式并发系统中,数据库与缓存数据一致性是一项富有挑战性的技术难点. 本文将讨论数据库与缓存数据一致性问题,并提供通用的解决方案. 假设有完善的工业级分布式事务解决方案,那么数据库与缓存数据一致性便迎刃而解,实际上,目前分布式事务不成熟. 在数据库与缓存数据一致解决方式中,有各种声音. 先操作数据库后缓存还是先缓存后数据库.

深度解析数据湖存储方案Lakehouse架构

于03-10 03:19 - 阿里云云栖号 -
简介:从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构. Databricks 软件工程师. Lakehouse由lake和house两个词组合而成,其中lake代表Delta Lake(数据湖),house代表data warehouse(数据仓库). 因此,Lakehouse架构就是数据湖和数据仓库的结合.

Elasticsearch 数据备份、迁移

于03-07 21:48 - 树辉 - 系统运维
在时候我们面临将Elasticsearch的数据进行迁移亦或是数据备份的场景,此时我们可以使用 elasticsearch-dump这个工具来实现:. mappings从production环境复制到staging环境. 数据从production环境复制到staging. template数据导出导入.

数据分析终极一问:指标波动多大才算是异常?

于03-07 00:00 - - dev
先举个例子,体温37.4度vs体温36.5度,只有2.5%的波动,可如果有人在测温点被发现体温37.4度,估计马上就被拉走做核酸. 因为人们不是怕2.5%的波动,而是怕新冠. 所以:指标波动不可怕,指标波动代表的业务场景才可怕. 脱离业务场景谈指标波动就是耍流氓. 在各种业务指标中,数据往往不是静止不变的,尤其是当一些核心的指标发生了变化、波动时,就需要判断这样的波动是否属于异常的情况.

数仓建模—ID Mapping - 大数据技术派 - 博客园

于03-05 19:54 - -
早晨起床的时候,发现自己尿分叉,我没有多想,简单洗洗就匆忙出门. 路过早餐店,我看到师傅熟练的拉扯一小块面团,拉至细长条,然后放入油锅中,不一会功夫,一根屎黄色的油条便出锅了,卖相不错. 我在想,小到炸屎黄色的油条,大到学习,其实都是一个熟能生巧的过程. 数据仓库系列文章(持续更新). 数仓—ID Mapping.

主数据和数据中台的区别

于02-19 21:34 - -
今天在解释下主数据和数据中台的区别. 对于主数据和数据中台我在头条前面文章都有专门的描述,可以先参考下我前面发布过的文章. 在讲解区别下,还是先看下两个概念的定义. 主数据是描述核心业务实体(如客户、供应商、地点、产品和库存)的一个或多个属性. 所以主数据即是在进行企业业务架构分析中发现的核心业务对象.

微服务之间的数据依赖问题,你知道怎么解决吗|调用|冗余_网易订阅

于02-19 21:18 - -
微服务,顾名思义,就是将我们程序拆分为最小化单元来提供服务. 在一体化系统中,各个微服务也是不可能独立存在的,那么微服务之间涉及到的数据依赖问题,应该怎么处理呢. 我们从场景入手来分析考虑此类问题. 在一个供应链系统中,存在商品、销售订单、采购三个微服务,他们的主数据部分数据结构如下. 在设计这个供应链系统时,我们需要满足以下两个需求:.

谈数据:微服务环境下,数据如何治理? - 墨天轮

于02-19 20:23 - -
前段时间,我的一个小伙伴跳槽到了某大型国有企业,刚到公司不久,老板给交给他一个重要项目——公司的数据中台规划. 老板交代:“要搞一个数据中台架构,涵盖数据资产管理、数据治理、数据分析等,同时这个数据中台,要体现去中心化,甚至无中心化的理念”. 我这哥们儿有过多年的数仓架构经验,并参考了业界主流的数据中台架构,很快就“照猫画虎”的搞了一个数据中台架构图出来.

提高云端数据安全的十条“军规”

于02-13 00:00 - - dev
面对涉及到责任共担和巨大挑战的云安全需求,本文将重点和您探讨云安全的基本概念,以及正确实现云端数据保护的十条“军规”. 据统计(https://www.statista.com/statistics/1062879/worldwide-cloud-storage-of-corporate-data/),随着云服务在各个新兴行业的爆炸式增长,全球已有50% 的企业数据存储到了云端.

Flink 流批一体中的数据边界

于02-13 15:27 - - Flink Flink 随想
众所周知,流场景和批场景最为根本的区别在于 Data Boundness(数据集有界性). Data Boundness 将数据分为 Bounded 和 Un-Bounded. 在业界过去多年的实践中,两者分别绑定对应领域的存储系统和计算引擎,然而在流批一体的趋势下,领域的边界在逐渐弱化. 例如,消息队列通常用作流场景,但 Pravega 的 StreamCut 支持将指定队列中某一段消息作为批处理的输入[1].

Android 恶意程序 BRATA 能在窃取数据之后抹掉设备所有数据

于01-29 13:32 - -
最新版本的 Android 恶意程序 BRATA 能在窃取数据之后将设备恢复到出厂设置,抹掉设备上的所有数据掩盖其活动痕迹. BRATA 在 2019 年最早被发现时属于一种 Android RAT(远程访问工具),主要针对巴西用户. 安全公司 Cleafy 在 2021 年 12 月报告 BRATA 开始在欧洲等地出现,并增加了更多功能,它发展成为窃取电子银行登录凭证的恶意程序.

作业帮基于 DeltaLake 的数据湖建设最佳实践

于01-27 09:49 - 阿里云云栖号 -
简介: 作业帮是一家以科技为载体的在线教育公司,其大数据中台作为基础系统中台,主要负责建设公司级数仓,向各个产品线提供面向业务主题的数据信息. 本文主要分享了作业帮基于 DeltaLake 的数据湖建设最佳实践. 刘晋 作业帮-大数据平台技术部负责人. 王滨 作业帮-大数据平台技术部高级架构师. 毕岩 阿里云-计算平台开源大数据平台技术专家.

基于Calcite的分布式多数据源查询

于01-25 00:00 - - dev
在本文中,我们将实践 GBase8s和 MySQL的跨数据源联合查询,案例中 MySQL数据源中存放商品信息, GBase8s数据源中存放订单信息. 安装镜像 docker pull liaosnet/gbase8s启动容器 docker run -itd -p 19088:9088 liaosnet/gbase8s容器基本信息:.

vivo数据库与存储平台的建设和探索

于01-25 01:27 - vivo互联网技术 -
本文根据Xiao Bo老师在“ 2021 vivo开发者大会"现场演讲内容整理而成. 公众号回复**【2021VDC】**获取互联网技术分会场议题相关资料. 一、数据库与存储平台建设背景. 以史为鉴,可以知兴替,做技术亦是如此,在介绍平台之前,我们首先来一起回顾下vivo互联网业务近几年的发展历程.

Oracle大佬离职,怒喷MySQL是“糟糕的数据库”

于01-24 14:35 - -
数据库工程师在离职的时候会干些什么. 拿张贺卡、收起纪念礼品,没准还有一瓶践行酒——但今天故事的主角还发了个帖子,对自己研究了五年的技术好好发泄了一番. Oracle 前首席软件工程师兼 MySQL 优化器团队成员 Steinar Gunderson 在帖子中表示自己离职的原因比较复杂,但想在这里聊几句“憋了五年的真心话”——“MySQL 是款超烂的数据库,强烈建议大家认真考虑转用 PostgreSQL.

OGG工作原理 - 关系型数据库 - 亿速云

于01-23 21:36 - -
发布时间:2020-08-07 04:46:09来源:ITPUB博客阅读:122作者:白盲丶栏目:. 一.GoldenGate介绍. OGG 是一种基于日志的结构化数据复制软件. OGG 能够实现大量交易数据的实时捕捉,变换和投递,实现源数据库与目标数据库的数据同步,保持最少10ms的数据延迟. (1).Trail文件的生成和删除.

Spring Boot 2 实战:使用 Flyway 管理你数据库的版本变更 - SegmentFault 思否

于01-16 12:27 - -
随着项目的不断迭代,数据库表结构、数据都在发生着变化. 甚至有的业务在多环境版本并行运行. 数据为王的时代,管理好数据库的版本也成为了迫切的需要. Git之类的版本控制工具来管理数据库. Liquibase来管理数据库版本. Flyway相对来说比较受欢迎. Flyway大受欢迎是因为它具有以下优点:.

比较Flyway与Liquibase两大数据库迁移工具_Java

于01-16 12:14 - -
众所周知,对于那些使用着关系型数据库引擎的各类应用程序而言,数据库迁移工具的选用是至关重要的. 它们不但能够让各种复杂且重复的过程更加自动化,而且可以让我们更加轻松且准确地完成各种大型的迁移任务. 下面,我将对两种最常见的开源迁移工具--Flyway和Liquibase,进行介绍与比较,以方便您在实际项目中做出合理的选择.

ClickHouse集群数据均衡方案分享

于12-11 09:47 - 禹鼎侯 - clickhouse ckman 大数据 集群 负载均衡
ClickHouse集群数据在写入时,虽然可以通过 Distributed引擎的 sharding_key指定策略,从而保证一定程度的数据均衡,但这并不是最终解决方案. 比如 rand()均衡策略虽然可以保证数据的相对均衡,但是可能会破坏数据的内在业务逻辑. 举个简单的例子,我们想要将 kafka的数据写入 clickhouse集群,如果采用 rand()的策略,则可能将同一个 partition的数据拆分到 clickhouse集群不同的 shard中,为后续的数据分析等造成了一定的麻烦.