更新于:10-11 15:31

有关[数据]分类推荐

微博数仓数据延时优化方案

于06-30 12:48 - -
本文以离线数据仓库为背景,重点介绍因传输链路数据延时的不确定性,可能导致部分延迟文件无法参与正常的调度计算或同步,导致数据缺失的问题成因、业务影响及相应的解决方案. 关于这类问题的处理,有这么一种论调:我们认为正常情况下,. 缺失数据的比例是很小的,可以大致认为数据是可用的的;或者我们可以推后一下计算的时间,让数据尽可能的传输完整;诸如此类….

ES既是搜索引擎又是数据库?真的有那么全能吗? - 更多 - dbaplus社群:围绕Data、Blockchain、AiOps的企业级专业社群。技术大咖、原创干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙。

于06-30 11:04 - -
经常遇到很多朋友询问,如何学好Elasticsearch. 这个问题本质上很不好回答,但我一直又很想好好回答,所以本文就以我个人的经验视角,跟大家探讨一下如何正确的拥抱Elasticsearch. Elasticsearch是什么,不同的人有不同的理解定位,之前写过Elasticsearch对比其它数据产品的文章.

Mysql和Redis数据同步策略 - 元思 - 博客园

于06-24 09:55 - -
不更新缓存是防止并发更新导致的数据不一致. 所以为了降低数据不一致的概率,不应该更新缓存,而是直接将其删除,. 然后等待下次发生cache miss时再把数据库中的数据同步到缓存. 如果先删除缓存,有一个明显的逻辑错误:考虑两个并发操作,线程A删除缓存后,线程B读该数据时会发生Cache Miss,然后从数据库中读出该数据并同步到缓存中,此时线程A更新了数据库.

otter 数据同步项目 at master · alibaba/otter · GitHub

于06-21 19:08 - -
进入$otter_home目录. 执行:mvn clean install. 如果eclipse下报"Missing artifact com.oracle:ojdbc14:jar:10.2.0.3.0",修改$otter_home/pom.xml中"${user.dir}/lib/ojdbc14-10.2.0.3.0.jar"为绝对路径,比如"d:/lib/ojdbc14-10.2.0.3.0.jar".

饿了么MySQL异地多活的数据双向复制经验谈

于06-19 15:57 - -
陈永庭,饿了么框架工具部高级架构师,主要负责MySQL异地双向数据复制,支撑饿了么异地多活项目. 曾就职于WebEx、Cisco、腾讯等公司. 今天我主要分享饿了么多活的底层数据实施,会和大家介绍在整个多活的设计和实施过程中我们是怎么处理异地数据同步的,而这个数据同步组件在我们公司内部称之为DRC.

OGG双向复制oracle数据库配置

于06-19 13:06 - -
Oracle GoldenGate supports an active-active bi-directional configuration, where there are two systems with identical sets of data that can be changed by application users on either system.

Kafka日志及Topic数据清理 - moonandstar08 - 博客园

于06-14 22:27 - -
  由于项目原因,最近经常碰到Kafka消息队列拥堵的情况. 碰到这种情况为了不影响在线系统的正常使用,需要大家手动的清理Kafka Log. 但是清理Kafka Log又不能单纯的去删除中间环节产生的日志,中间关联的很多东西需要手动同时去清理,否则可能会导致删除后客户端无法消费的情况.   在介绍手动删除操作之前,先简单的介绍一下Kafka消费Offset原理.

不衰的经典: ARIES事务恢复 [数据库学习的成人试炼] - 知乎

于06-08 22:44 - -
已经好几个月没写东西了, 比较忙, 开的技能树有点多, 主要在刷概率/统计/优化/NLP相关的东西, 分布式的东西看的比较少, 只是偶尔刷刷小红书的推荐论文还有看看datalake相关的东西; 不过ARIES这篇论文还是很值得在知乎记个笔记的.. 小红书的时候在第三章“Techniques Everyone Should Know”(很明显我还没入门啊, 这些paper几乎都没看过.

美团 MySQL 数据库巡检系统的设计与应用

于06-08 00:00 - - dev
我们生活中随处可见各种巡检系统,比如电力巡检、消防检查等,正是这些巡检工作,我们才能在稳定的环境下进行工作、生活. 巡检对于数据库或者其他IT系统来说也同样至关重要,特别是在降低风险、提高服务稳定性方面起到了非常关键作用. 为了保障数据库的稳定运行,以下核心功能组件必不可少:. 图1 数据库运维保障核心功能组件 其中,数据库巡检作为运维保障体系最重要的环节之一,能够帮助我们发现数据库存在的隐患,提前治理,做到防患于未然.

维度数据实时关联的实践(w/ Flink、Vert.x & Guava Cache) - 简书

于06-07 21:30 - -
在流式处理作业(特别是实时数仓ETL作业)中,我们的数据流可以视为无界事实表,其中往往缺乏一些维度信息. 例如,对于埋点日志流而言,为了减少传输冗余,可能只会带有城市ID、商品ID等,如果要映射到对应的名称,就需要与外部存储中的维度表进行关联. 这里的外部存储一般是指适合OLTP场景的数据库,如MySQL、Redis、HBase等.

拆解大数据总线平台DBus的系统架构 - 宜信技术 - 博客园

于06-06 17:31 - -
Dbus所支持两类数据源的实现原理与架构拆解. 大体来说,Dbus支持两类数据源:. 一、RMDBMS类数据源的实现. 1.1 日志抽取模块(Extractor). mysql 日志抽取模块由两部分构成:. canal server:负责从mysql中抽取增量日志. mysql-extractor storm程序:负责将增量日志输出到kafka中,过滤不需要的表数据,保证at least one和高可用.

数据复制中心DRC实践 - 简书

于06-06 17:29 - -
DRC(Data Replication Center)是我在阿里听过的一个概念,它的业务域是支持异构数据库实时同步,数据记录变更订阅服务. 为跨域实时同步、实时增量分发、异地双活、分库分表等场景提供产品级的解决方案. 支持异地多活、大数据实时抽取、搜索实时更新数据、数据表结构重构、多视图数据存储、大屏实时刷新等.

Python3连接MySQL数据库之mysql-client - Ethan_zhang - 博客园

于06-06 09:14 - -
要想使 python 可以操作 mysql 就需要 MySQLdb 驱动,它是 python 操作 mysql 必不可少的模块. 在此站点下载mysqlclient安装包:https://www.lfd.uci.edu/~gohlke/pythonlibs/# 进行本地安装. 以下是从这个网站上面检索到的mysqlclient的所有版本.

Oracle GoldenGate系统之----双向同步数据表_ITPUB博客

于06-05 16:57 - -
双向同步与单向同步类似,但需要着重注意两个问题:防止数据循环和防止数据冲突. 在EXTRACT进程中忽略REPLICAT的事务,一般排除提取用户的操作,并且与需要同步的用户分开. 如USERID SCOTT,PASSWORD TIGER. 一般要从应用层面解决,避免操作相同的数据. 假设是A、B两个库之间的同步配置.

数据运营:如何搭建App的数据监控体系?

于05-24 17:37 - Alien - 产品运营 2年 初级 数据监控体系 数据运营
精细化运营的核心是数据驱动增长,透过数据分析指引产品迭代和运营推广. 因此,产品和运营需要掌握一定的数据运营能力,特别是需要搭建一套产品运营数据的监测体系来对日常运营效果进行复盘. 本文介绍了搭建App数据监控体系的四大数据层次,与大家分享. 移动互联网进入到下半场,流量红利逐渐消失,互联网公司的竞争从增量用户的争夺转向存量用户的争夺.

为什么腾讯 QQ 的大数据平台选择了这款数据库?

于05-24 00:00 - - tuicool
来源:大数据DT(ID:hzdashuju). 00 为什么QQ要选择InfluxDB. 从2016年起,笔者在腾讯公司负责QQ后台的海量服务分布式组件的架构设计和研发工作,如微服务开发框架、名字路由、名字服务、配置中心等,做了大量分布式架构、高性能架构、海量服务、过载保护、柔性可用、负载均衡、容灾、水平扩展等方面的工作,以公共组件的形式支撑来自QQ后台和其他BG海量服务的海量流量.

Elasticsearch6.X 去重详解_大数据_铭毅天下(公众号同名)-CSDN博客

于05-22 15:33 - -
Elasticsearch有没有类似mysql的distinct的去重功能呢. 类似mysql: select distinct(count(1)) from my_table;. 类似mysql:SELECT DISTINCT name,age FROM users;. 1)对ES的检索结果进行去重统计计数.

数据迁移的套路

于05-10 22:13 - -
随着业务的发展,存储也会经常性的需要迁移. 以下场景是我们开发过程中经常遇到的. 业务、团队在快速扩张,需要适当时机进行微服务的拆分,需要独立的数据库,将数据从源数据库迁移到新的数据库. 单表的记录数比较大,需要进行分库分表. 需要将老表的数据迁移到新的分表中. 存储选型不对,比如关系型数据库的相互迁移, PG, MySQL,Oracle的相互迁移.

es集群快速恢复(优化方案)_大数据_ClearloveXXX的博客-CSDN博客

于05-01 08:37 - -
2、关闭allocate,禁止shard做allocate. 5、等级集群变成yellow后开启allocate,允许shard做allocate. 调整集群恢复时的带宽,-1是指无限制 . 调整集群恢复时的单机并发度,最好是和磁盘块数一致 . 调整集群恢复时单个shard中同时恢复的小文件的个数.

Docker备份、恢复、迁移数据卷 · Docker:从入门到实践

于04-27 12:01 - -
利用数据卷容器来备份、恢复、迁移数据卷. 利用数据卷容器来备份、恢复、迁移数据卷. 可以利用数据卷对其中的数据进行进行备份、恢复和迁移. --volumes-from标记来创建一个加载 dbdata 容器卷的容器,并从主机挂载当前目录到容器的 /backup 目录. tar命令来将 dbdata 卷备份为容器中 /backup/backup.tar 文件,也就是主机当前目录下的名为.

有8亿用户的网易云音乐是怎样建设数据中台的?

于04-23 16:05 - 万佳 -
这几年,“中台战略”概念像是一把火,“烧遍”国内互联网. 而在业界,关于中台的实践并不多,尤其是数据中台. 带着这些疑惑,InfoQ 记者采访了 ArchSummit 全球架构师峰会讲师网易云音乐数据智能部数据开发专家朱一飞. 作为国内知名音乐平台,网易云音乐有 8 亿用户. 不过,它面临的挑战在于,一方面各个业务单元在 8 亿用户基数上积累海量的数据,另一方面,业务部门基于发展需要提出大量数据需求,并且在数据质量、数据共享、实时化方面的要求越来越高.

根据配置实现不同ES索引保留天数不同

于04-22 15:27 - dai_lm -
由于ES接入的项目变多,之前所有索引都保留30天,现在需要根据业务不同,索引保留的天数可以配置,所以写了shell命令,可以根据配置删除过期索引,配合cron执行. 索引按照天进行分隔,格式统一为:xxxx_yyyy.mm.dd. #/bin/bash ES_URL="http://127.0.0.1:9200" #填写你的es对外http连接地址 ES_USER="username" #name代表你的你的es用户名 ES_PASSWORD="password" #password代表你的es用户密码 delete_index() {.

hive中创建关联hbase表的几种方案_大数据_Tony_仔仔 的博客-CSDN博客

于04-17 23:25 - -
有时候我们需要把已存在Hbase中的用户画像数据导到hive里面查询,也就是通过hive就能查到hbase里的数据. 但是我又不想使用sqoop或者DataX等工具倒来倒去. 这时候可以在hive中创建关联表的方式来查询hbase中的数据. 前提是:hbase中已经存在了一张表. 可选的方案:既可以在hive中关联此表的所有列簇,也可以仅关联一个列簇,也可以关联单一列蔟下的单一列,还可以关联单一列簇下的多个列.

ShardingSphere x Seata,一致性更强的分布式数据库中间件

于07-07 00:00 - - dev
日前,分布式数据库中间件 ShardingSphere 将Seata 分布式事务能力进行整合,旨在打造一致性更强的分布式数据库中间件. 数据库领域,分布式事务的实现主要包含:两阶段的 XA 和 BASE 柔性事务. XA 事务底层,依赖于具体的数据库厂商对 XA 两阶段提交协议的支持. 通常,XA 协议通过在 Prepare 和 Commit 阶段进行 2PL(2 阶段锁),保证了分布式事务的 ACID,适用于短事务及非云化环境(云化环境下一次 IO 操作大概需要 20ms,两阶段锁会锁住资源长达 40ms,因此热点行上的事务的 TPS 会降到 25/s 左右,非云化环境通常一次 IO 只需几毫秒,因此锁热点数据的时间相对较低).

【转载】主数据管理(MDM)与元数据管理 - bada130 - 博客园

于04-16 13:52 - -
主数据(Master Data)和元数据(Meta Data)是两个完全不同的概念. 元数据是指表示数据的相关信息,比如数据定义等,而主数据是指实例数据,比如产品目录信息等. 比如,某省地税开发了一套 征收管理软件,以市为单位部署了17套,每套征收管理软件中的元数据都是一样的,但是主数据还是需要进行管理的.

数据中台演进的四个阶段 | 机器之心

于04-16 09:37 - -
目前的数据中台,最底下的数据平台还是偏技术的,是中台技术方案的其中一个组件,主要解决数据存储和计算的问题;在上面就是一层数据服务层,数据服务层通过服务化API能够把数据平台和前台的业务层对接;数据中台里面就没有人的事情,直接系统去做对接,通过智能算法,能把前台的分析需求和交易需求去做对接,最终赋能业务.

昨天讲平台、今天变中台,数据中台都干了啥?-InfoQ

于04-16 09:16 - -
数据中台火的很让人不解,半年前还在炒概念,现在突然就看到各个企业都在宣传自家的数据中台了. 这半年,大家热衷于讨论什么是“数据中台”,并且还有“有一千个企业,就有一千个数据中台”的说法,但实际上企业都有“共识”,我们采访了多家企业,想给大家一个准确的“数据中台”定义. 中国企业的大数据发展大概经历了 三个阶段.

FileBeat采集JSON日志_大数据_Mr.Bean-CSDN博客

于04-15 09:12 - -
FileBeat采集JSON日志. 使用FileBeat采集JSON日志传输到logstash或者elasticsearch中,其中FileBeat的版本为5.5.0,Elasticsearch的版本为5.6.8. 关于配置filebeat的json采集,主要需要注意的有以下几个配置项. 上面的几个配置项,只要配置了任意一项,filebeat就会开启json采集的功能.

Elasticsearch如何更新mapping_大数据_宁千阳博客-CSDN博客

于04-07 17:32 - -
Elasticsearch 的 mapping 在创建. indices时即已确定,无法更改. 那么,当我们需要更新 mapping 时,该如何是好呢. 当我们在创建一条索引时,添加好 mapping 后,可设置一个. alias指向该索引,然后生产环境采用该. 当然,如果没有这样做的话,建议趁早备份,修改 API.

HTAP 会成为数据库的未来吗?

于03-28 00:00 - - tuicool
本文转载自InfoQ 官网. 在访问量和数据量急剧膨胀的今天,关系型数据库已经难以支撑庞大复杂的系统规模. 在此背景下,备受关注的数据库新理念 HTAP,会是一条“正确”的路吗. 在互联网浪潮出现之前,企业的数据量普遍不大,特别是核心的业务数据,通常一个单机的数据库就可以保存. 那时候的存储并不需要复杂的架构,所有的线上请求 (OLTP, Online Transactional Processing) 和后台分析 (OLAP, Online Analytical Processing) 都跑在同一个数据库实例上.