更新于:04-06 09:44

有关[数据]分类推荐

ElasticSearch —修改ES数据

于05-17 16:52 - -
ElasticSearch能够以接近实时的速度提供数据操作和搜索功能. 在默认情况下,从索引/更新/删除数据到出现在搜索结果之间,你可能会感受到有1秒的延迟时间(刷新间隔). 这是与SQL等其他平台的一个重要区别,这些平台在完成事务之后,它们的数据立即可用. 先前,我们已经知道如何索引一个单个的文档.

如何设计高效的HBase数据模型

于05-14 16:42 - Jowin -
从学习和使用HBase的经历中,整理出对使用者而言,需要了解的HBase基础知识,Mark一下. 学习HBase/BigTable最困难的部分,是理解它的数据模型,换句话说它究竟是咋用的. 在BigTable论文中明确说明:. The map is indexed by a row key, column key, and a timestamp; each value in the map is an uninterpreted array of bytes.

MySQL复制可能造成数据不一致的地方

于05-15 07:06 - wubx -
上周在讲复制故障处理,利用DML在从主上手工造数据,导致主从复制中断,然后处理复制故障,同时给大家安利了:. 课程Demo程序:主从故障自动修复:zhishutech/ReplGurd (github.com)  建议fork|star | watch  有完善的地方请pull回来. 复制主从数据一致性校验、修复程序:pt-table-checksum/pt-table-sync 使用.

Binlog, Redolog 在分布式数据库系统中的应用

于05-08 22:42 - ideawu - 分布式 数据库
在一个系统中, 有 client 和 server 两个角色, client 向 server 发起请求(request), 这里的请求指写数据请求, 例如某条类似 "update table set a=1" 这样的 SQL 语句. 我们把 server 进行拆分, 得到下面这个更细化一些的系统结构:.

Redis 大数据量(百亿级)Key存储需求及解决方案

于04-28 10:06 - 小热爱 -
最近我在思考实时数仓问题的时候,想到了巨量的redis的存储的问题,然后翻阅到这篇文章,与各位分享. 该应用场景为DMP缓存存储需求,DMP需要管理非常多的第三方id数据,其中包括各媒体cookie与自身cookie(以下统称supperid)的mapping关系,还包括了supperid的人口标签、移动端id(主要是idfa和imei)的人口标签,以及一些黑名单id、ip等数据.

数据同步工具 Elasticsearch-datatran v6.2.9 发布

于04-19 22:33 - -
Elasticsearch版本兼容性:支持各种Elasticsearch版本(1.x,2.x,5.x,6.x,7.x,+)之间相互数据迁移. 数据同步改进:完善ip2region和geoip数据库热加载机制. Restclient改进:升级httpcliet组件版本到最新的官方版本4.5.13. Restclient改进:升级fastxml jackson databind版本2.9.10.8.

数据一致性的一些思考

于04-15 11:23 - HappyTeemo -
没有银弹,需要根据自己的业务场景做取舍. 业务量有多少,需要主从读写分离么,需要分库分表么. 是需要多表合并,还是多行合并,还是多库合并. 该如何容灾?更新、删除缓存失败你能不能接受. 如果删除缓存失败,你还允不允许更新数据库. 要根据实际业务场景来定制方案. 大部分业务场景都是读多写少,而且数据库(mysql)写很少看到写挂的,都是读有瓶颈.

震惊!手机恢复出厂设置数据仍可“复活”,一两毛钱就能获取你的基本信息!

于04-11 16:53 - - 业界
4月10日消息,据央视财经频道新闻报道,手机在恢复出厂设置后,仍然可以通过特殊手段来恢复数据. 就此新闻报道后,关于手机隐私泄露又再次引起了人们的担忧. 对此,在微博上有网友表示,“从来不卖旧手机,我宁愿放着”,“害怕第三方保留数据”,大家更愿意放着闲置,也不想承担数据泄露的风险. 不过可以理解的是,大部分人使用手机不会超过三到四年,就会考虑换新机.

全球分布式数据库遇到的经典问题

于04-09 22:03 - ideawu - 分布式 数据库
全球分布式数据库因为地理距离较远(上万公里), 网络通信延迟一般在 100ms 级别, 所以只能采取异步复制的方案. 采取异步复制方案, 那就决定了最终数据被复制的时效性无法得到保证, 例如正常情况仅仅比网络延迟多几毫秒(100ms+). 但坏情况时, 例如, 因为网络线路不好, 数据可能要花费数秒甚至数分钟才能同步.

腾讯唯一时序数据库:CTSDB 解密

于04-03 17:51 - -
本文将对时序数据库的基本概念、应用场景及腾讯时序数据库CTSDB做简要介绍,希望对您有所帮助. 本文来自于公众号腾讯技术工程,由火龙果软件刘琛编辑推荐. 在引入时序数据库之前,先要了解“时序数据”的概念:按照时间顺序记录系统、设备状态变化的数据被称为时序数据(TimeSeries Data). 它普遍存在于IT基础设施、运维监控系统和物联网中.

百亿数据,毫秒级返回,如何设计?--浅谈实时索引构建之道 - ErnestEvan - 博客园

于04-03 16:55 - -
本文已整理致我的 github 地址. https://github.com/allentofight/easy-cs,欢迎大家 star 支持一下. 本文会结合我司在 ES 上的实践经验与大家谈谈如何构建准实时索引的一些思路,希望对大家有所启发. 为什么要用搜索引擎,传统 DB 如 MySQL 不香吗.

超3亿活跃用户的多活架构,数据同步与流量调度怎么做? - 架构 - dbaplus社群:围绕Data、Blockchain、AiOps的企业级专业社群。技术大咖、原创干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙。

于04-01 14:05 - -
1、OPPO多活架构原则   . 多活成本比较高的,双活是两倍,三活可能成本会低一些,但三活的难度更大. 因此没有办法对所有业务进行多活,只能对主线做多活. 举个例子,系统有个充值的功能,充值功能本身是强一致的,完全不能允许任何的延迟或者是副本的读. 但是多活切换之后,只有少数用户在切换的前几分钟有充值的,这部分用户余额可能没有通过过去,只需要对这部分用户进行服务降级,其他绝大多数用户是可以使用完整的服务的.

实时数据聚合怎么破

于03-30 14:17 - -
实时数据分析一直是个热门话题,需要实时数据分析的场景也越来越多,如金融支付中的风控,基础运维中的监控告警,实时大盘之外,AI模型也需要消费更为实时的聚合结果来达到很好的预测效果. 实时数据分析如果讲的更加具体些,基本上会牵涉到数据聚合分析. 数据聚合分析在实时场景下,面临的新问题是什么,要解决的很好,大致有哪些方面的思路和框架可供使用,本文尝试做一下分析和厘清.

PostgreSQL 时序数据库插件 timescaleDB 部署实践(含例子 纽约TAXI数据透视分析) - PostGIS + timescaleDB => PG时空数据库 - Digoal.Zhou’s Blog

于03-30 14:13 - -
现实社会中,很多业务产生的数据具有时序数据属性(在时间维度上顺序写入,同时包括大量时间区间查询统计的需求). 例如业务的FEED数据,物联网产生的时序数据(如气象传感器、车辆轨迹、等),金融行业的实时数据等等. PostgreSQL的UDF和BRIN(块级索引)很适合时序数据的处理. 《PostgreSQL 按需切片的实现(TimescaleDB插件自动切片功能的plpgsql schemaless实现)》.

喝茶聊方案:分库分表方案之数据迁移

于03-25 15:02 - 热茶 -
分库分表需要从单库迁移到分片库,这就涉及到迁移工作.那怎么迁移?看了下有这几种迁移方式. 停机迁移简要说下,就是说提前准备一个流量少的时间点,提前发布好公告服务停机,然后把数据从单片库搬运到分片库后,再启动新的读写分片库的服务就完了.这里有几个缺点. 需要运维,开发和测试都在场,协同成本比较高. 不做额外处理的话,为了保证数据完整,需要所有服务停机后再做数据搬运,数据较多的情况下数据搬运有一定时间消耗.

数仓已死?数据湖当立

于03-19 00:00 - - dev
前两天,我详细剖析了一下这两天脉脉上很火的数据建模帖子. 指出来帖子里百度小哥“只见宽表不见建模”的核心原因是整个数据圈的核心逻辑变了. 然后就引起了建模群里一帮人在疯狂吐槽. 也有大厂的数仓大佬高屋建瓴,指点江山,侃侃而谈. 因为我们知道,这再也不是以前数据至上、工程为先的俄罗斯方块游戏了,而是客户至上、业务为先的神庙逃亡游戏.

Beats:如何避免重复的导入数据

于03-02 09:32 - Elastic -
Beats 框架保证至少一次交付,以确保将事件发送到支持确认的输出(例如 Elasticsearch,Logstash,Kafka 和 Redis)时不会丢失任何数据. 如果一切按计划进行,那就太好了. 但是,如果 Filebeat 在处理过程中关闭,或者在确认事件之前断开了连接,则最终可能会有重复的数据.

Flink 如何实时分析 Iceberg 数据湖的 CDC 数据

于02-24 06:50 - Flink_China -
本文由李劲松、胡争分享,社区志愿者杨伟海、李培殿整理. 主要介绍在数据湖的架构中,CDC 数据实时读写的方案和原理. 文章主要分为 4 个部分内容:. 常见的 CDC 分析方案. 为何选择 Flink + Iceberg. 一、常见的 CDC 分析方案. 我们先看一下今天的 topic 需要设计的是什么.

MySQL海量数据优化(理论+实战) 吊打面试官

于02-02 09:12 - 消灭知识盲区 -
提示:下方有源代码地址,请自行拿取. 朋友们,又见面了,上篇文章咱们讲到MySQL分库分表的方法,这篇文章咱们就针对上一篇文章模拟在MySQL中海量数据的优化方法,文章干货较多,建议你点赞、评论、收藏、关注起来慢慢看. 提示:以下是本篇文章正文内容,案例仅供参考. 咱们建一张用户表,表中的字段有用户ID、用户名、地址、记录创建时间,如图所示.

数据仓库项目中的数据建模和ETL日志体系 - ThoughtWorks洞见

于01-18 18:01 - -
对于一个软件来说,分为功能需求和跨功能需求(Cross-Functional Requirements, CFR). 功能需求,一般是我们可以看见的,就是实现了什么功能,提供了什么服务. 而跨功能需求,是隐性的,容易被忽略,通常被称为非功能需求(Non-Functional Requirements, NFR).

机构、研究员写文章的调研数据是从哪里找的 - 知乎

于01-13 14:25 - -
研究员写作文章的数据来源均有三大类: . 1、第一类是我们公司自有的一手数据,我司是深圳前瞻商业资讯有限公司,长期跟踪研究1000多个行业、与10万余企业有良好合作关系,从而积累了丰富的一手调研数据,并且建立了专业的数据库;. 2、第二类是来自于官方、协会数据,我司拥有国家统计局、国家税务局、海关总署、工信部、商务部等三十余个官方部门数据查询权限,并且与国内500余协会形成合作关系;.

使用logstash同步mysql 多表数据到ElasticSearch实践 - 三度 - 博客园

于01-13 09:26 - -
参考样式即可,具体使用配置参数根据实际情况而定. jdbc_connection_string => "jdbc:mysql://localhost/数据库名". jdbc_driver_library => "mysql-connector-java-5.1.45-bin.jar所在位置". type => "数据库表名1".

支撑700亿数据量的ClickHouse高可用架构实践

于01-07 08:00 - dbaplus社群 -
讲师介绍:蔡岳毅,携程旅行网酒店研发中心高级研发经理,资深架构师,负责酒店大住宿数据智能平台,商户端数据中心以及大数据的创新工作. 大家好,我是来自携程的蔡岳毅,今天给大家分享ClickHouse在我们大数据平台的应用,主要从应用的角度来介绍我们的高可用架构. 其实这个百亿,我没太纠结,来之前我查了一下,现在我的平台上面是将近700亿数据,压缩前是8T,存储是压缩后1.8T.

数据中台到底包括什么内容?一文详解架构设计与组成

于01-05 00:00 - - dev
导读:《 终于有人把数据中台讲明白了》一文讲到数据中台的定义和价值,本文将介绍 数据中台到底包括什么内容. 企业建设数据中台的过程中 哪些能力是必选项, 哪些是可选的,将在本文一一揭晓. 作者:陈新宇 罗家鹰 江威 邓通 等. 来源:大数据DT(ID:hzdashuju). 01  数据中台功能架构.

为什么MySQL不建议delete删除数据

于01-04 00:37 - 敖丙 -
有情怀,有干货,微信搜索【. 三太子敖丙】关注这个不一样的程序员. github.com/JavaFamily 已收录,有一线大厂面试完整考点、资料以及我的系列文章. 我负责的有几个系统随着业务量的增长,存储在MySQL中的数据日益剧增,我当时就想现在的业务方不讲武德,搞偷袭,趁我没反应过来把很多表,很快,很快啊都打到了亿级别,我大意了,没有闪,这就导致跟其Join的表的SQL变得很慢,对的应用接口的response time也变长了,影响了用户体验.

SpringBoot2.X整合Redis(单机+集群+多数据源)-Lettuce版

于01-04 14:58 - -
最近项目尝试从SpringBoot1.X升级到SpringBoot2.X, 但是 Spring Boot 2.0中 Redis 客户端驱动现在由 Jedis变为了 Lettuce, 所以尝试测试一下Lettuce的使用. 下面简单介绍一下Lettuce.. Jedis:是Redis 老牌的Java实现客户端,提供了比较全面的Redis命令的支持,.

数据管理流程,基础入门简介

于01-02 00:00 - - dev
数据在现在互联网的行业中可以说是最核心的话题,数据的价值已经被称为资产了,大部分的互联网应用都会源源不断的产生各种数据,如何管理和使用这些数据,让这些看似平常的数据产生更大的价值,一直是热门的探索领域. 比如常见的风控、营销、推广等各种业务,都需要依赖大量的用户行为数据作为依赖,才能精准的对相关流程做出分析判断.

数据库,主键为何不宜太长长长长长长长长?

于12-10 03:54 - 58沈剑_架构师之路 -
_沈老师,我听网上说,MySQL 数据表,在数据量比较大的情况下,主键不宜过长,是不是这样呢. 这个问题嘛,不能一概而论:. InnoDB 存储引擎,主键不宜过长;. MyISAM 存储引擎,影响不大;. 先举个简单的栗子说明一下前序知识. (2)name 建了普通索引;. MyISAM,其索引与记录的结构是这样的:.

微服务架构下你的数据一致了吗?

于12-30 00:00 - - dev
数据一致性问题首先是个业务问题,其次才是个技术问题. 在微服务架构下,我们期望每个服务职责单一,这种职责单一体现的是业务价值,如果微服务的拆分过小而导致业务难以实现,那这种拆分是不合理的,业务专家们非常有必要了解系统,从业务侧给出服务拆分的建议. 微服务架构的流行源于它能够带来更快的变化响应能力,比如独立部署,每个服务的能力职责是独立的,可以按需独立发布;再比如每个服务可以由不同的开发团队负责,每个服务的技术栈也可以不同,可以选择更快捷合理的方式实现不同的服务.

如何保证缓存与数据库的双写一致性?

于12-27 17:14 - aoxiang -
分布式缓存是现在很多分布式应用中必不可少的组件,但是用到了分布式缓存,就可能会涉及到缓存与数据库双存储双写,你只要是双写,就一定会有数据一致性的问题,那么你如何解决一致性问题. 最经典的缓存 数据库读写的模式,就是 Cache Aside Pattern. 读的时候,先读缓存,缓存没有的话,就读数据库,然后取出数据后放入缓存,同时返回响应.