更新于:12-12 13:20

有关[数据]分类推荐

Spring Boot 2 实战:使用 Flyway 管理你数据库的版本变更 - SegmentFault 思否

于01-16 12:27 - -
随着项目的不断迭代,数据库表结构、数据都在发生着变化. 甚至有的业务在多环境版本并行运行. 数据为王的时代,管理好数据库的版本也成为了迫切的需要. Git之类的版本控制工具来管理数据库. Liquibase来管理数据库版本. Flyway相对来说比较受欢迎. Flyway大受欢迎是因为它具有以下优点:.

比较Flyway与Liquibase两大数据库迁移工具_Java

于01-16 12:14 - -
众所周知,对于那些使用着关系型数据库引擎的各类应用程序而言,数据库迁移工具的选用是至关重要的. 它们不但能够让各种复杂且重复的过程更加自动化,而且可以让我们更加轻松且准确地完成各种大型的迁移任务. 下面,我将对两种最常见的开源迁移工具--Flyway和Liquibase,进行介绍与比较,以方便您在实际项目中做出合理的选择.

ClickHouse集群数据均衡方案分享

于12-11 09:47 - 禹鼎侯 - clickhouse ckman 大数据 集群 负载均衡
ClickHouse集群数据在写入时,虽然可以通过 Distributed引擎的 sharding_key指定策略,从而保证一定程度的数据均衡,但这并不是最终解决方案. 比如 rand()均衡策略虽然可以保证数据的相对均衡,但是可能会破坏数据的内在业务逻辑. 举个简单的例子,我们想要将 kafka的数据写入 clickhouse集群,如果采用 rand()的策略,则可能将同一个 partition的数据拆分到 clickhouse集群不同的 shard中,为后续的数据分析等造成了一定的麻烦.

少数数据集支配着机器学习研究

于12-06 22:06 - -
UCLA 和 Google Research 的研究人员在预印本网站发表论文《 Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research》(PDF), 指出机器学习研究领域被少数开源数据集支配的现状.

一个 Babelfish ,看懂云数据库的发展方向

于12-01 09:08 - 思否编辑部 - 亚马逊云
作为基础软件皇冠上的明珠,数据库技术一直以来都是开发者关注的焦点. 这关注度是如此之高,几乎自然打通了学界和产业界的隔阂,以至于关于数据库技术的每一篇重要论文面世,都可能导致一批价值数十亿美金的公司出现. 而在最近几年,纵观整个数据库产业,云数据库逐渐成为焦点中的焦点. 据 Gartner, Inc 称,到 2022 年,所有数据库中有 75% 将部署或迁移到云平台,只有 5% 曾考虑返回到本地.

微服务数据一致性的演进:SAGA,CQRS,Event Sourcing的由来和局限-InfoQ

于11-07 20:36 - -
讲微服务数据一致性的文章,网上比较多. 此前 EAWorld 与发过几篇,包括《 微服务架构下的数据一致性保证(一)》、《 微服务架构下的数据一致性保证(二)》、《 微服务架构下的数据一致性保证(三):补偿模式》,以及《 使用消息系统进行微服务间通讯时,如何保证数据一致性》. 本篇文章在我看来,是从一个纵向的维度把相关的一致性概念的演进过程,讲的比较清晰,简单的逻辑是这样的:.

Facebook宣布不再使用人脸识别技术 将删除超过10亿用户数据

于11-03 10:32 - - TechWeb
11月3日消息:Facebook 今天凌晨宣布,该公司将终止使用人脸识别系统,并将删除超过10亿人的人脸识别模板. 数据显示,已有超过三分之一的日活用户(逾6亿个账户)在Facebook上选择使用人脸识别技术. Facebook人脸识别系统可以自动识别发布在社交媒体的照片和视频中人的面部. 据报道,此举是新更名的Meta公司人工智能副总裁Jerome Pesenti在一篇博文中提及,Pesenti表示,Facebook将在未来几周关闭其面部识别系统,删除超过10亿人的个人面部识别数据,「作为公司对于面部识别使用限制的一部分」.

数据治理理论 + 实践

于11-02 00:00 - - dev
数据治理无论是在数仓建设过程中还是数仓建设完成之后都是及其重要的,是数据部门基础建设的必经之路,是降本提效,形成企业数据资产的关键一环. 数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高.

数据治理项目失败,90%都被这样搞垮了

于10-31 12:14 - -
数字化时代,数据作为新的生产要素受到了各界前所未有的重视. 随着数据越来越多,怎么管好、用好数据,让数据发挥价值,成为了很多企业的一个难题,而且还是一个必选题. 有效的数据治理可以确保企业数据全面、一致、可信,从而全面释放数据的价值,提高业务流程效率、提升业务增长的机会,驱动企业数字化转型. 这听起来很简单,但事实上数据治理对每个企业都是一项很大的挑战.

数据同步工具之FlinkCDC/Canal/Debezium对比-技术圈

于10-31 12:10 - -
数据准实时复制(CDC)是目前行内实时数据需求大量使用的技术,随着国产化的需求,我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发,逐步实现对商业产品的替代. 本文把市面上常见的几种开源产品,Canal、Debezium、Flink CDC 从原理和适用做了对比,供大家参考. 本文首发微信公众号《import_bigdata》.

Debezium Binlog实时数据采集、落地数据使用的思考总结 - Eric-Ln - 博客园

于10-30 23:01 - -
  首先抛开技术框架的讨论,个人总结Binlog 日志的数据采集主要原则:.   原则一 : 与业务数据解耦.   原则二 : 与业务数据结构解耦.   原则三 : 数据是可回溯的.   分别阐述一下这三个原则的具体含义.     在数据采集中,数据落地一般都会使用时间分区进行落地,那就需要我们确定一下固定的时间戳作为时间分区的基础时间序列.

性能优化:如何更快地接收数据 (zhuanlan.zhihu.com)

于10-28 00:00 - - jianshu
从网卡到应用程序,数据包会经过一系列组件,其中驱动做了什么. 整个过程中涉及到诸多细微可调的软硬件参数,并且相互影响,不存在一劳永逸的“银弹”. 本文中又拍云系统开发高级工程师杨鹏将结合自己的的实践经验,介绍在深入理解底层机制的基础上如何做出“场景化”的最优配置. 文章根据杨鹏在又拍云 Open Talk 技术沙龙北京站主题演讲《性能优化:更快地接收数据》整理而成,现场视频及 PPT 可下拉文末点击阅读原文查看.

Docker 命令查看并清理数据卷及磁盘

于10-19 08:00 - - Container Docker Docker Container
Docker 在长时间使用的情况下,经常需要删除旧的容器并创建新的容器,长此以往,Docker 的数据卷 volumes 会产生了非常多的僵尸文件. 以下介绍如何查看并清理这些僵尸文件. 在 Docker 1.9 以上的版本中,官方提供用于查询僵尸文件的命令:. Docker 1.13 引入了类似于 Linux 上 df 的命令,用于查看 Docker 的磁盘使用情况.

Shopee x JuiceFS:ClickHouse 冷热数据分离存储架构与实践 · JuiceFS 博客 - 面向云端的 POSIX 共享文件系统

于10-10 12:57 - -
转载声明:本文转自 Shopee 技术团队微信公众号. Shopee ClickHouse 是一款基于开源数据库 ClickHouse 做二次开发、架构演进的高可用分布式分析型数据库. 本文将主要介绍 Shopee ClickHouse 的冷热分离存储架构和支持公司业务的实践. Shopee ClickHouse 的冷热分离存储架构使用 JuiceFS 客户端 mount 远端对象存储到本地机器路径,通过编写 ClickHouse 的存储策略,如同使用多卷存储一样使用远端对象存储.

数据库崩的时候,没有一个慢SQL是无辜的……

于10-09 11:00 - -
这里指的是MySQL慢查询,具体指运行时间超过long_query_time值的SQL. 我们常听常见的MySQL中有二进制日志binlog、中继日志relaylog、重做回滚日志redolog、undolog等. 针对慢查询,还有一种慢查询日志slowlog,用来记录在MySQL中响应时间超过阀值的语句.

腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统

于10-04 00:00 - - dev
▼ 关注「 Flink 中文社区」,获取更多技术干货 ▼. 摘要:本文由社区志愿者路培杰整理,腾讯看点数据团队高级工程师王展雄在 Flink Forward Asia 2020 分享的议题《腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统》. Tips:点击 「阅读原 文」即可查看作者分享原版视频~.

2021年超全超详细的最新大数据开发面试题,附答案解析 – 过往记忆

于09-25 10:19 - -
HDFS在读取文件的时候,如果其中一个块突然损坏了怎么办. HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了怎么办. NameNode在启动的时候会做哪些操作. Secondary NameNode了解吗,它的工作机制是怎样的. Secondary NameNode不能恢复NameNode的全部数据,那如何保证NameNode数据存储安全.

中国主机托管TOP5:中电信、万国数据、世纪互联、中移动、中联通

于09-21 23:40 - -
研究公司 Synergy Research Group 的最新数据表明,亚太地区的主机托管市场仍呈现碎片化,导致主要国家或地区市场的领导者排行榜上出现一系列广泛的主机托管服务提供商. 基于今年第二季度的主机托管收入,NTT 和 Equinix 是整个亚太区的两大领跑者. 它们也是有资格声称在亚太区最具势力的两家公司,因为每家公司在至少四个主要的亚太国家或地区拥有相当大的市场份额.

火山引擎流批数据质量解决方案和最佳实践

于09-12 18:26 - -
火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的. 面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求. 本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质量监控.

Django 优化数据库查询的一些经验

于08-20 20:06 - laixintao - Python cache Database django django-rest-framework
ORM 帮我们节省了很多工作,基本上不用写 SQL,就可以完成很多 CRUD 操作,而且外键的关联也会自动被 ORM 处理好,使得开发的效率非常高. 我觉得 Django 的 ORM 在 ORM 里面算是非常好用的了,尤其是自带的 Django-admin,可以节省很多工作,甚至比很多公司内部开发的后台界面都要优秀.

数据分析该知道的IP地址知识

于08-25 21:45 - 钱魏Way - 数据 术→技巧 IP
第一次接触到IP,还是在十多年前使用统计系统时,当时的统计系统中有个指标是IP地址. 即记录每天有多少不同的IP访问您的网站,在后来是自己搭建统计系统时涉及到对IP地址省份、城市、区域的解析. 最近在推进风控项目时又有遇到,所以抽时间把相关的知识点做下简单的整理. IP地址(英语:IP Address,全称Internet Protocol Address).

Greenplum VS ClickHouse (单表11亿数据)

于08-25 11:37 - -
公司的一个报表业务,数据量比较大,用户使用频繁. 为了更好的用户体验,我们之前尝试过多种技术:MongoDB、ElasticSearch、Greenplum 等,但是一直没办法做到大部分查询秒级响应. 前段时间探索了很多大数据产品,无意中发现 ClickHouse,很快就被其极致的性能所吸引. 在一番实验和研究后,我们决定用 ClickHouse 解决这个历史债务.

如何做好大型遗留系统的数据迁移 - Thoughtworks洞见

于08-20 23:03 - -
历史悠久的大型企业,都会存在遗留系统. 这些系统运转着重要的业务,但使用到的技术已经跟不上时代潮流. 因此有着维护成本高、难以扩展、用户体验差等缺陷. 最终,企业一定会下决心开发一套全新的系统来替代遗留系统. 除了完成新系统的开发,还有一项重要的工作,是将老系统中存留的数据迁移进新系统,也就是我们常说的数据迁移.

微服务的数据聚合Join_cn_hhaip的专栏-CSDN博客

于08-20 16:50 - -
CQRS和UI(前端)更新策略. 架构2005 VS 2016. 传统SQL数据库,通常正规化(normalization)的方式来建模数据. 数据冗余少,不足之处是数据聚合Join会比较麻烦,可能实际Join的时候,需要将几张相关表,通过主键和外键关系才能Join起来. 我们知道,Join是一种开销比较大的SQL运算,当数据量少的时候,这种开销通常OK.

Lenovo x DorisDB:简化数据处理链路,极大提升 BI 分析效率

于08-19 00:00 - - dev
整个数据分析体系,由数据采集、数据存储与计算、数据查询与分析和数据应用组成. 通过Sqoop读取RDBMS导入Hive. 用Flume来同步日志文件到Hive. 通过爬虫技术将网上数据爬取下来,存储到RDBMS,再由Sqoop 读取RDBMS,导入到Hive. 离线数据处理:利用Hive高可扩展的批处理能力承担所有的离线数仓的ETL和数据模型加工的工作.

设计数据密集型应用-Data-Intensive Application_王 炸的博客-CSDN博客

于08-17 22:37 - -
不懂数据库的全栈工程师不是好架构师              —— Vonng. 周六停更 Spring Boot 从入门到实践系列教程. 读一本好书《设计数据密集型应用》- Designing Data-Intensive Application.                                                             在正确的时候读一本合适的书是一种幸运~.

28个免费数据源网站,不要白不要_手机搜狐网

于08-08 15:18 - -
1.中国国家数据中心. 在中国国家数据中心,用户可以查找到所需要的最全面最权威的数据信息,了解最新的数据法规及制度. 国家统计局的官方网站,上面汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息,用户还可以在上面找到统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等. 这是香港特别行政区政府公共部门信息门户,该门户网站由政府首席信息官办公室负责维护,其中的数据集由不同的政府部门和公共/私人组织提供.

【书籍】设计数据密集型应用

于07-25 17:26 - -
如果近几年从业于软件工程,特别是服务器端和后端系统开发,那么您很有可能已经被大量关于数据存储和处理的时髦词汇轰炸过了: NoSQL. 在最近十年中,我们看到了很多有趣的进展,关于数据库,分布式系统,以及在此基础上构建应用程序的方式. 这些进展有着各种各样的驱动力:. 谷歌,雅虎,亚马逊,脸书,领英,微软和推特等互联网公司正在和巨大的流量/数据打交道,这迫使他们去创造能有效应对如此规模的新工具.

CDC (捕获数据变化) Debezium 介绍 | 首席架构师

于07-24 22:58 - -
Debezium是一个分布式平台,它将您现有的数据库转换为事件流,因此应用程序可以看到数据库中的每一个行级更改并立即做出响应. Debezium构建在Apache Kafka之上,并提供Kafka连接兼容的连接器来监视特定的数据库管理系统. Debezium在Kafka日志中记录数据更改的历史,您的应用程序将从这里使用它们.

那些数据工作中的角色 (insights.thoughtworks.cn)

于07-20 00:00 - - jianshu
数据工作中有一类非常重要的角色,那就是数据分析师. 因为要是没有这个角色,不管一个企业中的数据管理做得有多么好都没用,都无法带来实际的价值. 这些数据就像是藏在海底的石油,而数据分析师就是开采海底石油的油井设备. 要想让石油用于汽车轮船,需要通过这些设备先将海底的石油抽取出来,经过加工处理,提纯. 数据分析师的日常工作当然就是做数据分析.