更新于:04-06 09:44

有关[数据]分类推荐

中国主机托管TOP5:中电信、万国数据、世纪互联、中移动、中联通

于09-21 23:40 - -
研究公司 Synergy Research Group 的最新数据表明,亚太地区的主机托管市场仍呈现碎片化,导致主要国家或地区市场的领导者排行榜上出现一系列广泛的主机托管服务提供商. 基于今年第二季度的主机托管收入,NTT 和 Equinix 是整个亚太区的两大领跑者. 它们也是有资格声称在亚太区最具势力的两家公司,因为每家公司在至少四个主要的亚太国家或地区拥有相当大的市场份额.

火山引擎流批数据质量解决方案和最佳实践

于09-12 18:26 - -
火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的. 面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求. 本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质量监控.

Django 优化数据库查询的一些经验

于08-20 20:06 - laixintao - Python cache Database django django-rest-framework
ORM 帮我们节省了很多工作,基本上不用写 SQL,就可以完成很多 CRUD 操作,而且外键的关联也会自动被 ORM 处理好,使得开发的效率非常高. 我觉得 Django 的 ORM 在 ORM 里面算是非常好用的了,尤其是自带的 Django-admin,可以节省很多工作,甚至比很多公司内部开发的后台界面都要优秀.

数据分析该知道的IP地址知识

于08-25 21:45 - 钱魏Way - 数据 术→技巧 IP
第一次接触到IP,还是在十多年前使用统计系统时,当时的统计系统中有个指标是IP地址. 即记录每天有多少不同的IP访问您的网站,在后来是自己搭建统计系统时涉及到对IP地址省份、城市、区域的解析. 最近在推进风控项目时又有遇到,所以抽时间把相关的知识点做下简单的整理. IP地址(英语:IP Address,全称Internet Protocol Address).

Greenplum VS ClickHouse (单表11亿数据)

于08-25 11:37 - -
公司的一个报表业务,数据量比较大,用户使用频繁. 为了更好的用户体验,我们之前尝试过多种技术:MongoDB、ElasticSearch、Greenplum 等,但是一直没办法做到大部分查询秒级响应. 前段时间探索了很多大数据产品,无意中发现 ClickHouse,很快就被其极致的性能所吸引. 在一番实验和研究后,我们决定用 ClickHouse 解决这个历史债务.

如何做好大型遗留系统的数据迁移 - Thoughtworks洞见

于08-20 23:03 - -
历史悠久的大型企业,都会存在遗留系统. 这些系统运转着重要的业务,但使用到的技术已经跟不上时代潮流. 因此有着维护成本高、难以扩展、用户体验差等缺陷. 最终,企业一定会下决心开发一套全新的系统来替代遗留系统. 除了完成新系统的开发,还有一项重要的工作,是将老系统中存留的数据迁移进新系统,也就是我们常说的数据迁移.

微服务的数据聚合Join_cn_hhaip的专栏-CSDN博客

于08-20 16:50 - -
CQRS和UI(前端)更新策略. 架构2005 VS 2016. 传统SQL数据库,通常正规化(normalization)的方式来建模数据. 数据冗余少,不足之处是数据聚合Join会比较麻烦,可能实际Join的时候,需要将几张相关表,通过主键和外键关系才能Join起来. 我们知道,Join是一种开销比较大的SQL运算,当数据量少的时候,这种开销通常OK.

Lenovo x DorisDB:简化数据处理链路,极大提升 BI 分析效率

于08-19 00:00 - - dev
整个数据分析体系,由数据采集、数据存储与计算、数据查询与分析和数据应用组成. 通过Sqoop读取RDBMS导入Hive. 用Flume来同步日志文件到Hive. 通过爬虫技术将网上数据爬取下来,存储到RDBMS,再由Sqoop 读取RDBMS,导入到Hive. 离线数据处理:利用Hive高可扩展的批处理能力承担所有的离线数仓的ETL和数据模型加工的工作.

设计数据密集型应用-Data-Intensive Application_王 炸的博客-CSDN博客

于08-17 22:37 - -
不懂数据库的全栈工程师不是好架构师              —— Vonng. 周六停更 Spring Boot 从入门到实践系列教程. 读一本好书《设计数据密集型应用》- Designing Data-Intensive Application.                                                             在正确的时候读一本合适的书是一种幸运~.

28个免费数据源网站,不要白不要_手机搜狐网

于08-08 15:18 - -
1.中国国家数据中心. 在中国国家数据中心,用户可以查找到所需要的最全面最权威的数据信息,了解最新的数据法规及制度. 国家统计局的官方网站,上面汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息,用户还可以在上面找到统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等. 这是香港特别行政区政府公共部门信息门户,该门户网站由政府首席信息官办公室负责维护,其中的数据集由不同的政府部门和公共/私人组织提供.

【书籍】设计数据密集型应用

于07-25 17:26 - -
如果近几年从业于软件工程,特别是服务器端和后端系统开发,那么您很有可能已经被大量关于数据存储和处理的时髦词汇轰炸过了: NoSQL. 在最近十年中,我们看到了很多有趣的进展,关于数据库,分布式系统,以及在此基础上构建应用程序的方式. 这些进展有着各种各样的驱动力:. 谷歌,雅虎,亚马逊,脸书,领英,微软和推特等互联网公司正在和巨大的流量/数据打交道,这迫使他们去创造能有效应对如此规模的新工具.

CDC (捕获数据变化) Debezium 介绍 | 首席架构师

于07-24 22:58 - -
Debezium是一个分布式平台,它将您现有的数据库转换为事件流,因此应用程序可以看到数据库中的每一个行级更改并立即做出响应. Debezium构建在Apache Kafka之上,并提供Kafka连接兼容的连接器来监视特定的数据库管理系统. Debezium在Kafka日志中记录数据更改的历史,您的应用程序将从这里使用它们.

那些数据工作中的角色 (insights.thoughtworks.cn)

于07-20 00:00 - - jianshu
数据工作中有一类非常重要的角色,那就是数据分析师. 因为要是没有这个角色,不管一个企业中的数据管理做得有多么好都没用,都无法带来实际的价值. 这些数据就像是藏在海底的石油,而数据分析师就是开采海底石油的油井设备. 要想让石油用于汽车轮船,需要通过这些设备先将海底的石油抽取出来,经过加工处理,提纯. 数据分析师的日常工作当然就是做数据分析.

Charles抓取微信小程序数据包(HTTP/HTTPS) - 简书

于07-08 08:48 - -
项目前台为小程序,为快速定位错误,使用Charles进行抓包分析. 硬件环境:MAC + IPhone6P. Charles(MAC)破解版下载. 打开Charles -> Proxy -> Proxy Settings. 设置端口号为:8888,并勾选'Enable transparent Http proxying'项.

rsync+inotify-tools实现数据实时同步方案_Ljohn的技术博客_51CTO博客

于07-07 15:30 - -
与传统的cp、tar备份方式相比,rsync具有安全性高、备份迅速、支持增量备份等优点,通过rsync可以解决对实时性要求不高的数据备份需求,例如定期的备份文件服务器数据到远端服务器,对本地磁盘定期做数据镜像等. 随着应用系统规模的不断扩大,对数据的安全性和可靠性也提出的更好的要求,rsync在高端业务系统中也逐渐暴露出了很多不足.

MySQL大表数据归档的几种方法介绍 - 简书

于07-03 11:41 - -
使用MySQL的过程,经常会遇到一个问题,比如说某张”log”表,用于保存某种记录,随着时间的不断的累积数据,但是只有最新的一段时间的数据是有用的;这个时候会遇到性能和容量的瓶颈,需要将表中的历史数据进行归档. 下面来说说几种常见的数据归档方式. 一、使用分区,再利用分区交换技术能够很好地把指定分区中的数据移动到指定表中,这个需要在项目之处就进行此操作.

mysql历史数据自动归档_sdmei-CSDN博客_mysql 归档

于07-03 11:38 - -
数据库跑一段时间后,因为查询性能、磁盘容量,运维管理等方面的原因,需要将在线数据挪到历史库(不同的服务器). 如我们的在线订单只留3个月数据,3个月以前的就需要到历史库查了. 自动归档常见的方式有pt-archiver,但我还是觉得自己写存储过程更靠谱. 在线库实例打开federated支持,创建数据库dborder(业务库), linkhis(归档用);.

数据双向复制中的6个数据冲突场景和解决思路 - 云+社区 - 腾讯云

于06-26 14:11 - -
在双向复制,数据多活中,核心的一个部分就是数据处理,如何保证数据的如下几个问题,是整个方案设计的关键技术. 数据错乱的部分主要是基于消息队列的处理内容,可以转化为基于消息队列的消息延迟,消息丢失,消息重复这几个场景进行细化. 其中数据回环的部分可以参考之前的一篇文章. MySQL双主模式下是如何避免数据回环冲突的.

MySQL 数据库双向同步复制 - mindwind - 博客园

于06-26 12:52 - -
MySQL 复制问题的最后一篇,关于双向同步复制架构设计的一些设计要点与制约. 数据库的双主双写并双向同步场景,主要考虑数据完整性、一致性和避免冲突. 对于同一个库,同一张表,同一个记录中的同一字段的两地变更,会引发数据一致性判断冲突,尽可能通过业务场景设计规避. 双主双写并同步复制可能引发主键冲突,需避免使用数据库自增类主键方案.

ElasticSearch 双数据中心建设在新网银行的实践

于06-20 00:00 - - dev
本文公众号读者飞熊的投稿,本文主要讲述了ElasticSearch 双数据中心建设在新网银行的实践. 飞熊,目前就职于新网银行大数据中心,主要从事大数据实时计算和平台开发相关工作,对Flink ,Spark 以及ElasticSearch等大数据技术有浓厚兴趣和较深入的理解. 新网银行是作为西部首家互联网银行,一直践行依靠数据和技术驱动业务的发展理念.

mysql 一棵 B+ 树能存多少条数据?

于06-09 23:06 - -
mysql 的InnoDB存储引擎 一棵B+树可以存放多少行数据?. 要搞清楚这个问题,首先要从InnoDB索引数据结构、数据组织方式说起. 我们都知道计算机有五大组成部分:控制器,运算器,存储器,输入设备,输出设备. 其中很重要的,也跟今天这个题目有关系的是存储器. 我们知道万事万物都有自己的单元体系,若干个小单体组成一个个大的个体.

数据库内核的快照技术实现原理

于06-04 22:10 - ideawu - 数据库
"快照(Snapshot)"是数据库领域非常重要的一个概念, 最初是用于数据备份. 如今, 快照技术已经成为数据库内核(引擎)最核心的技术特性之一. 数据库内核的绝大多数操作, 都依赖于快照, 例如, LevelDB 的每一次读取操作和遍历操作, 其内部都必须创建一个快照, 所以, 对于一个请求量非常大的系统, 数据库内核每秒种就要创建和销毁几十万次快照.

Hive 元数据表结构详解_豪猪的博客-CSDN博客_hive元数据表结构

于06-01 17:14 - -
元数据是基础,这篇文章值得一读. 本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、SparkSQL、Hive等组件访问元数据库的理解. 1、存储Hive版本的元数据表(VERSION). 如果该表出现问题,根本进入不了Hive-Cli. 比如该表不存在,当启动Hive-Cli时候,就会报错”Table ‘hive.version’ doesn’t exist”.

Apache Atlas元数据血缘关系(Lineage)功能研究_tomalun的专栏-CSDN博客

于06-01 17:00 - -
血缘关系数据通过Process生成,可以在数据导入时自动生成或通过RestAPI新增Process生成. sqoop同步自动生成血缘数据. sqoop同步MySQL数据库数据到hive,同步成功后,通过sqoop的. Atlas Hook自动生成血缘数据. sqoop将MySQL数据库所有表数据同步到hive仓库命令:.

数据库内核的并发控制

于05-30 00:36 - ideawu - 数据库
大部分程序员最先接触并发编程, 一般是从编程语言里的多线程和锁开始. 但是, 并发控制是一种广义的技术思想, 千万不可将眼光局限于编程语言所提供的锁. 将编程语言里的并发控制技术推广, 就能得到任何层面的并发控制技术.. 以操作一个文件为例, 如果不做并发控制, 就会遇到数据完整性问题. 例如, 我们写入的一项数据, 对应着现实对象, 如果不做并发控制, 那么可能读到的时两项数据的混合体, 或者只读到一项数据的部分..

MySQL 数据库事务隔离性的实现

于05-29 03:52 - 华为云开发者社区 -
​​​​摘要: 事实上在数据库引擎的实现中并不能实现完全的事务隔离,比如串行化. 本文分享自华为云社区 《【数据库事务与锁机制】- 事务隔离的实现》,原文作者:技术火炬手. 事实上在数据库引擎的实现中并不能实现完全的事务隔离,比如串行化. 这种事务隔离方式虽然是比较理想的隔离措施,但是会对并发性能产生比较大的影响,所以在 MySQL 中事务的默认隔离级别是 REPEATABLE READS(可重复读),下面我们展开讨论一下 MySQL 对数据库隔离性的实现.

美团:掉进数据治理无止境的坑,我是怎么爬出来的?

于05-25 15:59 - -
数据治理这个话题这两年非常火热,很多公司尤其大型互联网公司都在做一些数据治理的规划和动作. 我个人的理解是,从数据产生、采集、生产、存储、应用到销毁的全过程中,可能在各环节中引入各种问题. 初始发展阶段,这些数据问题对我们的影响不大,大家对问题的容忍度比较高. 但是,随着业务发展数据质量和稳定性要求提升,并且数据积累得越来越多,我们对一些数据的精细化要求也越来越高,就会逐渐发现有很多问题需要治理.

ETL之metadata (讲了pentato 的kettle 的元数据) - sunnywang - IT博客

于05-25 15:48 - -
--  商业智能平台研究:ETL之metadata. 元数据的定义就是:描述数据的数据,你非要问什么描述元数据,还是元数据本身,UML中也有这种概念,只不过是描述的对象不一样罢了.     让我们解释的更加通俗易懂一些吧,在javaSE中也有metadata的概念,最早的就算是JavaDoc了,在5.0之后,Annotation就是大量的使用metadata了,这是关于源代码的数据,具体来说就是关于Java的类、方法、字段等关联的附加数据.

基于CWM的ETL元数据库系统模型的设计

于05-25 15:35 - -
1 引 言 在工业领域,数据仓库连同前端的数据挖掘工具向企业高层提供决策分析的平台体系机制被称为商业智能(Business Intelligence,BI). BI项目的实施牵涉到企业各个事务处理系统之间海量数据的定向流动,这个数据流动的过程被称为数据抽取、转换与装载(Extraction、Transformation and Loading,ETL),是BI系统的心脏与灵魂.

数据仓库系列之元数据管理 - 简书

于05-25 15:33 - -
    元数据(Meta Data),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态. 一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致. 元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化.