更新于:09-02 16:45

有关[数据]分类推荐

(二十三)MySQL分表篇:该如何将月增上亿条数据的单表处理方案优雅落地?

于11-23 14:46 - 竹子爱熊猫 -
本文为掘金社区首发签约文章,14天内禁止转载,14天后未获授权禁止转载,侵权必究.    前面 《分库分表的正确姿势》、 《分库分表的后患问题》两篇中,对数据库的分库分表技术进行了全面阐述,但前两篇大多属于方法论,并不存在具体的实战实操,而只有理论没有实践的技术永远都属纸上谈兵,所以接下来会再开几个单章对分库分表各类方案进行落地.

学会这个ES数据建模指南,还需要啥MySQL?

于11-18 09:44 - -
我在做 Elasticsearch 相关咨询和培训过程中,发现大家普遍更关注实战中涉及的问题,下面我选取几个常见且典型的问题,和大家一起分析一下. 订单表、账单表父子文档可以实现类似 SQL 的左连接吗. 通过 canal 同步到 ES 中,能否实现类似左连接的效果. 一个人管理 1000  家连锁门店,如何更高效地查询自己管辖的商品类目.

通俗易懂理解数据库概念

于11-13 23:33 - 钱魏Way - 数据 术→技巧 研发 数据库
在Quora上曾经有个问题: Computer Programming: How would you explain a database in three sentences to your 8-year-old nephew被搬到了知乎上. 数据就像各种各样中药,在没有数据库之前,中药就是一包包这样杂乱无章地堆放着(unorganized data),找也不好找(inaccessible).

[译] Cilium 未来数据平面:支撑 100Gbit/s k8s 集群(KubeCon, 2022)

于11-12 08:00 - - bpf cilium
本文翻译自 KubeCon+CloudNativeCon North America 2022 的一篇分享: 100 Gbit/s Clusters with Cilium: Building Tomorrow’s Networking Data Plane. 作者 Daniel Borkmann, Nikolay Aleksandrov, Nico Vibert 都来自 Isovalent(Cilium 母公司).

京东售后系统架构设计:专治多端并发、数据不一致的臭毛病

于10-28 08:45 - -
通过阅读本文,您将了解到一个售后系统应该具备的一些能力、在整个上下游系统中的定位、基本的系统架构,以及针对售后业务场景中常见问题的解决方案. 京东到家售后系统作为逆向流,强依赖京东到家业务域,目前涵盖了:退款、退货、换货、维修等四大类场景,并且为用户与商家提供申诉、仲裁场景支持,为计费与结算系统提供逆向金额数据支持.

实例剖析4种数据仓库的建模方法

于10-26 08:51 - -
数据仓库,这个几乎是所有大数据开发面试必问的话题. 结合业务举例说明数据仓库建模的步骤,以及注意事项. 维度该如何选择建设,原则是什么,主键如何设计等等. 一众问题搞得小伙伴们死去活来,甚至工作好几年的小伙伴都没搞清楚过,尤其是大厂特别爱问这些问题. 有些小伙伴甚至觉得这些都是形而上学,不懂这些我不一样搞了很多年开发.

✨基于Spring-Data-Elasticsearch 优雅的实现 多字段搜索 + 高亮 + 分页 + 数据同步✨

于10-16 15:13 - 阿杆 -
这是我参与「掘金日新计划 · 10 月更文挑战」的第17天, 点击查看活动详情. 本系列文章基于我的开源微服务项目【校园博客】进行分析和讲解,所有源码均可在GitHub仓库上找到. 系列文章地址请见我的 校园博客专栏. GitHub地址: https://github.com/stick-i/scblogs.

OCR技术发展综述与达观数据的实践经验

于10-12 19:04 - 达观数据 - 自然语言处理 OCR
光学字符识别OCR技术(Optical Character Recognition)是指从图像中自动提取文字信息的技术. 这项技术横跨了人工智能里的两大领域:CV(计算机视觉)和NLP(自然语言处理),综合使用了这两大领域中的很多技术成果. 在过往40余年的技术发展历程中,OCR始终具备很强的产业应用背景,是计算机领域里少数几个一开始就由工业界和学术界双轮驱动的领域.

英伟达称其 H100 数据中心 GPU 性能比上一代高 4.5 倍

于09-10 22:05 - -
英伟达发表 新闻稿,宣布其下一代基于 Hopper 架构的数据中心 GPU H100(H 代表 Hopper) 在 MLPerf 行业标准 AI 基准测试中的性能比上一代 A100(基于 Ampere 架构) 高 4.5 倍. 英伟达的新闻稿充斥着热门词,它表示“Hopper 在流行的用于自然语言处理的 BERT 模型上表现出色部分归功于其 Transformer Engine.

聊聊数据库建表的15个小技巧

于08-26 18:17 - 苏三说技术 -
对于后端开发同学来说,访问数据库,是代码中必不可少的一个环节. 系统中收集到用户的核心数据,为了安全性,我们一般会存储到数据库,比如:mysql,oracle等. 后端开发的日常工作,需要不断的建库和建表,来满足业务需求. 通常情况下,建库的频率比建表要低很多,所以,我们这篇文章主要讨论建表相关的内容.

大数据时代下,如何识别垃圾信息?

于08-16 14:14 - 米可 - 行业动态 3年 中级 识别垃圾信息
编辑导语:大数据时代之下,信息繁杂多样,其中也充斥着大量的假话和谬论. 怎么在纷繁复杂的信息里面,去伪存真,需要我们有一定的思辨能力,去识别信息中的垃圾信息. 本篇文章分析了如何识别垃圾信息的方法,感兴趣的话一起来看看吧. 短视频、短信息时代蒸蒸日上,改变了公众话语的内容和意义,政治、宗教、教育、体育、商业和任何其他公共领域的内容,都日渐以“短娱乐”的方式出现,并成为一种文化习惯.

京东科技埋点数据治理和平台建设实践

于07-30 00:00 - - dev
本文核心内容聚焦为什么要埋点治理、埋点治理的方法论和实践、奇点一站式埋点管理平台的建设和创新功能. 读者可以从全局角度深入了解埋点、埋点治理的整体思路和实践方法,落地的埋点工具和创新功能都有较高的实用参考价值. 遵循埋点治理的方法论,本文作者团队已在实践中取得优异成效,在同行业内有突出的创新功能,未来也将继续建设数智化经营能力,持续打造更好的服务.

卫星数据显示全球小麦产量将显著下降

于07-17 21:43 - -
卫星数据分析显示 全球小麦产量将会出现显著下降. 干旱和高温等天气因素将会导致欧盟小麦收成比去年减少 470 万吨,这对于希望寻找乌克兰小麦替代的国家是个坏消息. 分析显示,世界五大小麦生产国中的三个——美国、法国和乌克兰——产量将会低于预期. 美国是世界第三大小麦出口国,但堪萨斯和俄克拉荷马这两个主要小麦生产州今年春季遭遇了严重干旱,产量预计比平均水平低 7-8%.

0到1搭建企业级数据治理体系

于07-14 00:00 - - dev
数据治理是企业数据建设必不可少的一个环节. 好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的 采集、 存储、 计算和 使用过程的可控和可追溯. 企业数据治理过程需要注意哪些问题. 总体而言,不能一口一个胖子,路要一步一步地走. 下面我将结合 企业级数据治理经验,详细介绍 从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会遇到的哪些坑.

数据库主键一定要自增吗?有哪些场景不建议自增?

于06-21 17:04 - CRMEB技术团队 -
我们平时建表的时候,一般会像下面这样. CREATE TABLE `user` (   `id` int NOT NULL AUTO_INCREMENT COMMENT '主键',   `name` char(10) NOT NULL DEFAULT '' COMMENT '名字',   PRIMARY KEY (`id`) ) ENGINE=InnoDB  DEFAULT CHARSET=utf8mb4;.

数据库内核的快照技术实现原理 - 吴祖洋的技术博客

于06-05 21:04 - -
"快照(Snapshot)"是数据库领域非常重要的一个概念, 最初是用于数据备份. 如今, 快照技术已经成为数据库内核(引擎)最核心的技术特性之一. 数据库内核的绝大多数操作, 都依赖于快照, 例如,. LevelDB的每一次读取操作和遍历操作, 其内部都必须创建一个快照, 所以, 对于一个请求量非常大的系统, 数据库内核每秒种就要创建和销毁几十万次快照.

字节跳动数据库的过去、现状与未来

于05-26 17:05 - 字节跳动技术团队 -
日前,字节跳动技术社区 ByteTech 举办的第四期字节跳动技术沙龙圆满落幕,本期沙龙以《字节云数据库架构设计与实战》为主题. 在沙龙中,字节跳动基础架构数据库资深工程师张雷,跟大家分享了《字节跳动数据库的过去、现状与未来》,本文根据分享整理而成. 数据库技术一直是信息技术中极其重要的一环,在步入云原生时代后,云基础设施和数据库进一步整合,弥补了传统数据库的痛点,带来了高可扩展性、全面自动化、快速部署、节约成本、管理便捷等优势.

4步走,搭建好用的数据指标体系

于05-25 10:05 - 接地气的陈老师 - 经验分享 2年 初级 数据指标体系
编辑导语:说起数据指标体系,大家总会想起“AARRR”、“OSM”和“UJM”等,但如果细问,你真的能说清吗. 要搭建好用的数据指标体系,光有理论是不行的. 这篇文章分四步讲解搭建数据指标体系的方法,一起看看吧. 一提起指标体系,很多同学像说相声一样,脱口而出“AARRR”“OSM”“UJM”……讲得好开心,可面试官多反驳一句:“我这是销售运营的指标体系.

Istio 数据平面 Pod 启动过程详解

于05-12 19:18 - -
Istio 中 sidecar 自动注入过程. Istio 中的 init 容器启动过程. 启用了 Sidecar 自动注入的 Pod 的启动流程. 下图中展示了 Istio 数据平面中的 Pod 启动完后的组件. Istio 数据平面 Pod 内部组件. Istio 中的 sidecar 注入. Istio 中提供了以下两种 sidecar 注入方式:.

数据仓库的分层架构与演进

于05-11 05:38 - 阿里云云栖号 -
​**简介:**分层架构很容易在各种书籍和文档中去理解,但是把建模方法和分层架构放在一起就会出现很多困惑了. 接下来,我会从数据研发与建模的角度,演进一下分层架构的设计原因与层次的意义. 分层架构很容易在各种书籍和文档中去理解,但是把建模方法和分层架构放在一起就会出现很多困惑了. 之所以会有分层架构,最主要的原因还是要把复杂冗长的数据吹流程分拆成一些有明确目的意义的层次,这样复杂就被拆解为一些相对简单小的模块.

为什么我建议需要定期重建数据量大但是性能关键的表

于05-02 01:32 - 干货满满张哈希 -
个人创作公约:本人声明创作的所有文章皆为自己原创,如果有参考任何文章的地方,会标注出来,如果有疏漏,欢迎大家批判. 如果大家发现网上有抄袭本文章的,欢迎举报,并且积极向这个. github 仓库 提交 issue,谢谢支持~. 本文是“为什么我建议”系列第三篇,本系列中会针对一些在高并发场景下,我对于组内后台开发的一些开发建议以及开发规范的要求进行说明和分析解读,相信能让各位在面对高并发业务的时候避开一些坑.

【长文干货】一文详解电商数据指标体系

于04-19 21:13 - -
在各大电商平台或电商公司内部,最常见到的就是这种数据监控大屏,用于帮助平台和商家实时了解业务情况. 要观测数据,首先就要建立一套完备的数据指标体系,定义清楚我们要看什么,怎么看. 本文将通过电商数据的定义、体系构建、指标详解介绍电商数据指标体系. 电商数据指用来记录用户行为的数字信息,包括用户的注册、登录、流量、点击、消费、复购等一系列行为习惯的量化数据.

经验复盘-使用docker方式搭建mock数据平台

于03-30 10:13 - 小飞仔 -
「Offer 驾到,掘友接招. 我正在参与2022春招系列活动-经验复盘,点击查看  征文活动详情. 我们在进行前端开发时需要后端提供相应接口,这样我们需要等后端开发完毕后才能进行开发. 这样的话大大影响我们的开发进度,一般情况下我们只需要让后端提供接口文档即可. 但是如果想测试交互的话就需要自己mock数据了.

大数据AI Notebook产品介绍和对比

于03-29 02:02 - aibigdata -
本文已参与「新人创作礼」活动,一起开启掘金创作之路. Apache Zeppelin简介. Zeppelin是一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表,notebook可以包括多个paragraph(段). paragraph是进行数据分析的最小单位,即在 paragraph中可以完成数据分析代码的编写以及结果的可视化查看.

用 Nginx 在公网上搭建加密数据通道

于03-16 19:10 - laixintao - SRE&Devops CA cert Certificate HTTPS
最近在跨机房做一个部署,因为机房之间暂时没有专线,所以流量需要经过公网. 对于经过公网的流量,我们一般需要做以下的安全措施:. 只能允许已知的 IP 来访问;. 第一项很简单,一般的防火墙,或者 Iptables 都可以做到. 对于加密的部分,最近做了一些实验和学习,这篇文章总结加密的实现方案,假设读者没有 TLS 方面的背景知识,会简单介绍原理和所有的代码解释.

数据库与缓存数据一致性解决方案

于03-15 02:24 - Java知识图谱 -
在分布式并发系统中,数据库与缓存数据一致性是一项富有挑战性的技术难点. 本文将讨论数据库与缓存数据一致性问题,并提供通用的解决方案. 假设有完善的工业级分布式事务解决方案,那么数据库与缓存数据一致性便迎刃而解,实际上,目前分布式事务不成熟. 在数据库与缓存数据一致解决方式中,有各种声音. 先操作数据库后缓存还是先缓存后数据库.

深度解析数据湖存储方案Lakehouse架构

于03-10 03:19 - 阿里云云栖号 -
简介:从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构. Databricks 软件工程师. Lakehouse由lake和house两个词组合而成,其中lake代表Delta Lake(数据湖),house代表data warehouse(数据仓库). 因此,Lakehouse架构就是数据湖和数据仓库的结合.

Elasticsearch 数据备份、迁移

于03-07 21:48 - 树辉 - 系统运维
在时候我们面临将Elasticsearch的数据进行迁移亦或是数据备份的场景,此时我们可以使用 elasticsearch-dump这个工具来实现:. mappings从production环境复制到staging环境. 数据从production环境复制到staging. template数据导出导入.

数据分析终极一问:指标波动多大才算是异常?

于03-07 00:00 - - dev
先举个例子,体温37.4度vs体温36.5度,只有2.5%的波动,可如果有人在测温点被发现体温37.4度,估计马上就被拉走做核酸. 因为人们不是怕2.5%的波动,而是怕新冠. 所以:指标波动不可怕,指标波动代表的业务场景才可怕. 脱离业务场景谈指标波动就是耍流氓. 在各种业务指标中,数据往往不是静止不变的,尤其是当一些核心的指标发生了变化、波动时,就需要判断这样的波动是否属于异常的情况.

数仓建模—ID Mapping - 大数据技术派 - 博客园

于03-05 19:54 - -
早晨起床的时候,发现自己尿分叉,我没有多想,简单洗洗就匆忙出门. 路过早餐店,我看到师傅熟练的拉扯一小块面团,拉至细长条,然后放入油锅中,不一会功夫,一根屎黄色的油条便出锅了,卖相不错. 我在想,小到炸屎黄色的油条,大到学习,其实都是一个熟能生巧的过程. 数据仓库系列文章(持续更新). 数仓—ID Mapping.