更新于:02-26 21:18
有关[数据]分类推荐
于03-15 17:35 - 字节跳动数据平台 -
导读:经过十多年的发展,. 在传统行业以及新兴互联网公司都已经产生落地实践. 字节跳动也在探索一种分布式的数据治理方式. 超话数据直播活动的回顾,将从以下四个部分展开分享:. 首先来看一个问题:“一家公司,数据体系要怎么搭建. 方案二: 问题出发,业务价值驱动. 在字节跳动,我们选择的是方案二,即从业务遇到的问题出发,重视落地结果与业务过程,去解决实际的治理问题.
于03-13 16:02 - 极盾科技 -
《数据安全法》明确提出,国家要建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护. 国家数据安全工作协调机制统筹协调有关部门制定重要数据目录,加强对重要数据的保护.
于02-20 13:56 - 超神经HyperAI - 算法 机器学习 人工智能 深度学习 数据挖掘
内容一览:本期汇总了超神经下载排名众多的 6 个数据集,涵盖图像识别、机器翻译、遥感影像等领域. 这些数据集质量高、数据量大,经历人气认证值得收藏码住. 关键词:数据集 机器翻译 机器视觉. 数据集是机器学习模型训练的基础,优质的公开数据集对于模型训练效果、研究成果可靠度等具有重要意义. HyperAI超神经自上线以来,为数据科学从业者提供了大量优质的公开数据集.
于03-06 11:30 - [email protected] (linux) -
在处理庞大的数据库时,请尝试这些方便的解决方案,以解决常见的问题. 关系型数据库 PostgreSQL(也被称为 Postgres)已经越来越流行,全球各地的企业和公共部门都在使用它. 随着这种广泛的采用,数据库已经变得比以前更大了. 在 Crunchy Data,我们经常与 20TB 以上的数据库打交道,而且我们现有的数据库还在继续增长.
于03-02 13:43 - 字节跳动数据平台 -
更多技术交流、求职机会,欢迎关注 字节跳动数据平台微信公众号,回复【1】进入官方交流群. DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑.
于01-10 01:35 - - Flink Flink Flink CDC
一、Flink CDC 介绍. 从广义的概念上讲,能够捕获数据变更的技术, 我们都可以称为 CDC 技术. 通常我们说的 CDC 技术是一种用于捕获数据库中数据变更的技术. CDC 技术应用场景也非常广泛,包括:. 数据分发,将一个数据源分发给多个下游,常用于业务解耦、微服务. 数据集成,将分散异构的数据源集成到数据仓库中,消除数据孤岛,便于后续的分析.
于02-28 18:15 - -
我以前帮人整过一个几十万数据的小网站,这么多数据存关系型数据库放到云上每月要几十刀不合算,所以后来采用了个便宜的方案. 第一个版本方案
完整的数据存在本地的Sqlite,备份到网盘
用脚本将单条数据和列表数据导出到Json文件,存到AWS的S3,当做后端数据库
网站用Nextjs,基于它的ISR静态化的方案,第一次请求页面的时候静态化,后面就不需要访问数据库了.
于02-24 00:00 - - dev
宇文湛泉,现任金融行业核心业务系统DBA,主要涉及Oracle、DB2、Cassandra、MySQL、GoldenDB、TiDB等数据库开发工作. 最近一两年里,每次做分布式数据库的内容分享活动时,总是会提及现在数据库的两个重要的存储结构,B-TREE和LSM-TREE. 因为,我觉得作为数据库的存储根基,无论是要选型,或者是用好一个数据库,清楚这两的差别和各自特点,都特别重要.
于02-06 09:51 - -
数据治理通过不同的策略和标准提高组织数据的可用性、质量和安全性. 这些流程确定数据所有者、数据安全措施和数据的预期用途. 总体而言,数据治理的目标是维护安全且易于访问的高质量数据,以获取更深入的业务洞察. 大数据和数字化转型工作是数据治理计划的主要推动力量. 随着来自物联网 (IoT) 技术等新数据源的数据量的增加,组织需要重新考虑其数据管理实践,以扩展其商业智能.
于02-06 09:50 - -
导读:本文主要介绍目前腾讯数据治理的所在阶段和实践经验,以及基于目前的经验所沉淀的数据治理平台:WeData. 今天的介绍会围绕下面三方面展开:. WeData 数据治理平台能力. 分享嘉宾|王浩仙 腾讯云 技术产品. 首先和大家分享腾讯在数据治理上所面临的挑战. 在数据治理的过程中会遇到很多问题,我们简单分成三类: 管理类挑战:数据信息分散在不同的业务部门的业务库中,数据上报也分散在不同的位置,难以对这些分散的数据进行统一的管理.
于01-31 14:12 - -
OceanBase 数据库采用 Shared-Nothing 架构,各个节点之间完全对等,每个节点都有自己的 SQL 引擎、存储引擎,运行在普通 PC 服务器组成的集群之上,具备可扩展、高可用、高性能、低成本、云原生等核心特性. OceanBase 数据库的整体架构如下图所示. OceanBase 数据库支持数据跨地域(Region)部署,每个地域可能位于不同的城市,距离通常比较远,所以 OceanBase 数据库可以支持多城市部署,也支持多城市级别的容灾.
于01-31 03:13 - invalid s -
啊……这个……看着一群人见山不是山的一阵胡扯,不由得有些尴尬……. 首先,明确回答题主的问题:在你面对的工程问题面前,你的想法完全可行. 但是,这个世界上,是有很多完全不同的问题的……. 想说清楚这个,我就得从头开始科普了. 关系型数据库背后是所谓的“关系代数”. 这个东西意思嘛……大致来说是这样的:对于一组二维表格格式的数据,在上面可以做的基本操作只有四种,也就是并、交、差、笛卡尔积,其它运算都可以通过基本运算的组合得到.
于01-16 18:34 - 守望时空33 -
在后端开发过程中,我们绕不开的就是数据结构设计以及关联的问题. 然而在传统的单体架构的开发中,解决数据关联的问题并不难,通过关系型数据库中的关联查询功能,以及MyBatis的级联功能即可实现. 但是在分布式微服务中, 整个系统都被拆分成了一个个单独的模块,每个模块也都是使用的单独的数据库. 这种情况下,又如何解决不同模块之间数据关联问题呢.
于01-12 00:00 - - dev
作者:tayroctang,腾讯 PCG 后台开发工程师. 本文从 5W1H 角度介绍了分库分表手段,其在解决如 IO 瓶颈、读写性能、物理存储瓶颈、内存瓶颈、单机故障影响面等问题的同时也带来如事务性、主键冲突、跨库 join、跨库聚合查询等问题. anyway,在综合业务场景考虑,正如缓存的使用一样,本着非必须勿使用原则.
于01-06 11:15 - -
田超 Apache SeaTunnel(Incubating) PPMC&Committer. 在对数据集成做概论之前,首先我们要提出一个问题, 什么是数据集成. 从字面意义上来讲,数据集成就是把不同来源格式以及特点性质的数据在逻辑上或者物理上有机地进行集中,从而为企业提供全面的数据共享. 企业可以通过高度集中的数据快速做出一系列的分析和决策,从而实现数据利用的价值.
于01-05 17:32 - -
YouTube 是仅次于谷歌的第二大热门网站. 在 2019 年 5 月,每分钟会有超过 500 小时的视频内容上传到该平台. 该视频共享平台有超过 20 亿的用户,每天有超过10亿小时的视频被播放,产生数十亿的浏览量. 本文会对 YouTube 使用的数据库和后端数据基础设施进行深入讲解,它们使得该视频平台能够存储如此巨量的数据,并能扩展至数十亿的用户.
于12-28 00:00 - - dev
搭建一套数据治理体系耗时耗力,但或许我们没有必要从头开始搞自己的数据血缘项目. 本文分享如何用开源、现代的 DataOps、ETL、Dashboard、元数据、数据血缘管理系统构建大数据治理基础设施. 元数据治理系统是一个提供了所有数据在哪、格式化方式、生成、转换、依赖、呈现和所属的 一站式视图.
于11-23 14:46 - 竹子爱熊猫 -
本文为掘金社区首发签约文章,14天内禁止转载,14天后未获授权禁止转载,侵权必究. 前面 《分库分表的正确姿势》、 《分库分表的后患问题》两篇中,对数据库的分库分表技术进行了全面阐述,但前两篇大多属于方法论,并不存在具体的实战实操,而只有理论没有实践的技术永远都属纸上谈兵,所以接下来会再开几个单章对分库分表各类方案进行落地.
于11-18 09:44 - -
我在做 Elasticsearch 相关咨询和培训过程中,发现大家普遍更关注实战中涉及的问题,下面我选取几个常见且典型的问题,和大家一起分析一下. 订单表、账单表父子文档可以实现类似 SQL 的左连接吗. 通过 canal 同步到 ES 中,能否实现类似左连接的效果. 一个人管理 1000 家连锁门店,如何更高效地查询自己管辖的商品类目.
于11-13 23:33 - 钱魏Way - 数据 术→技巧 研发 数据库
在Quora上曾经有个问题: Computer Programming: How would you explain a database in three sentences to your 8-year-old nephew被搬到了知乎上. 数据就像各种各样中药,在没有数据库之前,中药就是一包包这样杂乱无章地堆放着(unorganized data),找也不好找(inaccessible).
于11-12 08:00 - - bpf cilium
本文翻译自 KubeCon+CloudNativeCon North America 2022 的一篇分享:
100 Gbit/s Clusters with Cilium: Building Tomorrow’s Networking Data Plane. 作者 Daniel Borkmann, Nikolay Aleksandrov, Nico Vibert 都来自 Isovalent(Cilium 母公司).
于10-28 08:45 - -
通过阅读本文,您将了解到一个售后系统应该具备的一些能力、在整个上下游系统中的定位、基本的系统架构,以及针对售后业务场景中常见问题的解决方案. 京东到家售后系统作为逆向流,强依赖京东到家业务域,目前涵盖了:退款、退货、换货、维修等四大类场景,并且为用户与商家提供申诉、仲裁场景支持,为计费与结算系统提供逆向金额数据支持.
于10-26 08:51 - -
数据仓库,这个几乎是所有大数据开发面试必问的话题. 结合业务举例说明数据仓库建模的步骤,以及注意事项. 维度该如何选择建设,原则是什么,主键如何设计等等. 一众问题搞得小伙伴们死去活来,甚至工作好几年的小伙伴都没搞清楚过,尤其是大厂特别爱问这些问题. 有些小伙伴甚至觉得这些都是形而上学,不懂这些我不一样搞了很多年开发.
于10-16 15:13 - 阿杆 -
这是我参与「掘金日新计划 · 10 月更文挑战」的第17天, 点击查看活动详情. 本系列文章基于我的开源微服务项目【校园博客】进行分析和讲解,所有源码均可在GitHub仓库上找到. 系列文章地址请见我的 校园博客专栏. GitHub地址: https://github.com/stick-i/scblogs.
于10-12 19:04 - 达观数据 - 自然语言处理 OCR
光学字符识别OCR技术(Optical Character Recognition)是指从图像中自动提取文字信息的技术. 这项技术横跨了人工智能里的两大领域:CV(计算机视觉)和NLP(自然语言处理),综合使用了这两大领域中的很多技术成果. 在过往40余年的技术发展历程中,OCR始终具备很强的产业应用背景,是计算机领域里少数几个一开始就由工业界和学术界双轮驱动的领域.
于09-10 22:05 - -
英伟达发表 新闻稿,宣布其下一代基于 Hopper 架构的数据中心 GPU H100(H 代表 Hopper) 在 MLPerf 行业标准 AI 基准测试中的性能比上一代 A100(基于 Ampere 架构) 高 4.5 倍. 英伟达的新闻稿充斥着热门词,它表示“Hopper 在流行的用于自然语言处理的 BERT 模型上表现出色部分归功于其 Transformer Engine.
于08-26 18:17 - 苏三说技术 -
对于后端开发同学来说,访问数据库,是代码中必不可少的一个环节. 系统中收集到用户的核心数据,为了安全性,我们一般会存储到数据库,比如:mysql,oracle等. 后端开发的日常工作,需要不断的建库和建表,来满足业务需求. 通常情况下,建库的频率比建表要低很多,所以,我们这篇文章主要讨论建表相关的内容.
于08-16 14:14 - 米可 - 行业动态 3年 中级 识别垃圾信息
编辑导语:大数据时代之下,信息繁杂多样,其中也充斥着大量的假话和谬论. 怎么在纷繁复杂的信息里面,去伪存真,需要我们有一定的思辨能力,去识别信息中的垃圾信息. 本篇文章分析了如何识别垃圾信息的方法,感兴趣的话一起来看看吧. 短视频、短信息时代蒸蒸日上,改变了公众话语的内容和意义,政治、宗教、教育、体育、商业和任何其他公共领域的内容,都日渐以“短娱乐”的方式出现,并成为一种文化习惯.
于07-30 00:00 - - dev
本文核心内容聚焦为什么要埋点治理、埋点治理的方法论和实践、奇点一站式埋点管理平台的建设和创新功能. 读者可以从全局角度深入了解埋点、埋点治理的整体思路和实践方法,落地的埋点工具和创新功能都有较高的实用参考价值. 遵循埋点治理的方法论,本文作者团队已在实践中取得优异成效,在同行业内有突出的创新功能,未来也将继续建设数智化经营能力,持续打造更好的服务.
于07-17 21:43 - -
卫星数据分析显示 全球小麦产量将会出现显著下降. 干旱和高温等天气因素将会导致欧盟小麦收成比去年减少 470 万吨,这对于希望寻找乌克兰小麦替代的国家是个坏消息. 分析显示,世界五大小麦生产国中的三个——美国、法国和乌克兰——产量将会低于预期. 美国是世界第三大小麦出口国,但堪萨斯和俄克拉荷马这两个主要小麦生产州今年春季遭遇了严重干旱,产量预计比平均水平低 7-8%.