更新于:10-22 12:01

有关[数据]分类推荐

数据分析模式的演进

于11-19 16:44 - 数据智能老司机 -
数据分析是一个不断变化的领域. 稍微了解一下历史将帮助你欣赏到这一领域取得的进展,以及数据架构模式如何演进以满足不断变化的分析需求. 首先,让我们从一些定义开始:. 分析被定义为将数据转化为洞察的任何行为. 数据架构是使数据的存储、转换、利用和治理成为可能的结构. 分析及支持分析的数据架构已经走过了很长的路.

打造企业级智能问答系统的秘密:如何使用云数据库 PostgreSQL 版实现向量检索...

于11-16 14:01 - -
本文就如何利用火山引擎云数据库 PostgreSQL 版和大语言模型技术(Large Language Model,简称 LLM),实现企业级智能交互式问答系统进行介绍. 通过本文,你将会了解交互式问答系统的原理,学习 PostgreSQL 的向量化存储和检索技术,以及大语言模型交互技术等. 在大数据的浪潮下,众多企业建立了自己的知识库,以便于信息检索和知识查询.

数据库分类分级做完了,接下来怎么用

于09-26 17:24 - -
01/7    数据分类分级的难点回顾. 之前一篇文章内,我们大致讲述了近两年来在各大企业和机构内大热的数据分类分级运动的由来,以及数据分类分级的难点. 简单总结起来其困境主要来源于企业内部系统构建的个性化程度高,如基于数据字段命名并无法推测出实质数据类型(见下图所示,text1 并不能被自动识别为姓名数据);或者组合类的数据类型和业务关联度高的数据类型,无法抽象为技术可描述的确定规则,如财务数据、金融数据、快递数据这种大类的数据类型;或者一大部分的数据并不具备强规则特征,无法通过对数据内容的识别从而进行类型的分类,如用户姓名、金额数字等等.

MySQL单表最大2千万?我装了1亿数据还贼好用…… - MySQL

于08-01 13:56 - -
故事从好多年前说起,想必大家也听说过数据库单表建议最大2kw条数据这个说法. 如果超过了,性能就会下降得比较厉害. 巧了,我也听说过,但我不接受它的建议,硬是单表装了1亿条数据. 这时候,我们组里新来的实习生看到了之后,天真无邪地问我:“单表不是建议最大两千万吗. 为什么这个表都放了1个亿还不分库分表.

建设数据中台到底有啥用?

于07-29 17:45 - JavaEdge在掘金 -
最近专注在数据和人工智能领域,从数据仓库、商业智能、主数据管理到大数据平台的建设,经过很多项目的沉淀和总结,最后我和团队一起总结了精益数据创新的体系. 企业为什么要建设数据中台,数据中台对于企业的价值到底是什么. 从概念和框架的角度,给你提供一个更全面的视角. 做好任何一件事情的前提就是弄清楚为什么.

交换机原理与应用(附数据链路层封装)

于07-05 17:38 - 钟情 -
连接多个以太网物理段,隔离冲突域. 对以太网帧进行高速而透明的交换转发. 自行学习和维护MAC地址信息. 交换机工作在二层,可以用来隔离冲突域,在OSI参考模型中,二层的作用是寻址,这边寻址指的是MAC地址,而交换机就是对MAC地址进行转发,在每个交换机中,都有一张MAC地址表,这个表是交换机自动学习的.

什么?!Elasticsearch也可以用作向量数据库?

于06-25 14:05 - -
本文将探讨如何在 Elasticsearch 中优化向量搜索,并提供了一个详细的教程. 一、Elasticsearch 神经搜索流程. Elasticsearch 从 2022 年 2 月发布的 8.0 版本开始,提供了基于向量的搜索和自然语言处理(NLP)功能. 下图清楚地展示了向量搜索引擎的工作原理.

超大规模数据库集群保稳系列之三:美团数据库容灾体系建设实践 - 美团技术团队

于06-09 23:59 - -
我们通常会把故障分为三大类,一是主机故障,二是机房故障,三是地域故障. 每类故障都有各自的诱发因素,而从主机到机房再到地域,故障发生概率依次越来越小,而故障的影响却越来越大. 容灾能力的建设目标是非常明确的,就是要能够应对和处理这种机房级和地域级的大规模故障,从而来保障业务的连续性. 近几年,业界也发生了多次数据中心级别的故障,对相关公司的业务和品牌产生了非常大的负面影响.

探索性数据分析详解

于04-18 22:54 - 钱魏Way - 数据 术→技巧 数据分析
探索性数据分析(Exploratory Data Analysis,简称EDA) 是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法. 探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别:.

ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准

于04-01 10:36 - 机器之心 -
没想到,AI 进化之后淘汰掉的第一批人,就是帮 AI 训练的人. 很多 NLP 应用程序需要为各种任务手动进行大量数据注释,特别是训练分类器或评估无监督模型的性能. 根据规模和复杂程度,这些任务可能由众包工作者在 MTurk 等平台上以及训练有素的标注人(如研究助理)执行. 我们知道,语言大模型(LLM)在规模到达一定程度之后可以「涌现」—— 即获得此前无法预料的新能力.

【干货】你还在为分布式系统数据一致性而烦恼吗,来来来!!!

于03-17 18:22 - 小蚂蚁技术 -
觉得不错请按下图操作,掘友们,哈哈哈. 博主最近在做分布式事务这块业务,所以在选型的过程中,对比了当下比较流行的解决方案,在这里坐下记录,欢迎jym提出更好的方案哦. 一:分布式消息怎么保证数据的最终一致性:. 1.1 添加消息中间表方案:. 为了保证原子性,我们可以变通一下,添加一个消息表,A不直接往消息中间件中发消息,而是把消息写入消息表,然后通过一个后台程序不断的把消息写入消息中间件.

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

于03-15 17:35 - 字节跳动数据平台 -
导读:经过十多年的发展,. 在传统行业以及新兴互联网公司都已经产生落地实践. 字节跳动也在探索一种分布式的数据治理方式. 超话数据直播活动的回顾,将从以下四个部分展开分享:. 首先来看一个问题:“一家公司,数据体系要怎么搭建. 方案二: 问题出发,业务价值驱动. 在字节跳动,我们选择的是方案二,即从业务遇到的问题出发,重视落地结果与业务过程,去解决实际的治理问题.

金融行业数据分类分级“五步走”|盾见

于03-13 16:02 - 极盾科技 -
《数据安全法》明确提出,国家要建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护. 国家数据安全工作协调机制统筹协调有关部门制定重要数据目录,加强对重要数据的保护.

6 大经典机器学习数据集,3w+ 用户票选得出,建议收藏

于02-20 13:56 - 超神经HyperAI - 算法 机器学习 人工智能 深度学习 数据挖掘
内容一览:本期汇总了超神经下载排名众多的 6 个数据集,涵盖图像识别、机器翻译、遥感影像等领域. 这些数据集质量高、数据量大,经历人气认证值得收藏码住. 关键词:数据集 机器翻译 机器视觉. 数据集是机器学习模型训练的基础,优质的公开数据集对于模型训练效果、研究成果可靠度等具有重要意义. HyperAI超神经自上线以来,为数据科学从业者提供了大量优质的公开数据集.

管理大型 Postgres 数据库的 3 个技巧

于03-06 11:30 - [email protected] (linux) -
在处理庞大的数据库时,请尝试这些方便的解决方案,以解决常见的问题. 关系型数据库 PostgreSQL(也被称为 Postgres)已经越来越流行,全球各地的企业和公共部门都在使用它. 随着这种广泛的采用,数据库已经变得比以前更大了. 在 Crunchy Data,我们经常与 20TB 以上的数据库打交道,而且我们现有的数据库还在继续增长.

火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路

于03-02 13:43 - 字节跳动数据平台 -
更多技术交流、求职机会,欢迎关注 字节跳动数据平台微信公众号,回复【1】进入官方交流群. DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑.

Flink CDC 如何简化实时数据入湖入仓

于01-10 01:35 - - Flink Flink Flink CDC
一、Flink CDC 介绍. 从广义的概念上讲,能够捕获数据变更的技术, 我们都可以称为 CDC 技术. 通常我们说的 CDC 技术是一种用于捕获数据库中数据变更的技术. CDC 技术应用场景也非常广泛,包括:. 数据分发,将一个数据源分发给多个下游,常用于业务解耦、微服务. 数据集成,将分散异构的数据源集成到数据仓库中,消除数据孤岛,便于后续的分析.

一个几十万数据的小网站便宜的方案 🧵 by @dotey(宝玉)

于02-28 18:15 - -
我以前帮人整过一个几十万数据的小网站,这么多数据存关系型数据库放到云上每月要几十刀不合算,所以后来采用了个便宜的方案. 第一个版本方案 完整的数据存在本地的Sqlite,备份到网盘 用脚本将单条数据和列表数据导出到Json文件,存到AWS的S3,当做后端数据库 网站用Nextjs,基于它的ISR静态化的方案,第一次请求页面的时候静态化,后面就不需要访问数据库了.

分布式数据库存储透析:B-TREE 和 LSM-TREE 的性能差别

于02-24 00:00 - - dev
宇文湛泉,现任金融行业核心业务系统DBA,主要涉及Oracle、DB2、Cassandra、MySQL、GoldenDB、TiDB等数据库开发工作. 最近一两年里,每次做分布式数据库的内容分享活动时,总是会提及现在数据库的两个重要的存储结构,B-TREE和LSM-TREE. 因为,我觉得作为数据库的存储根基,无论是要选型,或者是用好一个数据库,清楚这两的差别和各自特点,都特别重要.

什么是数据治理? | IBM

于02-06 09:51 - -
数据治理通过不同的策略和标准提高组织数据的可用性、质量和安全性. 这些流程确定数据所有者、数据安全措施和数据的预期用途. 总体而言,数据治理的目标是维护安全且易于访问的高质量数据,以获取更深入的业务洞察. 大数据和数字化转型工作是数据治理计划的主要推动力量. 随着来自物联网 (IoT) 技术等新数据源的数据量的增加,组织需要重新考虑其数据管理实践,以扩展其商业智能.

腾讯内部数据治理实践

于02-06 09:50 - -
导读:本文主要介绍目前腾讯数据治理的所在阶段和实践经验,以及基于目前的经验所沉淀的数据治理平台:WeData. 今天的介绍会围绕下面三方面展开:. WeData 数据治理平台能力. 分享嘉宾|王浩仙 腾讯云 技术产品. 首先和大家分享腾讯在数据治理上所面临的挑战. 在数据治理的过程中会遇到很多问题,我们简单分成三类: 管理类挑战:数据信息分散在不同的业务部门的业务库中,数据上报也分散在不同的位置,难以对这些分散的数据进行统一的管理.

OceanBase 数据库的系统架构

于01-31 14:12 - -
OceanBase 数据库采用 Shared-Nothing 架构,各个节点之间完全对等,每个节点都有自己的 SQL 引擎、存储引擎,运行在普通 PC 服务器组成的集群之上,具备可扩展、高可用、高性能、低成本、云原生等核心特性. OceanBase 数据库的整体架构如下图所示. OceanBase 数据库支持数据跨地域(Region)部署,每个地域可能位于不同的城市,距离通常比较远,所以 OceanBase 数据库可以支持多城市部署,也支持多城市级别的容灾.

数据库表为什么不可以只设置一个主键,一个text类型,序列化存储对象,这难道不跟nosql差不多了?

于01-31 03:13 - invalid s -
啊……这个……看着一群人见山不是山的一阵胡扯,不由得有些尴尬……. 首先,明确回答题主的问题:在你面对的工程问题面前,你的想法完全可行. 但是,这个世界上,是有很多完全不同的问题的……. 想说清楚这个,我就得从头开始科普了. 关系型数据库背后是所谓的“关系代数”. 这个东西意思嘛……大致来说是这样的:对于一组二维表格格式的数据,在上面可以做的基本操作只有四种,也就是并、交、差、笛卡尔积,其它运算都可以通过基本运算的组合得到.

分布式微服务系统的跨库查询/操作的解决思路(关系型数据库)

于01-16 18:34 - 守望时空33 -
在后端开发过程中,我们绕不开的就是数据结构设计以及关联的问题. 然而在传统的单体架构的开发中,解决数据关联的问题并不难,通过关系型数据库中的关联查询功能,以及MyBatis的级联功能即可实现. 但是在分布式微服务中, 整个系统都被拆分成了一个个单独的模块,每个模块也都是使用的单独的数据库. 这种情况下,又如何解决不同模块之间数据关联问题呢.

一文读懂数据库优化之分库分表

于01-12 00:00 - - dev
作者:tayroctang,腾讯 PCG 后台开发工程师. 本文从 5W1H 角度介绍了分库分表手段,其在解决如 IO 瓶颈、读写性能、物理存储瓶颈、内存瓶颈、单机故障影响面等问题的同时也带来如事务性、主键冲突、跨库 join、跨库聚合查询等问题. anyway,在综合业务场景考虑,正如缓存的使用一样,本着非必须勿使用原则.

从 0 到 1 快速入门 Apache SeaTunnel ,新一代数据集成平台的原理和实践

于01-06 11:15 - -
田超 Apache SeaTunnel(Incubating) PPMC&Committer. 在对数据集成做概论之前,首先我们要提出一个问题, 什么是数据集成.  从字面意义上来讲,数据集成就是把不同来源格式以及特点性质的数据在逻辑上或者物理上有机地进行集中,从而为企业提供全面的数据共享. 企业可以通过高度集中的数据快速做出一系列的分析和决策,从而实现数据利用的价值.

YouTube 数据库如何保存巨量视频文件?

于01-05 17:32 - -
YouTube 是仅次于谷歌的第二大热门网站. 在 2019 年 5 月,每分钟会有超过 500 小时的视频内容上传到该平台. 该视频共享平台有超过 20 亿的用户,每天有超过10亿小时的视频被播放,产生数十亿的浏览量. 本文会对 YouTube 使用的数据库和后端数据基础设施进行深入讲解,它们使得该视频平台能够存储如此巨量的数据,并能扩展至数十亿的用户.

如何轻松做数据治理?开源技术栈告诉你答案

于12-28 00:00 - - dev
搭建一套数据治理体系耗时耗力,但或许我们没有必要从头开始搞自己的数据血缘项目. 本文分享如何用开源、现代的 DataOps、ETL、Dashboard、元数据、数据血缘管理系统构建大数据治理基础设施. 元数据治理系统是一个提供了所有数据在哪、格式化方式、生成、转换、依赖、呈现和所属的 一站式视图.

(二十三)MySQL分表篇:该如何将月增上亿条数据的单表处理方案优雅落地?

于11-23 14:46 - 竹子爱熊猫 -
本文为掘金社区首发签约文章,14天内禁止转载,14天后未获授权禁止转载,侵权必究.    前面 《分库分表的正确姿势》、 《分库分表的后患问题》两篇中,对数据库的分库分表技术进行了全面阐述,但前两篇大多属于方法论,并不存在具体的实战实操,而只有理论没有实践的技术永远都属纸上谈兵,所以接下来会再开几个单章对分库分表各类方案进行落地.

学会这个ES数据建模指南,还需要啥MySQL?

于11-18 09:44 - -
我在做 Elasticsearch 相关咨询和培训过程中,发现大家普遍更关注实战中涉及的问题,下面我选取几个常见且典型的问题,和大家一起分析一下. 订单表、账单表父子文档可以实现类似 SQL 的左连接吗. 通过 canal 同步到 ES 中,能否实现类似左连接的效果. 一个人管理 1000  家连锁门店,如何更高效地查询自己管辖的商品类目.