更新于:11-11 08:28

有关[数据]分类推荐

开源实时数据同步工具NiFi

于11-09 21:04 - 钱魏Way - 器→工具 开源项目 大数据
Apache NiFi 是一个强大的数据流管理和自动化工具,旨在简化数据的采集、传输、处理和分发. 它特别适合于构建和管理复杂的数据流管道,支持从各种数据源到不同目标系统的数据传输. Apache NiFi主要功能. Apache NiFi 是一个用于自动化数据流的强大工具,具有广泛的功能集,旨在支持从各种数据源到不同目标的复杂数据流管道.

数据湖存储系统Paimon

于11-06 21:53 - 钱魏Way - 器→工具 开源项目 大数据 数据仓库 数据湖
Apache Paimon 是一个面向大数据生态系统的高性能数据湖存储系统. 它最初是由 Flink 社区开发的,旨在为大数据处理提供高效的存储解决方案. Apache Paimon(以前称为 Flink Table Store)是一个专为流处理和批处理而设计的数据湖存储系统. 它解决了现代数据处理中的一些关键问题,以下是一些主要的方面:.

Python地理数据分析工具MovingPandas

于10-09 19:54 - 钱魏Way - 器→工具 工具软件 开源项目 GIS
MovingPandas 是一个用于分析轨迹数据的 Python 库. 它在处理和分析移动对象的时空数据方面非常强大,适用于地理信息系统(GIS)、时空数据分析和可视化等领域. 它是在热门的地理数据处理库 GeoPandas 的基础上构建的,GeoPandas 本身是建立在Pandas数据处理库之上的.

使用 GoatCounter 与 Zeabur 搭建网站数据统计系统

于08-06 19:00 - -
在「 2024 年了,我的博客有了什么变化」一文中,我介绍了自己使用 Serverless 平台和一些开源项目搭建的博客系统,也开启了这个系列教程来记录搭建和部署全过程. 本篇是关于统计系统的解决方案. 相比起博客本体和评论系统,我在很长的一段时间其实都没有在意过统计系统(主要当时也没人看),更加没考虑太多 SEO 或是什么其他推广方向上的事,但后来逐渐发现,其实统计下来的数据并不只是一张好看的可以用来发推的图表,其对于博客的选题、内容都有着很大的参考价值.

数据中心网络高可用技术之从交换机到交换机:MLAG, 堆叠技术

于08-08 10:04 - laixintao - 网络 ICCP (Inter-Control Center Communications Protocol) MLAG (Multi-Chassis Link Aggregation) Peer Link VDC (Virtual Device Context)
在 上一篇文章结束对链路聚合的讨论之后,我们发现一个问题——我们只能用多条线连接到同一个 switch 上面,这样万一这个交换机挂了,连接这个这个交换机的机器(通常是一个 Rack)就一起消失了. MLAG(Multi-Chassis Link Aggregation) 可以提供跨设备的链路聚合功能.

数据分析模式的演进

于11-19 16:44 - 数据智能老司机 -
数据分析是一个不断变化的领域. 稍微了解一下历史将帮助你欣赏到这一领域取得的进展,以及数据架构模式如何演进以满足不断变化的分析需求. 首先,让我们从一些定义开始:. 分析被定义为将数据转化为洞察的任何行为. 数据架构是使数据的存储、转换、利用和治理成为可能的结构. 分析及支持分析的数据架构已经走过了很长的路.

打造企业级智能问答系统的秘密:如何使用云数据库 PostgreSQL 版实现向量检索...

于11-16 14:01 - -
本文就如何利用火山引擎云数据库 PostgreSQL 版和大语言模型技术(Large Language Model,简称 LLM),实现企业级智能交互式问答系统进行介绍. 通过本文,你将会了解交互式问答系统的原理,学习 PostgreSQL 的向量化存储和检索技术,以及大语言模型交互技术等. 在大数据的浪潮下,众多企业建立了自己的知识库,以便于信息检索和知识查询.

数据库分类分级做完了,接下来怎么用

于09-26 17:24 - -
01/7    数据分类分级的难点回顾. 之前一篇文章内,我们大致讲述了近两年来在各大企业和机构内大热的数据分类分级运动的由来,以及数据分类分级的难点. 简单总结起来其困境主要来源于企业内部系统构建的个性化程度高,如基于数据字段命名并无法推测出实质数据类型(见下图所示,text1 并不能被自动识别为姓名数据);或者组合类的数据类型和业务关联度高的数据类型,无法抽象为技术可描述的确定规则,如财务数据、金融数据、快递数据这种大类的数据类型;或者一大部分的数据并不具备强规则特征,无法通过对数据内容的识别从而进行类型的分类,如用户姓名、金额数字等等.

MySQL单表最大2千万?我装了1亿数据还贼好用…… - MySQL

于08-01 13:56 - -
故事从好多年前说起,想必大家也听说过数据库单表建议最大2kw条数据这个说法. 如果超过了,性能就会下降得比较厉害. 巧了,我也听说过,但我不接受它的建议,硬是单表装了1亿条数据. 这时候,我们组里新来的实习生看到了之后,天真无邪地问我:“单表不是建议最大两千万吗. 为什么这个表都放了1个亿还不分库分表.

建设数据中台到底有啥用?

于07-29 17:45 - JavaEdge在掘金 -
最近专注在数据和人工智能领域,从数据仓库、商业智能、主数据管理到大数据平台的建设,经过很多项目的沉淀和总结,最后我和团队一起总结了精益数据创新的体系. 企业为什么要建设数据中台,数据中台对于企业的价值到底是什么. 从概念和框架的角度,给你提供一个更全面的视角. 做好任何一件事情的前提就是弄清楚为什么.

交换机原理与应用(附数据链路层封装)

于07-05 17:38 - 钟情 -
连接多个以太网物理段,隔离冲突域. 对以太网帧进行高速而透明的交换转发. 自行学习和维护MAC地址信息. 交换机工作在二层,可以用来隔离冲突域,在OSI参考模型中,二层的作用是寻址,这边寻址指的是MAC地址,而交换机就是对MAC地址进行转发,在每个交换机中,都有一张MAC地址表,这个表是交换机自动学习的.

什么?!Elasticsearch也可以用作向量数据库?

于06-25 14:05 - -
本文将探讨如何在 Elasticsearch 中优化向量搜索,并提供了一个详细的教程. 一、Elasticsearch 神经搜索流程. Elasticsearch 从 2022 年 2 月发布的 8.0 版本开始,提供了基于向量的搜索和自然语言处理(NLP)功能. 下图清楚地展示了向量搜索引擎的工作原理.

超大规模数据库集群保稳系列之三:美团数据库容灾体系建设实践 - 美团技术团队

于06-09 23:59 - -
我们通常会把故障分为三大类,一是主机故障,二是机房故障,三是地域故障. 每类故障都有各自的诱发因素,而从主机到机房再到地域,故障发生概率依次越来越小,而故障的影响却越来越大. 容灾能力的建设目标是非常明确的,就是要能够应对和处理这种机房级和地域级的大规模故障,从而来保障业务的连续性. 近几年,业界也发生了多次数据中心级别的故障,对相关公司的业务和品牌产生了非常大的负面影响.

探索性数据分析详解

于04-18 22:54 - 钱魏Way - 数据 术→技巧 数据分析
探索性数据分析(Exploratory Data Analysis,简称EDA) 是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法. 探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别:.

ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准

于04-01 10:36 - 机器之心 -
没想到,AI 进化之后淘汰掉的第一批人,就是帮 AI 训练的人. 很多 NLP 应用程序需要为各种任务手动进行大量数据注释,特别是训练分类器或评估无监督模型的性能. 根据规模和复杂程度,这些任务可能由众包工作者在 MTurk 等平台上以及训练有素的标注人(如研究助理)执行. 我们知道,语言大模型(LLM)在规模到达一定程度之后可以「涌现」—— 即获得此前无法预料的新能力.

【干货】你还在为分布式系统数据一致性而烦恼吗,来来来!!!

于03-17 18:22 - 小蚂蚁技术 -
觉得不错请按下图操作,掘友们,哈哈哈. 博主最近在做分布式事务这块业务,所以在选型的过程中,对比了当下比较流行的解决方案,在这里坐下记录,欢迎jym提出更好的方案哦. 一:分布式消息怎么保证数据的最终一致性:. 1.1 添加消息中间表方案:. 为了保证原子性,我们可以变通一下,添加一个消息表,A不直接往消息中间件中发消息,而是把消息写入消息表,然后通过一个后台程序不断的把消息写入消息中间件.

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

于03-15 17:35 - 字节跳动数据平台 -
导读:经过十多年的发展,. 在传统行业以及新兴互联网公司都已经产生落地实践. 字节跳动也在探索一种分布式的数据治理方式. 超话数据直播活动的回顾,将从以下四个部分展开分享:. 首先来看一个问题:“一家公司,数据体系要怎么搭建. 方案二: 问题出发,业务价值驱动. 在字节跳动,我们选择的是方案二,即从业务遇到的问题出发,重视落地结果与业务过程,去解决实际的治理问题.

金融行业数据分类分级“五步走”|盾见

于03-13 16:02 - 极盾科技 -
《数据安全法》明确提出,国家要建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护. 国家数据安全工作协调机制统筹协调有关部门制定重要数据目录,加强对重要数据的保护.

6 大经典机器学习数据集,3w+ 用户票选得出,建议收藏

于02-20 13:56 - 超神经HyperAI - 算法 机器学习 人工智能 深度学习 数据挖掘
内容一览:本期汇总了超神经下载排名众多的 6 个数据集,涵盖图像识别、机器翻译、遥感影像等领域. 这些数据集质量高、数据量大,经历人气认证值得收藏码住. 关键词:数据集 机器翻译 机器视觉. 数据集是机器学习模型训练的基础,优质的公开数据集对于模型训练效果、研究成果可靠度等具有重要意义. HyperAI超神经自上线以来,为数据科学从业者提供了大量优质的公开数据集.

管理大型 Postgres 数据库的 3 个技巧

于03-06 11:30 - [email protected] (linux) -
在处理庞大的数据库时,请尝试这些方便的解决方案,以解决常见的问题. 关系型数据库 PostgreSQL(也被称为 Postgres)已经越来越流行,全球各地的企业和公共部门都在使用它. 随着这种广泛的采用,数据库已经变得比以前更大了. 在 Crunchy Data,我们经常与 20TB 以上的数据库打交道,而且我们现有的数据库还在继续增长.

火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路

于03-02 13:43 - 字节跳动数据平台 -
更多技术交流、求职机会,欢迎关注 字节跳动数据平台微信公众号,回复【1】进入官方交流群. DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑.

Flink CDC 如何简化实时数据入湖入仓

于01-10 01:35 - - Flink Flink Flink CDC
一、Flink CDC 介绍. 从广义的概念上讲,能够捕获数据变更的技术, 我们都可以称为 CDC 技术. 通常我们说的 CDC 技术是一种用于捕获数据库中数据变更的技术. CDC 技术应用场景也非常广泛,包括:. 数据分发,将一个数据源分发给多个下游,常用于业务解耦、微服务. 数据集成,将分散异构的数据源集成到数据仓库中,消除数据孤岛,便于后续的分析.

一个几十万数据的小网站便宜的方案 🧵 by @dotey(宝玉)

于02-28 18:15 - -
我以前帮人整过一个几十万数据的小网站,这么多数据存关系型数据库放到云上每月要几十刀不合算,所以后来采用了个便宜的方案. 第一个版本方案 完整的数据存在本地的Sqlite,备份到网盘 用脚本将单条数据和列表数据导出到Json文件,存到AWS的S3,当做后端数据库 网站用Nextjs,基于它的ISR静态化的方案,第一次请求页面的时候静态化,后面就不需要访问数据库了.

分布式数据库存储透析:B-TREE 和 LSM-TREE 的性能差别

于02-24 00:00 - - dev
宇文湛泉,现任金融行业核心业务系统DBA,主要涉及Oracle、DB2、Cassandra、MySQL、GoldenDB、TiDB等数据库开发工作. 最近一两年里,每次做分布式数据库的内容分享活动时,总是会提及现在数据库的两个重要的存储结构,B-TREE和LSM-TREE. 因为,我觉得作为数据库的存储根基,无论是要选型,或者是用好一个数据库,清楚这两的差别和各自特点,都特别重要.

什么是数据治理? | IBM

于02-06 09:51 - -
数据治理通过不同的策略和标准提高组织数据的可用性、质量和安全性. 这些流程确定数据所有者、数据安全措施和数据的预期用途. 总体而言,数据治理的目标是维护安全且易于访问的高质量数据,以获取更深入的业务洞察. 大数据和数字化转型工作是数据治理计划的主要推动力量. 随着来自物联网 (IoT) 技术等新数据源的数据量的增加,组织需要重新考虑其数据管理实践,以扩展其商业智能.

腾讯内部数据治理实践

于02-06 09:50 - -
导读:本文主要介绍目前腾讯数据治理的所在阶段和实践经验,以及基于目前的经验所沉淀的数据治理平台:WeData. 今天的介绍会围绕下面三方面展开:. WeData 数据治理平台能力. 分享嘉宾|王浩仙 腾讯云 技术产品. 首先和大家分享腾讯在数据治理上所面临的挑战. 在数据治理的过程中会遇到很多问题,我们简单分成三类: 管理类挑战:数据信息分散在不同的业务部门的业务库中,数据上报也分散在不同的位置,难以对这些分散的数据进行统一的管理.

OceanBase 数据库的系统架构

于01-31 14:12 - -
OceanBase 数据库采用 Shared-Nothing 架构,各个节点之间完全对等,每个节点都有自己的 SQL 引擎、存储引擎,运行在普通 PC 服务器组成的集群之上,具备可扩展、高可用、高性能、低成本、云原生等核心特性. OceanBase 数据库的整体架构如下图所示. OceanBase 数据库支持数据跨地域(Region)部署,每个地域可能位于不同的城市,距离通常比较远,所以 OceanBase 数据库可以支持多城市部署,也支持多城市级别的容灾.

数据库表为什么不可以只设置一个主键,一个text类型,序列化存储对象,这难道不跟nosql差不多了?

于01-31 03:13 - invalid s -
啊……这个……看着一群人见山不是山的一阵胡扯,不由得有些尴尬……. 首先,明确回答题主的问题:在你面对的工程问题面前,你的想法完全可行. 但是,这个世界上,是有很多完全不同的问题的……. 想说清楚这个,我就得从头开始科普了. 关系型数据库背后是所谓的“关系代数”. 这个东西意思嘛……大致来说是这样的:对于一组二维表格格式的数据,在上面可以做的基本操作只有四种,也就是并、交、差、笛卡尔积,其它运算都可以通过基本运算的组合得到.

分布式微服务系统的跨库查询/操作的解决思路(关系型数据库)

于01-16 18:34 - 守望时空33 -
在后端开发过程中,我们绕不开的就是数据结构设计以及关联的问题. 然而在传统的单体架构的开发中,解决数据关联的问题并不难,通过关系型数据库中的关联查询功能,以及MyBatis的级联功能即可实现. 但是在分布式微服务中, 整个系统都被拆分成了一个个单独的模块,每个模块也都是使用的单独的数据库. 这种情况下,又如何解决不同模块之间数据关联问题呢.

一文读懂数据库优化之分库分表

于01-12 00:00 - - dev
作者:tayroctang,腾讯 PCG 后台开发工程师. 本文从 5W1H 角度介绍了分库分表手段,其在解决如 IO 瓶颈、读写性能、物理存储瓶颈、内存瓶颈、单机故障影响面等问题的同时也带来如事务性、主键冲突、跨库 join、跨库聚合查询等问题. anyway,在综合业务场景考虑,正如缓存的使用一样,本着非必须勿使用原则.