[数据]分类资讯

数据分类分级：理论、实践与未来挑战

于05-26 13:58 - -

数据分类分级作为数据治理与安全的核心环节，已成为数字经济时代组织管理数据资产的基础性工作. 本报告系统梳理了数据分类分级的概念体系、方法技术、标准规范及行业实践，深入分析了当前实施过程中的关键挑战与争议，并基于国内外最新发展动态提出了优化建议. 研究表明，数据分类分级工作正从静态盘点向动态管控转变，但同时也面临着标准落地难、自动化程度不足、与安全策略脱节等问题.

不同数据场景下的聚类算法

于05-26 13:57 - -

聚类是一种非常重要的无监督学习方法，它可以帮助我们发现数据中的内在结构，将相似的数据点分组到一起. 原型聚类（如 k-均值、学习向量量化、高斯混合聚类）、. 密度聚类（DBSCAN）和. 通过浅显易懂的方式介绍它们的原理，探讨它们的适用场景，并通过代码演示如何使用这些算法. 原型聚类：以"中心点"代表群体.

数据库的未来：PostgreSQL？

于04-07 20:44 - 钱魏Way - 器→工具工具软件 postgresql

进击中的PostgreSQL. PostgreSQL 被称为 “最具吞噬力的数据库” 或 “数据库领域的瑞士军刀”，这种说法源于其独特的开源生态、持续进化的技术能力和广泛的应用场景. 我们可以从以下几个角度理解这一观点：. 技术包容性：吞噬多种数据模型. 关系型+NoSQL融合：支持 JSONB（二进制 JSON）、XML、HStore 等非结构化数据类型，实现文档存储能力（对标 MongoDB）.

MySQL大数据表处理策略，原来一直都用错了

于01-02 10:59 - -

当我们业务数据库表中的数据越来越多，如果你也和我遇到了以下类似场景，那让我们一起来解决这个问题. 后续业务需求的扩展，在表中新增字段，影响较大. 表中的数据并不是所有的都为有效数据，需求只查询时间区间内的. 我们可以从表容量/磁盘空间/实例容量三方面评估数据体量，接下来让我们分别展开来看看. 表容量主要从表的记录数、平均长度、增长量、读写量、总大小量进行评估.

开源实时数据同步工具NiFi

于11-09 21:04 - 钱魏Way - 器→工具开源项目大数据

Apache NiFi 是一个强大的数据流管理和自动化工具，旨在简化数据的采集、传输、处理和分发. 它特别适合于构建和管理复杂的数据流管道，支持从各种数据源到不同目标系统的数据传输. Apache NiFi主要功能. Apache NiFi 是一个用于自动化数据流的强大工具，具有广泛的功能集，旨在支持从各种数据源到不同目标的复杂数据流管道.

数据湖存储系统Paimon

于11-06 21:53 - 钱魏Way - 器→工具开源项目大数据数据仓库数据湖

Apache Paimon 是一个面向大数据生态系统的高性能数据湖存储系统. 它最初是由 Flink 社区开发的，旨在为大数据处理提供高效的存储解决方案. Apache Paimon（以前称为 Flink Table Store）是一个专为流处理和批处理而设计的数据湖存储系统. 它解决了现代数据处理中的一些关键问题，以下是一些主要的方面：.

Python地理数据分析工具MovingPandas

于10-09 19:54 - 钱魏Way - 器→工具工具软件开源项目 GIS

MovingPandas 是一个用于分析轨迹数据的 Python 库. 它在处理和分析移动对象的时空数据方面非常强大，适用于地理信息系统（GIS）、时空数据分析和可视化等领域. 它是在热门的地理数据处理库 GeoPandas 的基础上构建的，GeoPandas 本身是建立在Pandas数据处理库之上的.

使用 GoatCounter 与 Zeabur 搭建网站数据统计系统

于08-06 19:00 - -

在「 2024 年了，我的博客有了什么变化」一文中，我介绍了自己使用 Serverless 平台和一些开源项目搭建的博客系统，也开启了这个系列教程来记录搭建和部署全过程. 本篇是关于统计系统的解决方案. 相比起博客本体和评论系统，我在很长的一段时间其实都没有在意过统计系统（主要当时也没人看），更加没考虑太多 SEO 或是什么其他推广方向上的事，但后来逐渐发现，其实统计下来的数据并不只是一张好看的可以用来发推的图表，其对于博客的选题、内容都有着很大的参考价值.

数据中心网络高可用技术之从交换机到交换机：MLAG, 堆叠技术

于08-08 10:04 - laixintao - 网络 ICCP (Inter-Control Center Communications Protocol) MLAG (Multi-Chassis Link Aggregation) Peer Link VDC (Virtual Device Context)

在上一篇文章结束对链路聚合的讨论之后，我们发现一个问题——我们只能用多条线连接到同一个 switch 上面，这样万一这个交换机挂了，连接这个这个交换机的机器（通常是一个 Rack）就一起消失了. MLAG(Multi-Chassis Link Aggregation) 可以提供跨设备的链路聚合功能.

数据分析模式的演进

于11-19 16:44 - 数据智能老司机 -

数据分析是一个不断变化的领域. 稍微了解一下历史将帮助你欣赏到这一领域取得的进展，以及数据架构模式如何演进以满足不断变化的分析需求. 首先，让我们从一些定义开始：. 分析被定义为将数据转化为洞察的任何行为. 数据架构是使数据的存储、转换、利用和治理成为可能的结构. 分析及支持分析的数据架构已经走过了很长的路.

打造企业级智能问答系统的秘密：如何使用云数据库 PostgreSQL 版实现向量检索...

于11-16 14:01 - -

本文就如何利用火山引擎云数据库 PostgreSQL 版和大语言模型技术（Large Language Model，简称 LLM），实现企业级智能交互式问答系统进行介绍. 通过本文，你将会了解交互式问答系统的原理，学习 PostgreSQL 的向量化存储和检索技术，以及大语言模型交互技术等. 在大数据的浪潮下，众多企业建立了自己的知识库，以便于信息检索和知识查询.

数据库分类分级做完了，接下来怎么用

于09-26 17:24 - -

01/7 数据分类分级的难点回顾. 之前一篇文章内，我们大致讲述了近两年来在各大企业和机构内大热的数据分类分级运动的由来，以及数据分类分级的难点. 简单总结起来其困境主要来源于企业内部系统构建的个性化程度高，如基于数据字段命名并无法推测出实质数据类型（见下图所示，text1 并不能被自动识别为姓名数据）；或者组合类的数据类型和业务关联度高的数据类型，无法抽象为技术可描述的确定规则，如财务数据、金融数据、快递数据这种大类的数据类型；或者一大部分的数据并不具备强规则特征，无法通过对数据内容的识别从而进行类型的分类，如用户姓名、金额数字等等.

MySQL单表最大2千万？我装了1亿数据还贼好用…… - MySQL

于08-01 13:56 - -

故事从好多年前说起，想必大家也听说过数据库单表建议最大2kw条数据这个说法. 如果超过了，性能就会下降得比较厉害. 巧了，我也听说过，但我不接受它的建议，硬是单表装了1亿条数据. 这时候，我们组里新来的实习生看到了之后，天真无邪地问我：“单表不是建议最大两千万吗. 为什么这个表都放了1个亿还不分库分表.

建设数据中台到底有啥用？

于07-29 17:45 - JavaEdge在掘金 -

最近专注在数据和人工智能领域，从数据仓库、商业智能、主数据管理到大数据平台的建设，经过很多项目的沉淀和总结，最后我和团队一起总结了精益数据创新的体系. 企业为什么要建设数据中台，数据中台对于企业的价值到底是什么. 从概念和框架的角度，给你提供一个更全面的视角. 做好任何一件事情的前提就是弄清楚为什么.

交换机原理与应用（附数据链路层封装）

于07-05 17:38 - 钟情 -

连接多个以太网物理段，隔离冲突域. 对以太网帧进行高速而透明的交换转发. 自行学习和维护MAC地址信息. 交换机工作在二层，可以用来隔离冲突域，在OSI参考模型中，二层的作用是寻址，这边寻址指的是MAC地址，而交换机就是对MAC地址进行转发，在每个交换机中，都有一张MAC地址表，这个表是交换机自动学习的.

什么？！Elasticsearch也可以用作向量数据库？

于06-25 14:05 - -

本文将探讨如何在 Elasticsearch 中优化向量搜索，并提供了一个详细的教程. 一、Elasticsearch 神经搜索流程. Elasticsearch 从 2022 年 2 月发布的 8.0 版本开始，提供了基于向量的搜索和自然语言处理（NLP）功能. 下图清楚地展示了向量搜索引擎的工作原理.

超大规模数据库集群保稳系列之三：美团数据库容灾体系建设实践 - 美团技术团队

于06-09 23:59 - -

我们通常会把故障分为三大类，一是主机故障，二是机房故障，三是地域故障. 每类故障都有各自的诱发因素，而从主机到机房再到地域，故障发生概率依次越来越小，而故障的影响却越来越大. 容灾能力的建设目标是非常明确的，就是要能够应对和处理这种机房级和地域级的大规模故障，从而来保障业务的连续性. 近几年，业界也发生了多次数据中心级别的故障，对相关公司的业务和品牌产生了非常大的负面影响.

探索性数据分析详解

于04-18 22:54 - 钱魏Way - 数据术→技巧数据分析

探索性数据分析（Exploratory Data Analysis，简称EDA）是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法. 探索性数据分析（EDA）与传统统计分析（Classical Analysis）的区别：.

ChatGPT要把数据标注行业干掉了？比人便宜20倍，而且还更准

于04-01 10:36 - 机器之心 -

没想到，AI 进化之后淘汰掉的第一批人，就是帮 AI 训练的人. 很多 NLP 应用程序需要为各种任务手动进行大量数据注释，特别是训练分类器或评估无监督模型的性能. 根据规模和复杂程度，这些任务可能由众包工作者在 MTurk 等平台上以及训练有素的标注人（如研究助理）执行. 我们知道，语言大模型（LLM）在规模到达一定程度之后可以「涌现」—— 即获得此前无法预料的新能力.

【干货】你还在为分布式系统数据一致性而烦恼吗，来来来！！！

于03-17 18:22 - 小蚂蚁技术 -

觉得不错请按下图操作，掘友们，哈哈哈. 博主最近在做分布式事务这块业务，所以在选型的过程中，对比了当下比较流行的解决方案，在这里坐下记录，欢迎jym提出更好的方案哦. 一：分布式消息怎么保证数据的最终一致性：. 1.1 添加消息中间表方案：. 为了保证原子性，我们可以变通一下，添加一个消息表，A不直接往消息中间件中发消息，而是把消息写入消息表，然后通过一个后台程序不断的把消息写入消息中间件.

火山引擎DataLeap：一家企业，数据体系要怎么搭建？

于03-15 17:35 - 字节跳动数据平台 -

导读：经过十多年的发展，. 在传统行业以及新兴互联网公司都已经产生落地实践. 字节跳动也在探索一种分布式的数据治理方式. 超话数据直播活动的回顾，将从以下四个部分展开分享：. 首先来看一个问题：“一家公司，数据体系要怎么搭建. 方案二：问题出发，业务价值驱动. 在字节跳动，我们选择的是方案二，即从业务遇到的问题出发，重视落地结果与业务过程，去解决实际的治理问题.

金融行业数据分类分级“五步走”|盾见

于03-13 16:02 - 极盾科技 -

《数据安全法》明确提出，国家要建立数据分类分级保护制度，根据数据在经济社会发展中的重要程度，以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用，对国家安全、公共利益或者个人、组织合法权益造成的危害程度，对数据实行分类分级保护. 国家数据安全工作协调机制统筹协调有关部门制定重要数据目录，加强对重要数据的保护.

6 大经典机器学习数据集，3w+ 用户票选得出，建议收藏

于02-20 13:56 - 超神经HyperAI - 算法机器学习人工智能深度学习数据挖掘

内容一览：本期汇总了超神经下载排名众多的 6 个数据集，涵盖图像识别、机器翻译、遥感影像等领域. 这些数据集质量高、数据量大，经历人气认证值得收藏码住. 关键词：数据集机器翻译机器视觉. 数据集是机器学习模型训练的基础，优质的公开数据集对于模型训练效果、研究成果可靠度等具有重要意义. HyperAI超神经自上线以来，为数据科学从业者提供了大量优质的公开数据集.

管理大型 Postgres 数据库的 3 个技巧

于03-06 11:30 - [email protected] (linux) -

在处理庞大的数据库时，请尝试这些方便的解决方案，以解决常见的问题. 关系型数据库 PostgreSQL（也被称为 Postgres）已经越来越流行，全球各地的企业和公共部门都在使用它. 随着这种广泛的采用，数据库已经变得比以前更大了. 在 Crunchy Data，我们经常与 20TB 以上的数据库打交道，而且我们现有的数据库还在继续增长.

火山引擎 DataLeap：揭秘字节跳动数据血缘架构演进之路

于03-02 13:43 - 字节跳动数据平台 -

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群. DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品，帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设，降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑.

Flink CDC 如何简化实时数据入湖入仓

于01-10 01:35 - - Flink Flink Flink CDC

一、Flink CDC 介绍. 从广义的概念上讲，能够捕获数据变更的技术, 我们都可以称为 CDC 技术. 通常我们说的 CDC 技术是一种用于捕获数据库中数据变更的技术. CDC 技术应用场景也非常广泛，包括：. 数据分发，将一个数据源分发给多个下游，常用于业务解耦、微服务. 数据集成，将分散异构的数据源集成到数据仓库中，消除数据孤岛，便于后续的分析.

一个几十万数据的小网站便宜的方案 🧵 by @dotey(宝玉)

于02-28 18:15 - -

我以前帮人整过一个几十万数据的小网站，这么多数据存关系型数据库放到云上每月要几十刀不合算，所以后来采用了个便宜的方案. 第一个版本方案完整的数据存在本地的Sqlite，备份到网盘用脚本将单条数据和列表数据导出到Json文件，存到AWS的S3，当做后端数据库网站用Nextjs，基于它的ISR静态化的方案，第一次请求页面的时候静态化，后面就不需要访问数据库了.

分布式数据库存储透析：B-TREE 和 LSM-TREE 的性能差别

于02-24 00:00 - - dev

宇文湛泉，现任金融行业核心业务系统DBA，主要涉及Oracle、DB2、Cassandra、MySQL、GoldenDB、TiDB等数据库开发工作. 最近一两年里，每次做分布式数据库的内容分享活动时，总是会提及现在数据库的两个重要的存储结构，B-TREE和LSM-TREE. 因为，我觉得作为数据库的存储根基，无论是要选型，或者是用好一个数据库，清楚这两的差别和各自特点，都特别重要.

什么是数据治理？ | IBM

于02-06 09:51 - -

数据治理通过不同的策略和标准提高组织数据的可用性、质量和安全性. 这些流程确定数据所有者、数据安全措施和数据的预期用途. 总体而言，数据治理的目标是维护安全且易于访问的高质量数据，以获取更深入的业务洞察. 大数据和数字化转型工作是数据治理计划的主要推动力量. 随着来自物联网 (IoT) 技术等新数据源的数据量的增加，组织需要重新考虑其数据管理实践，以扩展其商业智能.

腾讯内部数据治理实践

于02-06 09:50 - -

导读：本文主要介绍目前腾讯数据治理的所在阶段和实践经验，以及基于目前的经验所沉淀的数据治理平台：WeData. 今天的介绍会围绕下面三方面展开：. WeData 数据治理平台能力. 分享嘉宾｜王浩仙腾讯云技术产品. 首先和大家分享腾讯在数据治理上所面临的挑战. 在数据治理的过程中会遇到很多问题，我们简单分成三类：管理类挑战：数据信息分散在不同的业务部门的业务库中，数据上报也分散在不同的位置，难以对这些分散的数据进行统一的管理.

有关[数据]分类推荐