火山引擎流批数据质量解决方案和最佳实践

- -

火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的. 面对今日头条、抖音等不同产品线的复杂数据质量场景，数据质量平台如何满足多样的需求. 本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突，并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质量监控.

火山引擎DataLeap：一家企业，数据体系要怎么搭建？

- - 掘金架构

导读：经过十多年的发展，. 在传统行业以及新兴互联网公司都已经产生落地实践. 字节跳动也在探索一种分布式的数据治理方式. 超话数据直播活动的回顾，将从以下四个部分展开分享：. 首先来看一个问题：“一家公司，数据体系要怎么搭建. 方案二：问题出发，业务价值驱动. 在字节跳动，我们选择的是方案二，即从业务遇到的问题出发，重视落地结果与业务过程，去解决实际的治理问题.

火山引擎 DataLeap：揭秘字节跳动数据血缘架构演进之路

- - 掘金架构

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群. DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品，帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设，降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑.

推荐引擎在当前电商平台用的相当多，本文简单理解下常见的几张推荐方式. 首先说明下大数据用户画像可以用于针对性营销和单品推荐，但是即使没做用户画像也可以进行商品推荐. 推荐引擎是不是为不同的用户推荐不同的数据根据这个指标，推荐引擎可以分为基于大众行为的推荐引擎和个性化推荐引擎. 大众行为的推荐引擎，对每个用户都给出同样的推荐，这些推荐可以是静态的由系统管理员人工设定的，或者基于系统所有用户的反馈统计计算出的当下比较流行的物品.

SQLite数据库存储引擎设计

- - searchdatabase

　　SQLite是一个嵌入式库并且实现了零配置、无服务端和事务功能的SQL数据库引擎. 它在广泛领域内被使用，而且单线程读写性能与MySQL比肩，并且保证ACID性. 　　SQLite的存储后端是采用Btree实现，多个连接可以并发操作，但是同一时间只允许一个写着存在. 　　SQLite在硬盘上一个数据库一个文件，每个数据库文件头部保存有这个数据库的元信息，包括版本，大小，Btree根节点位置等等.

H2数据库引擎研究导言

- - 开源软件 - ITeye博客

有好长一段时间没有写博客了，最近这段时间觉得自己的Java基础不是很扎实，所以又重新捡起《Think in Java》这本来看了. Java高级特性更是接触得少，如网络编程，多线程编程等，所以最近就想开始学习这些内容，已经看了一段时间，以前就有看一些好的开源软件源代码的想法，也陆陆续续看了一些，但都没坚持下来，这次要下定决心好好看一个软件的源代码，数据库的一些高级特性和优化方面也涉及的很少，最近也想好好学习学习，所以由于以上一些想法就产生了研究一个java编写的数据库的想法.

Airbnb如何打造大数据引擎

- - IT经理网

在推动旅游业的大数据应用方面，没有企业比Airbnb做得更多，走得更远…. 与大多数互联网公司一样，旅行房屋短期租赁网站Airbnb也希望通过分析海量数据提升用户体验和业务营收. Gigaom最近撰文介绍了Airbnb如何在亚马逊云的基础上打造大数据基础架构，并将数据分析作为产品和业务决策的基础，IT经理网编译整理如下：.

大数据分析查询引擎Impala

- - 标点符

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据. 已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性. 相比之下，Impala的最大特点也是最大卖点就是它的快速.

在有序的KV引擎之上建造结构化数据库引擎

- - idea's blog

KV 数据结构极大地简化了存储引擎的接口和实现. 基本的 KV 接口一般就是 Get(), Set(), 实现上代码也很简单, 极简的实现可以直接利用编码语言提供的 map(哈希, 红黑树)来提供内存数据结构, 而且硬盘上直接 dump 内存数据即可(类似 Redis 的策略).. 不过, KV 存储引擎自己省事了, 但使用者不喜欢, 因为大部分的业务并不是 KV 所能表达的, 业务需要丰富的数据结构, 表格(table), 列表(list), map 等各种容器.

是什么力量，让阿里云腾讯云和火山引擎走到了一起

- - 极客公园

几天前，特斯拉表示，正在努力让用户在车载屏幕上玩 steam 的各种游戏. 对于开发者而言，这意味着不需要进行移植或修改，大部分游戏就能接入车载屏，在座舱中运行. 听到这样的消息，立刻有人兴奋地问：我是不是可以在电动皮卡上玩《赛博朋克 2077》了. 人对更沉浸、更美好的体验有着天然的向往. 一块屏幕不断发展，就可以带来丰富体验.

火山引擎流批数据质量解决方案和最佳实践

什么是数据质量

数据质量挑战

流批数据质量解决方案

产品功能架构

系统架构

Executor 实现

Monitor 实现

最佳实践

表行数信息-优先 HMS 获取

离线监控优化

引入 OLAP 引擎

流式监控支持抽样 & 单 Topic 多 Rule 优化

未来演进方向

Q&A

相关 [火山引擎数据] 推荐：