数据埋点太难！知乎的做法有何可借鉴之处？

大数据: 知乎1.3万亿条数据毫秒级响应

- -

Zhihu，在中文古典中文中意为“你知道吗. ”是中国的Quora：一个问答网站，其中各种问题由用户社区创建，回答，编辑和组织. 作为中国最大的知识共享平台，我们目前拥有2.2亿注册用户，3000万个问题，网站答案超过1.3亿. 随着用户群的增长，我们的应用程序的数据大小无法实现. 我们的Moneta应用程序中存储了大约1.3万亿行数据（存储用户已经阅读过的帖子）.

数据埋点太难！知乎的做法有何可借鉴之处？

- - 编程学习网

埋点作为商业智能（BI）和人工智能（AI）体系中重要的一环，是公司提升产品工程质量、实施 AB Testing、个性化推荐服务重要的数据来源. 在传统的纯 Web 和 Native 开发的产品中，埋点从技术的角度来说未必多深奥，但从业务的角度来说要做到埋点设计规范、流程高效和保证质量却是很难. 本文重点介绍一下知乎客户端的埋点模型、流程和平台技术.

ElasticSearch在数十亿级别数据下，如何提高查询效率？ - 知乎

- -

es 在数据量很大的情况下（数十亿级别）如何提高查询效率啊. 这个问题是肯定要问的，说白了，就是看你有没有实际干过 es，因为啥. 其实 es 性能并没有你想象中那么好的. 很多时候数据量大了，特别是有几亿条数据的时候，可能你会懵逼的发现，跑个搜索怎么一下. 5~10s，后面反而就快了，可能就几百毫秒.

处理海量数据：列式存储综述（存储篇） - 知乎

- -

列式存储（Column-oriented Storage）并不是一项新技术，最早可以追溯到 1983 年的论文 Cantor. 然而，受限于早期的硬件条件和使用场景，主流的事务型数据库（OLTP）大多采用行式存储，直到近几年分析型数据库（OLAP）的兴起，列式存储这一概念又变得流行. 总的来说，列式存储的优势一方面体现在存储上能节约空间、减少 IO，另一方面依靠列式数据结构做了计算上的优化.

运营商是怎么分析出数据通道中特定 App 的数据流量的？ - 知乎

- -

主要是通过DPI（Deep Packet Inspection）来实现的，一般称之为「深度报文检测」或「深度包检测」. 从字面意思来讲，所谓「深度」是相对于普通的报文检测而言的. 普通的报文检测仅分析IP包的层4以下5元素：源地址、目的地址、源端口、目的端口及协议类型. 而DPI除了对以上5元素进行分析外，增加了应用层分析，用来识别各种应用及其内容.

不衰的经典: ARIES事务恢复 [数据库学习的成人试炼] - 知乎

- -

已经好几个月没写东西了, 比较忙, 开的技能树有点多, 主要在刷概率/统计/优化/NLP相关的东西, 分布式的东西看的比较少, 只是偶尔刷刷小红书的推荐论文还有看看datalake相关的东西; 不过ARIES这篇论文还是很值得在知乎记个笔记的.. 小红书的时候在第三章“Techniques Everyone Should Know”(很明显我还没入门啊, 这些paper几乎都没看过.

机构、研究员写文章的调研数据是从哪里找的 - 知乎

- -

研究员写作文章的数据来源均有三大类： . 1、第一类是我们公司自有的一手数据，我司是深圳前瞻商业资讯有限公司，长期跟踪研究1000多个行业、与10万余企业有良好合作关系，从而积累了丰富的一手调研数据，并且建立了专业的数据库；. 2、第二类是来自于官方、协会数据，我司拥有国家统计局、国家税务局、海关总署、工信部、商务部等三十余个官方部门数据查询权限，并且与国内500余协会形成合作关系；.

知乎 HBase 实践 - 知乎

- -

HBase 是一个基于 Hadoop 面向列的非关系型分布式数据库(NoSQL), 设计概念来源于谷歌的 BigTable 模型，面向实时读写、随机访问大规模数据集的场景，是一个高可靠性、高性能、高伸缩的分布式存储系统，在大数据相关领域应用广泛. HBase 系统支持对所存储的数据进行透明切分，从而使得系统的存储以及计算具有良好的水平扩展性..

知乎问答

- - 人月神话的BLOG

没有编程经验的，至少需要掌握哪些知识，才能胜任软件产品的需求分析工作. 在这里首先要注意编程经验和懂编程，编码和软件工程是两回事情. 举个例子你没有在生产线做过工人，但是不代表你不可以了解一个产品从原材料开始如何从生产线生产出来的. 你可以当生产线去参观和学习，当然如果你能够在生产线实习一段时间印象更加深刻.

数据埋点太难！知乎的做法有何可借鉴之处？

客户端埋点为什么难？

埋点的流程

能力

意愿

工具

埋点的模型

页面浏览

行为事件

埋点的平台技术

埋点管理平台

埋点测试平台

其他：关于 Hybrid 类型埋点

总结

团队介绍

相关 [数据知乎] 推荐：

大数据: 知乎1.3万亿条数据毫秒级响应

数据埋点太难！知乎的做法有何可借鉴之处？

ElasticSearch在数十亿级别数据下，如何提高查询效率？ - 知乎

处理海量数据：列式存储综述（存储篇） - 知乎

运营商是怎么分析出数据通道中特定 App 的数据流量的？ - 知乎

不衰的经典: ARIES事务恢复 [数据库学习的成人试炼] - 知乎

机构、研究员写文章的调研数据是从哪里找的 - 知乎

知乎 HBase 实践 - 知乎

知乎问答

相关文章

订阅

数据埋点太难！知乎的做法有何可借鉴之处？

客户端埋点为什么难？

埋点的流程

能力

意愿

工具

埋点的模型

页面浏览

行为事件

埋点的平台技术

埋点管理平台

埋点测试平台

其他：关于 Hybrid 类型埋点

总 结

团队介绍

相关 [数据 知乎] 推荐：

相关文章

订阅

总结

相关 [数据知乎] 推荐：