LinkedIn使用Kafka日均处理消息超4.5万亿条

标签: linkedin kafka 消息 | 发表时间:2019-08-13 19:17 | 作者:小智
出处:https://www.infoq.cn

LinkedIn总部位于美国加利福尼亚州山景城,是一家全球最大的职业社交网站,成立于2002年12月,于2011年5月20日在美上市。截至目前,LinkedIn一共有超过6.45亿会员,超过2000万个工作岗位。LinkedIn目前使用Kafka日均处理消息超4.5万亿条,并已决定将所有工作负载迁移到Azure公有云上。

2009年,LinkedIn注册用户超过5000万人。2014年,其注册用户规模已经超过3亿。而今天,LinkedIn已经拥有超过6.45亿注册用户,超过2000万个工作岗位,每八秒钟就有一个人通过LinkedIn被雇佣。

伴随业务规模的不断扩大,LinkedIn的技术团队需要成长得更加健壮,才能满足业务需求。LinkedIn的技术团队创造了一个世界级的基础设施和一套工具和产品,使用Project Inversion重建了整个软件开发基础设施,并且选择将技术团队造的轮子开源,回馈社区与其他公司。在 LinkedIn 的数据基础设施中, Kafka 是核心支柱之一。

LinkedIn 在 2011 年 7 月开始大规模使用 Kafka,当时 Kafka 每天大约处理 10 亿条消息,这一数据在 2012 年达到了每天 200 亿条,而到了 2013 年 7 月,每天处理的消息达到了 2000 亿条。2015年,他们的最新记录是每天利用 Kafka 处理的消息超过 1 万亿条,在峰值时每秒钟会发布超过 450 万条消息,每周处理的信息是 1.34 PB。每条消息平均会被 4 个应用处理。在使用 Kafka 的最初四年中,实现了 1200 倍的增长。2019年,这个数字已经变成了4.5万亿条。

相关 [linkedin kafka 消息] 推荐:

LinkedIn使用Kafka日均处理消息超4.5万亿条

- - InfoQ - 促进软件开发领域知识与创新的传播
LinkedIn总部位于美国加利福尼亚州山景城,是一家全球最大的职业社交网站,成立于2002年12月,于2011年5月20日在美上市. 截至目前,LinkedIn一共有超过6.45亿会员,超过2000万个工作岗位. LinkedIn目前使用Kafka日均处理消息超4.5万亿条,并已决定将所有工作负载迁移到Azure公有云上.

linkedin高吞吐量分布式消息系统kafka使用手记

- - 五四陈科学院-坚信科学,分享技术
以下内容由 [五四陈科学院]提供. kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性:. 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能. 高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息. 支持通过kafka服务器和消费机集群来分区消息.

apache kafka消息服务

- - CSDN博客架构设计推荐文章
apache kafka中国社区QQ群:162272557. apache kafka参考. 消息生产者生产消息发送到queue中,然后消息消费者从queue中取出并且消费消息. 消息被消费以后,queue中不再有存储,所以消息消费者不可能消费到已经被消费的消息. Queue支持存在多个消费者,但是对一个消息而言,只会有一个消费者可以消费.

kafka发布订阅消息

- - 企业架构 - ITeye博客
① 每个partition会创建3个备份replica,并分配到broker集群中; --replication-factor 3. ② 用zookeeper来管理,consumer、producer、broker的活动状态;. ③ 分配的每个备份replica的id和broker的id保持一致;.

分布式消息系统:Kafka

- - 标点符
Kafka是分布式发布-订阅消息系统. 它最初由LinkedIn公司开发,之后成为Apache项目的一部分. Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务. 在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转. 传统的企业消息系统并不是非常适合大规模的数据处理.

kafka分布式消息系统

- - CSDN博客云计算推荐文章
Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态). 当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适合离线).

高性能消息系统——Kafka

- - 互联网 - ITeye博客
引用官方原文: “Kafka is a distributed, partitioned, replicated commit log service.”. 它提供了一个非常特殊的消息机制,不同于传统的mq. 官网:https://kafka.apache.org.     传统的MQ,消息被消化掉后会被mq删除,而kafka中消息被消化后不会被删除,而是到配置的expire时间后,才删除.

Kafka 的消息可靠传递

- - IT瘾-dev
Kafka提供的基础保障可以用来构建可靠的系统, 却无法保证完全可靠. 需要在可靠性和吞吐之间做取舍.. Kafka在分区上提供了消息的顺序保证.. 生产的消息在写入到所有的同步分区上后被认为是. 生产者可以选择在消息提交完成后接收broker的确认, 是写入leader之后, 或者所有的副本. 只要有一个副本存在, 提交的消息就不会丢失.

kafka如何保证消息顺序性?

- - 掘金 后端
Kafka 保证消息顺序性的关键在于其分区(Partition)机制. 在 Kafka 中,每个主题(Topic)可以被分割成多个分区,消息被追加到每个分区中,并且在每个分区内部,消息是有序的. 但是,Kafka 只保证单个分区内的消息顺序,而不保证跨分区的消息顺序. 如果需要保证顺序消费,可以采用以下策略:.

kafka:一个分布式消息系统 - 十九画生

- - 博客园_首页
最近因为工作需要,调研了追求高吞吐的轻量级消息系统Kafka,打算替换掉线上运行的ActiveMQ,主要是因为明年的预算日流量有十亿,而ActiveMQ的分布式实现的很奇怪,所以希望找一个适合分布式的消息系统. 以下是内容是调研过程中总结的一些知识和经验,欢迎拍砖. 首先,我们来看看什么是消息队列,维基百科里的解释翻译过来如下:.