用 Kubernetes 最易犯的 10 个臭毛病

标签: | 发表时间:2021-07-20 14:16 | 作者:
出处:https://dbaplus.cn

在我们多年使用 Kubernetes(以下简称为 K8s)的经历中,我们有机会近距离接触了相当多的集群(包括依托于 GCP、AWS 和 Azure 上的托管和非托管集群),并且看到一些错误在不断重复。但不必为此感到羞耻,因为我们也犯了很多这样的错误!

 

接下来,我会尽量解释那些我们经常犯的错误,并讨论如何修复它们。

 

一、资源 —— 请求(Request)和限制(Limit)的设置

 

这无疑是最值得关注的,因而列在了这个错误榜单的第一位。

 

设置 CPU request 的常见错误有两种 —— 「不设置」或「设置得很低」(这样我们可以在每个节点上容纳更多的 pod),这两种错误会导致节点被过量使用。在高需求的时候,节点的 CPU 就会被完全占用,我们的工作负载就只能得到“它所请求的很低的资源”,因此工作负载得到的 CPU 资源就很有限,这样就会导致应用程序延迟、超时等问题的增加。

 

不设置 CPU request(BestEffort,应尽量避免)时的配置如下:

 

  •  
      resources: {}

 

CPU request 设置得很低(应尽量避免)时的配置如下:

 

  •  
  •  
  •  
   resources:        requests:          cpu: "1m"

 

另一方面,设置一个 CPU limit 值可能会不必要地限制 pod 对 CPU 的使用,即使节点的 CPU 没有被充分利用时,这同样会导致延迟问题的增加。对于使用 Linux 内核中的 CPU CFS quota 来控制对 CPU 的使用,或关闭 CPU CFS quota 并用 CPU limit 设置来代替,这两种方式到底孰优孰劣?有一个公开的讨论,结论是 CPU limit 这个设置可能会导致更多的问题。

 

内存的过量使用会给你带来更多的麻烦。达到 CPU limit 时只会导致 CPU 使用受限,达到 Memory limit 将会导致 Pod 被杀死。你听说过 OOMkill 吗?是的,它正是我们要说的内存不足时自动杀死进程的机制。如果你想尽量减少这种情况的发生,那就不要过度使用内存,而应该使用“Guaranteed QoS”模式,将 Memory Request 值设为等于 Memory limit 值(就像下面的示例一样)。关于这个话题,你可以从 Henning Jacobs(Zalando)的这个演讲中获得更多信息[1]。

 

Burstable QoS 模式下的资源设置(很可能导致 OOMKill 机制更频繁地被触发):

 

  •  
  •  
  •  
  •  
  •  
  •  
  •  
      resources:        requests:          memory: "128Mi"          cpu: "500m"        limits:          memory: "256Mi"          cpu: 2

 

Guaranteed QoS 模式的资源设置:

 

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  resources:        requests:          memory: "128Mi"          cpu: 2        limits:          memory: "128Mi"          cpu: 2

 

那么在你设置 resource 时,有什么工具可以帮助你呢?

 

你可以借助 metrics-server 来检查 pod(和其中的容器)当前的 CPU 和内存的使用情况。很有可能它已经在服务器端运行了。要想看到使用情况,你只需简单地运行以下命令:

 

  •  
  •  
  •  
  kubectl top pods  kubectl top pods --containers  kubectl top nodes

 

不过,这些命令只能显示当前的使用情况。这对于大致地了解资源使用情况是足够了,但最终你希望能够及时查看一些使用指标(比如:CPU 峰值、昨天上午的 CPU 使用情况等指标)。在这个方面,Prometheus、DataDog 和许多其他的监控系统可以帮助你。它们从 metrics-server 上获取这些指标信息并存储起来,然后你就可以对其进行查询和绘制图形。

 

VerticalPodAutoscaler[2] 工具可以帮助你自动化这一手动过程:包括及时查看 CPU/内存的使用情况,以及基于使用情况设置新的 request 和 limit 的值。

 

高效地利用你的计算资源并非易事。就像一直在玩俄罗斯方块。如果发现自己在平均利用率很低(例如〜10%)的情况下为计算支付了大量费用,那么你可能需要看看基于 AWS Fargate 或 Virtual Kubelet 之类的产品是否能解决你的问题,这些产品更多地利用了无服务器/按使用付费的计费模式,这对你来说可能更便宜。

 

二、存活(liveness)探针和就绪(readiness)探针的设置

 

默认情况下,系统不会设置检测一个 pod 状态的存活探针和就绪探针。K8s 的自愈能力有时可以让容器一直工作下去……

 

但是,如果容器出现了不可恢复的错误,你的服务将如何重新启动呢?负载均衡器(loadbalancer)如何判断某个特定的 Pod 是否可以开始处理流量?或者是否可以继续处理更多流量?

 

通常,人们不知道这两个探针(liveness 和 readiness)之间的区别。

 

  • 如果对一个 pod 的 liveness 探测失败,就会重启这个 pod。

     

  • 如果对一个 pod 的 readiness 探测失败,就会将这个 pod 和 K8s 服务断开连接(你可以使用 kubectl get endpoints 命令进行检查),并且在该探测再次成功之前,不再向其发送任何流量。

 

注意:这两种探测需要在整个 pod 的生命周期内都运行。这点很重要。

 

人们常常认为,readiness 探测仅在容器起动时运行,以告知 K8s 服务 pod 何时就绪,并且可以开始为流量提供服务。但这只是它的一个应用场景。

 

另外一个应用场景是:在一个 pod 的生命周期内,使用 readiness 探测可以让系统知道一个 pod 是否变得太“热”而无法处理过多的流量(或昂贵的计算),以便系统停止向它发送更多的流量而让它“冷静”下来。直到 readiness 再次探测成功,系统才开始继续向它发送更多流量。在这种情况下(当 pod 过热导致 readiness 探测失败时),如果让 liveness 探测失败就不是我们想要的。因为,我们为什么要重启一个运行良好,并且正在处理大量工作的 Pod 呢?

 

有时候,不配置任何一个探针比错误地配置探针要好。如上所述,如果将 liveness 探针配置成和 readiness 探针一样,那么你将遇到大麻烦。作为开始,建议你仅仅配置 readiness 探针,因为 liveness 探针很危险。

 

如果一个和其它 pod 有共享依赖项的 pod 被关闭,那么你必须保证针对这个 pod 的任何一个探针都不能失败,否则将导致所有 Pod 的级联失败。那你就是在搬起石头砸自己的脚了。

 

三、用于 HTTP 服务的负载均衡器

 

你的集群中可能有很多你想对外开放的 HTTP 服务。

 

如果你把 K8s 的外部访问方式设置为 LoadBalancer 类型,则其控制器(特定于供应商)将被配置来支持一个外部负载均衡器(不一定非得是支持七层交换的 L7 负载均衡器,更可能是仅仅支持四层交换的 L4 负载均衡器),并且这些资源(外部静态 IPv4 地址、计算硬件、带宽等等)可能会变得很昂贵,因为你会创建许多这样的服务。

 

在这种情况下,共享一个外部负载均衡器可能更有意义,并且你可以将 K8s 的外部访问方式设置为 NodePort 类型。或者,更好的方法是,部署一个像 nginx-ingress-controller(或者 traefik)之类的东西作为暴露给外部负载均衡器的单个 NodePort endpoint,并基于 K8s ingress resource 配置在集群中分配并路由流量。

 

集群内的其他需要会话的(微)服务可以通过 ClusterIP 服务和 K8s 自带的 DNS 服务发现(DNS Service Discovery)来实现会话。注意不要使用公共 DNS / IP,因为这可能会导致延迟和云使用成本的增加。

 

四、非 K8s 感知的集群自动伸缩

 

在集群中添加节点或者从集群中删除节点时,你不应该只是考虑一些简单的指标:如节点的 CPU 利用率。在调度 Pod 时,你需要根据很多调度约束条件(如 Pod 和节点的亲和性,污点和容忍,资源请求,QoS 等等)来进行决策。如果一个外部自动伸缩器不能理解这些约束,可能会带来很大的麻烦。

 

假设一个新的 pod 要被调度,但是所有可用的 CPU 都被占用了,而且这个 pod 现在处于挂起状态。当外部自动伸缩器看到当前使用的平均 CPU 情况(非常高),就不会向外扩展了(将这个 pod 添加作为节点)。也就是说这个 pod 不会被调度。

 

向内收缩(从集群中删除节点)总是更加困难。假设你有一个有状态的 pod(连接了持久化存储卷),由于持久化存储卷这种资源通常属于某个特定的可用区域,并且不能在该区域中复制,当你的自定义自动伸缩器删除一个带有此 pod 的节点时,调度器无法将其调度到另一个节点上,因为它受到持久化存储卷属于唯一可用区域的限制。所以这个 Pod 再次被卡在挂起状态。

 

K8s 社区正在广泛使用 cluster-autoscaler 集群自动伸缩器,它运行在你的集群中,并且已经和大多数主要的公共云提供商的 API 实现了集成,理解所有这些约束,可以帮助你在上述情况下实现自动向外扩展。它还能够帮助你确定在不影响设置的约束条件下方便地实现自动向内收缩,以节省你的计算成本。

 

五、不使用 IAM/RBAC 能力

 

不要将 IAM User 与机器和应用程序的永久 secret 一起使用,而应该使用角色(role)和服务账户(service account)生成临时 secret。

 

我们经常看到这样错误的用法:将访问权限和 secret key 硬编码到应用程序的配置中,当使用云 IAM 时,从来不轮换 secret。在合适的情况下,你应当使用 IAM 角色(role)和服务帐户(service account)而不是 IAM Users。

 

跳过 kube2am,直接用于服务帐户的 IAM 角色。就像 Štěpán Vraný 在这篇博客文章[3]中所说的那样。

 

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  apiVersion: v1  kind: ServiceAccount  metadata:    annotations:      eks.amazonaws.com/role-arn: arn:aws:iam::123456789012:role/my-app-role    name: my-serviceaccount    namespace: default

 

上面的示例不是很难理解,不是吗?

 

另外,在不是必要时,千万不要将 admin 和 cluster-admin 的权限给予服务帐户或实例配置文件。这点做起来有点困难,尤其是在使用 K8s 的 RBAC 时,但是仍然值得努力。

 

六、POD 的自我反亲和性

 

运行某个部署的 pod 副本(比如说有 3 个 pod 副本),当节点下线时,你发现所有副本都随之同时下线了。呵呵?所有副本竟然都是在一个节点上运行的吗?K8s 难道不应该有魔法,可以自动提供高可用性吗?!

 

你不能指望 K8s 调度器自动为你的 pod 强加一个反亲和性设置。相反,你应该明确地定义它们(如下例)。

 

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  // omitted for brevity        labels:          app: zk  // omitted for brevity        affinity:          podAntiAffinity:            requiredDuringSchedulingIgnoredDuringExecution:              - labelSelector:                  matchExpressions:                    - key: "app"                      operator: In                      values:                      - zk                topologyKey: "kubernetes.io/hostname"

 

你需要像上面这样设置 pod 的反亲和性,它将确保 pod 被调度到不同的节点上(注意:这个设置是在调度时检查,而不是在执行时检查,因此需要设置成 requiredDuringSchedulingIgnoredDuringExecution 类型)。

 

我们这里讨论的是在不同节点(这里是 topologyKey: "kubernetes.io/hostname")上的 pod 反亲和性(podAntiAffinity),而不是不同可用区域的 pod 反亲和性。如果你真的需要高可用性,你应该更加深入地探讨这个话题。

 

七、没有 poddisruptionbudget

 

你是在 K8s 上运行生产环境的工作负载。你的节点和集群必须不时地升级或停用。而 PodDisruptionBudget(pdb)就是一种被集群管理员和集群用户广泛用来确保服务质量的 API。

 

请确保你创建了 pdb,以避免由于节点停用过多而导致不必要的服务中断。

 

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  apiVersion: policy/v1beta1  kind: PodDisruptionBudget  metadata:    name: zk-pdb  spec:    minAvailable: 2    selector:      matchLabels:        app: zookeeper

 

作为集群用户,你可以这样告诉集群管理员:“嘿,我这里有个 zookeeper 服务,不管你想做什么,我希望至少保证两个副本始终可用。”

 

关于这个话题,我在这篇博文中作了深入地讨论[4]。

 

八、共享集群中有更多租户或环境

 

K8s 命名空间不提供任何强隔离。

 

人们似乎期望,如果将非生产环境工作负载分离到一个命名空间,将生产环境工作负载分离到另一个命名空间,那么一个工作负载就永远不会影响另一个工作负载,这样就可以实现某种程度的公平性(基于资源请求和限制、配额、优先级类)和隔离性(基于亲和性、容忍度、污点(或节点选择器),以便“物理地”分离数据平面(data plane)中的工作负载,但是,实现这种程度地分离相当复杂。

 

如果你需要在同一集群中同时拥有这两种类型的工作负载,那么你将不得不承受这种复杂性。但是如果你不是非要这样做不可,并且拥有另一个集群对你来说相对便宜(比如在公共云中),那么最好将它们放在不同的集群中,以实现更高的隔离级别。

 

九、设置 externalTrafficPolicy 值为 Cluster

 

经常看到这种情况,所有的流量在集群内全部被路由到一个 NodePort 服务, K8s 服务默认将 externalTrafficPolicy:的值设为 Cluster(即 externalTrafficPolicy: Cluster)。这意味着集群内的每个节点都打开该 NodePort 服务,这样你就可以使用任何一个节点和所需的服务(一组 pods)通信。

 

图片

 

通常,负责提供 NodePort 服务的实际 pod 只在这些节点的子集上运行。这意味着,如果你与一个没有运行 pod 的节点会话,它会将流量转发到另一个节点,从而导致额外的网络跳数和延迟的增加(如果节点位于不同的 AZ 或不同的数据中心,则延迟可能会变得非常高,并且给它带来额外的出口(egress)成本)。

 

将 K8s 服务的 externalTrafficPolicy 值设置为 Local (即 externalTrafficPolicy: Local)将不会导致在每个节点上打开该 NodePort 服务,它只会在 pod 实际运行的节点上打开。如果你使用一个能够对 endpoint 进行状态检查的外部负载平衡器(如 AWS ELB 所做的),它就仅仅将流量发送到它应该发送到的节点,从而改进延迟、降低计算开销和出口成本,并提高健全性。

 

很可能,你会将像 traefik 或 nginx-ingress-controller 之类的服务公开为 NodePort 类型(或者 LoadBalancer,它也使用 NodePort),以便路由 http ingress 流量,这个设置可以大大减少此类请求的延迟。

 

这里有篇很棒的博客文章[5],深入探讨了 externalTrafficPolicy 各种设置以及它们的优点和缺点。

 

十、有状态(pet)集群以及过高地控制平面的压力

 

你从按名字调用你的服务器 Anton, HAL9000 和 Colossus,到为你的 K8s 节点生成随机 id,现在你开始按名字来调用集群了?

 

你知道你是如何开始使用 K8s 进行概念验证的,你将集群命名为“testing”,并且在生产环境中仍然使用这个名字(testing)。这样命名导致了每个人都害怕碰它吗?(这个故事真实发生过)

 

Pet 集群(有状态的集群)并不容易管理,你可能需要考虑不时地删除你的集群,练习灾难恢复并管理好控制平面(control plane)。害怕操作控制平面不是个好现象。Etcd 组件挂起?好吧,你有个大麻烦。

 

另一方面,对控制平面操作太多也不好。随着时间的推移,控制平面会越来越慢,可能的原因是,你要么创建了太多对象而不轮换其状态(这在使用默认设置的 helm 时非常常见,它将导致在 configmaps/secrets 中不轮换其状态,最终在控制平面中有数千个对象),要么不断地从 kube-api 中拚凑并编辑了大量内容(用于自动伸缩、cicd、监控,事件、事件和控制器的日志等等)。

 

另外,请查看你的 K8s 托管服务提供商承诺的 SLA/SLO 以及服务质量保障。你的提供商可能会保证控制平面(或其子组件)的可用性,但不会保证让你满意的 p99 延迟。也就是说,你运行 kubectl get nodes 命令,只要该命令在 10 分钟执行完成并返回正确结果,你的服务提供商就仍然没有违反服务保证。

 

附送一个问题:使用 latest 标签

 

这是一个经典的问题。但是最近我发现自己不经常看到这种问题了,可能因为我们太多人都在这上面栽过跟头,所以我们不再使用:latest 这个标签了。

 

AWS ECR 现在支持标签不变性,这个很棒的特性绝对值得你去查看。

 

十一、总结

 

不要指望一切都会自动进行,K8s 并非灵丹妙药。一个糟糕的应用程序始终是糟糕的应用程序,即使在 K8s 上也改变不了(实际上可能甚至更糟糕)。稍不小心,你可能就会面对诸如太多复杂性,过高的压力,控制平面缓慢,没有灾难恢复策略等麻烦。不要对开箱即用的多租户设计和高可用性期望过高。花点时间思考如何让你的云应用成为原生应用。

 

查看 Henning 收集的这些关于 K8s 使用的失败故事[6],可以对你在将来避开这些错误有所帮助。

 

>>>> 

参考资料

 

[1] Optimizing Kubernetes Resource Requests/Limits for Cost-Efficiency and Latency - Highload++, https://www.slideshare.net/try_except_/optimizing-kubernetes-resource-requestslimits-for-costefficiency-and-latency-highload

[2] https://cloud.google.com/kubernetes-engine/docs/concepts/verticalpodautoscaler

[3] https://blog.pipetail.io/posts/2020-04-13-more-eks-tips/

[4] https://blog.marekbartik.com/posts/2018-06-29_kubernetes-in-production-poddisruptionbudget/

[5] https://www.asykim.com/blog/deep-dive-into-kubernetes-external-traffic-policies

[6] https://k8s.af/

 

作者丨Marek Bartik

相关 [kubernetes] 推荐:

Kubernetes & Microservice

- - 午夜咖啡
这是前一段时间在一个微服务的 meetup 上的分享,整理成文章发布出来. 谈微服务之前,先澄清一下概念. 微服务这个词的准确定义很难,不同的人有不同的人的看法. 比如一个朋友是『微服务原教旨主义者』,坚持微服务一定是无状态的 http API 服务,其他的都是『邪魔歪道』,它和 SOA,RPC,分布式系统之间有明显的分界.

kubernetes移除Docker?

- -
两周前,Kubernetes在其最新的Changelog中宣布1.20之后将要弃用dockershime,也就说Kubernetes将不再使用Docker做为其容器运行时. 这一消息持续发酵,掀起了不小的波澜,毕竟Kubernetes+Docker的经典组合是被市场所认可的,大量企业都在使用. 看上去这个“弃用”的决定有点无厘头,那么为什么Kubernetes会做出这样的决定.

Kubernetes 完全教程

- - 午夜咖啡
经过一个阶段的准备,视频版本的 《Kubernetes 完全教程》出炉了. 课程一共分为七节,另外有一节 Docker 预备课,每节课大约一个多小时. 目标是让从没接触过 Kubernetes 的同学也能通过这个课程掌握 Kubernetes. 为什么要学习 Kubernetes. 在介绍课程之前,先说说为什么要学习 Kubernetes 以及什么人需要学习 Kubernetes.

Kubernetes 监控详解

- - DockOne.io
【编者的话】监控 Kubernetes 并不是件容易的事. 本文介绍了监控 Kubernetes 的难点、用例以及有关工具,希望可以帮助大家进一步了解监控 Kubernetes. 如果想要监控 Kubernetes,包括基础架构平台和正在运行的工作负载,传统的监控工具和流程可能还不够用. 就目前而言,监控 Kubernetes 并不是件容易的事.

Kubernetes 切换到 Containerd

- - bleem
由于 Kubernetes 新版本 Service 实现切换到 IPVS,所以需要确保内核加载了 IPVS modules;以下命令将设置系统启动自动加载 IPVS 相关模块,执行完成后需要重启. 重启完成后务必检查相关 module 加载以及内核参数设置:. 1.2、安装 Containerd. Containerd 在 Ubuntu 20 中已经在默认官方仓库中包含,所以只需要 apt 安装即可:.

喜大普奔:Spark on kubernetes

- - Zlatan Eevee
两个星期前(08/15/2017),spark社区提了一个新的SPIP(Spark Project Improvement Proposals): Spark on Kubernetes: Kubernetes as A Native Cluster Manager,即用k8s管理spark集群. 经过社区2个星期的投票,看上去很快要能合入了.

Kubernetes 日志收集方案

- - IT瘾-dev
Kubernetes 中的基本日志. Kubernetes 日志收集. 以 sidecar 容器收集日志. 用 sidecar 容器重新输出日志. 使用 sidecar 运行日志采集 agent. 前面的课程中和大家一起学习了 Kubernetes 集群中监控系统的搭建,除了对集群的监控报警之外,还有一项运维工作是非常重要的,那就是日志的收集.

Kubernetes 会不会“杀死” DevOps?

- - InfoQ推荐
DevOps 这个概念最早是在 2007 年提出的,那时云计算基础设施的概念也才刚刚提出没多久,而随着互联网的逐渐普及,应用软件的需求爆发式增长,软件开发的理念也逐渐从瀑布模型(waterfall)转向敏捷开发(agile). 传统的软件交付模式(应用开发人员专注于软件开发、IT 运维人员负责将软件部署到服务器运行),再也无法满足互联网软件快速迭代的需求.

轻量级Kubernetes k3s初探

- - InfoQ推荐
1 k3s简介–5 less than K8s. k3s [1] 是rancher®开源的一个Kubernetes发行版,从名字上就可以看出k3s相对k8s做了很多裁剪和优化,二进制程序不足50MB,占用资源更少,只需要512MB内存即可运行. 而之所以称为k3s是因为相对k8s裁剪了如下5个部分:.

[译] Kubernetes 必备工具:2021

- - IT瘾-dev
tools 有别于前些天的文章 -  常用的几款工具让 Kubernetes 集群上的工作更容易 偏重于工具类来提升工作效率,今天这篇文章更加适合用来做选型时的参考. 文档翻译自 Kubernetes Essential Tools: 2021 [1],篇幅较长,做了部分增删. 在本文中,我将尝试总结我最喜欢的 Kubernetes [2] 工具,并特别强调最新的和鲜为人知但我认为会非常流行的工具.