解决Kubernetes Pod故障的5个简单的技巧

标签: kubernetes pod 技巧 | 发表时间:2020-04-21 13:12 | 作者:frankinbj
出处:http://weekly.dockone.io

——轻松地解决Kubernetes应用程序的故障并理解其机制

在很多情况下,你可能会发现Kubernetes中的应用程序没有正确地部署,或者没有正常地工作。今天这篇文章就提供了如何去快速解决这类故障以及一些技巧。
在阅读了这篇文章之后,你还将深入了解Kubernetes的内部机制,另外,我还将与大家分享一些关于自己操作K8S的一些非常有用的技巧。
那么,我们开始吧!
首先,Pod失败的原因一般有两个:
1. Kubernetes资源配置中的错误,例如在部署(deployment)和服务(service)里。
2. 代码中的问题。
在第一种情况下,容器一般不会启动。在后一个实例中,应用程序代码在容器启动后失败。我们将系统地处理每种情况。
在本练习中,我们会使用kubectl来实现与K8S的交互。

技巧1:检查Pod
确认Pod处于运行(Running)状态或准备就绪(Ready)的状态。
Kubectl get pods

如图,一个Pod在等待(Pending)状态9个小时,肯定不是个好事!容器没有启动,我们将会使用技巧2中的describe命令对此进行深入地研究。但,在这里我们强调一下在容器启动失败时发生的其他错误代码。如下:
• Imagepullbackoff — Docker镜像仓库不可访问,部署中指定的镜像名称或版本不正确。请确保映像名称是正确的,并且镜像仓库是可访问的以及经过身份验证的(docker login…)。
• RunContainerError — 也是一种可能。 原因:缺少ConfigMap或Secrets
• ContainerCreating — 容器创建时一些组件无法立刻启用,比如持久卷?
在研究其他错误之前,让我们先尝试使用错误的映像名称启动Pod。
# start Pod from image "ngin".
# 'web' can be any name, is the name of resulting K8S deployment
kubectl run web --image=ngin --replicas=1

最后一行展示了—镜像错误
果然,完全不存在的镜像“ngin”导致了ImagePullBackOff错误。 使用正确的镜像名称“nginx”就能解决这个问题
kubectl run temp --image=nginx --replicas=1
kubectl get pods

如图,Pod已经起来了。

接下来,这里有一些在容器启动后可能发生的错误。
• Crashloopbackoff — Pod存活检查失败或Docker镜像出错。例如,Docker CMD即刻退出。可以用下面的技巧3来检查日志。注意:此截图中的“重启(RESTARTS)”列显示了重启的次数。在这种情况下,你应该会看到一些重启,因为当错误发生时,K8S会反复尝试启动Pods。
• 如果Pod处于运行(Running)状态,而你的应用程序仍然不能正常工作,请继续技巧3和4。

技巧2: 检查和Pod相关的事件
如果你在Pod状态上看到一个错误代码,你可以使用describe命令获得更多信息。这在容器本身没有启动的情况下是很有帮助的。
kubectl describe frontend-65c58c957d-f4cqn

截图的最后一行表明,由于缺少CPU资源,Pod还没有启动,请参见底部的消息。你可以增加Pod的CPU再重新部署应用程序。

技巧3:检查日志(Log)
现在容器已经启动,可以通过检查日志来查看应用程序是否正常运行。例如,Pod frontend-65c58c957d-bzbg2:
kubectl logs --tail=10 frontend-65c58c957d-bzbg2

实时滚动查看一个正在运行的日志:
kubectl logs -f frontend-65c58c957d-bzbg2
如果kubectl logs 后没有任何输出,试试使用get pod,然后会发现这很有可能是一个新启动的Pod,因此可以尝试检查一些上一次挂掉的Pod的日志。
kubectl logs frontend-65c58c957d-bzbg2 --previous

技巧4:直接在Pod中运行“sh”、“bash”或“ash”
可以进入到Pod内部并运行命令来对应用程序进行故障排除(输入exit即可退出)。
kubectl exec -it frontend-65c58c957d-bzbg2 /bin/sh

技巧5:显示集群级别的事件
K8S在它管理的资源状态发生变化(正常、警告等)时触发对应的事件。这能帮助我们了解背后到底发生了什么。get events命令能提供事件的聚合透视图。
# all events sorted by time.
kubectl get events --sort-by=.metadata.creationTimestamp# warnings only
kubectl get events --field-selector type=Warning# events related to Nodes
kubectl get events --field-selector involvedObject.kind=Node

额外的技巧
这是我最喜欢的技巧!熟练掌握各种命令会使你更有信心在游走在K8S集群中。
首先,输入kubectl可以列出所有kubectl的命令。
接下来,尝试用下面的命令来执行grep调试命令。
kubectl | grep -i -A 10 debugging

列出可以在K8S上运行的一些基本命令。
kubectl | grep -i -A 5 Basic

接下来,列出可操作的Kubernetes资源。
kubectl api-resources

现在可以自己搞一些命令了!你可以选择一个命令(get、describe、explain)并选取一个资源然后运行它!例如,get nodes。所以,再试试别的吧!
虽然有些组合可能并没什么意义,但除了这一点,整个command系统是相当直观和一致的;你可以轻松地编写命令并进行各种探索。
只是千万要小心,不要删除或修改你不希望碰到的对象。
列出k8名称空间(namespace):
kubectl get ns

这样,你可以使用特定的命令来更深入地研究相应的选项或示例
kubectl get --help# see K8S system pods in 'kube-system' namespace!
kubectl -n kube-system get pods

正如你所看到的,K8S的命令系统非常容易理解,简单地测试这些命令能让我们学到很多东西。

结论
有了这些,我希望你能在Kubernetes集群中找到并修复K8S资源和代码中的错误。同时我打算接下来再介绍一下K8S服务(service)和网络的调试。
如果你已经走了这么远,我想感谢你对学习Kubernetes的坚持和奉献。请在下面留下你的评论,如果你有什么想法,或者有什么想谈论的话题,也请告诉我。
最后,如果你想在K8S中部署一个真实的应用程序,请阅读我的最后一篇文章( https://medium.com/better-prog ... 2e533)。然后可以使用命令和故障排除工具对其进行修补。

进一步的阅读
• 调试Kubernetes应用程序( https://kubernetes.io/docs/tas ... tion/
• 学习K8s——deployment故障排查( https://learnk8s.io/troubleshooting-deployments

原文链接: https://medium.com/better-prog ... 03ba6

相关 [kubernetes pod 技巧] 推荐:

解决Kubernetes Pod故障的5个简单的技巧

- - DockOne.io
——轻松地解决Kubernetes应用程序的故障并理解其机制. 在很多情况下,你可能会发现Kubernetes中的应用程序没有正确地部署,或者没有正常地工作. 今天这篇文章就提供了如何去快速解决这类故障以及一些技巧. 在阅读了这篇文章之后,你还将深入了解Kubernetes的内部机制,另外,我还将与大家分享一些关于自己操作K8S的一些非常有用的技巧.

Kubernetes & Microservice

- - 午夜咖啡
这是前一段时间在一个微服务的 meetup 上的分享,整理成文章发布出来. 谈微服务之前,先澄清一下概念. 微服务这个词的准确定义很难,不同的人有不同的人的看法. 比如一个朋友是『微服务原教旨主义者』,坚持微服务一定是无状态的 http API 服务,其他的都是『邪魔歪道』,它和 SOA,RPC,分布式系统之间有明显的分界.

Kubernetes 完全教程

- - 午夜咖啡
经过一个阶段的准备,视频版本的 《Kubernetes 完全教程》出炉了. 课程一共分为七节,另外有一节 Docker 预备课,每节课大约一个多小时. 目标是让从没接触过 Kubernetes 的同学也能通过这个课程掌握 Kubernetes. 为什么要学习 Kubernetes. 在介绍课程之前,先说说为什么要学习 Kubernetes 以及什么人需要学习 Kubernetes.

喜大普奔:Spark on kubernetes

- - Zlatan Eevee
两个星期前(08/15/2017),spark社区提了一个新的SPIP(Spark Project Improvement Proposals): Spark on Kubernetes: Kubernetes as A Native Cluster Manager,即用k8s管理spark集群. 经过社区2个星期的投票,看上去很快要能合入了.

Kubernetes 日志收集方案

- - IT瘾-dev
Kubernetes 中的基本日志. Kubernetes 日志收集. 以 sidecar 容器收集日志. 用 sidecar 容器重新输出日志. 使用 sidecar 运行日志采集 agent. 前面的课程中和大家一起学习了 Kubernetes 集群中监控系统的搭建,除了对集群的监控报警之外,还有一项运维工作是非常重要的,那就是日志的收集.

Kubernetes 会不会“杀死” DevOps?

- - InfoQ推荐
DevOps 这个概念最早是在 2007 年提出的,那时云计算基础设施的概念也才刚刚提出没多久,而随着互联网的逐渐普及,应用软件的需求爆发式增长,软件开发的理念也逐渐从瀑布模型(waterfall)转向敏捷开发(agile). 传统的软件交付模式(应用开发人员专注于软件开发、IT 运维人员负责将软件部署到服务器运行),再也无法满足互联网软件快速迭代的需求.

轻量级Kubernetes k3s初探

- - InfoQ推荐
1 k3s简介–5 less than K8s. k3s [1] 是rancher®开源的一个Kubernetes发行版,从名字上就可以看出k3s相对k8s做了很多裁剪和优化,二进制程序不足50MB,占用资源更少,只需要512MB内存即可运行. 而之所以称为k3s是因为相对k8s裁剪了如下5个部分:.

k8s外网如何访问业务应用之Service 池化pod

- - IT瘾-geek
一、废话:先讲述一个k8s重要概念,我觉得这个概念是整个k8s集群实现微服务的最核心的概念. Service定义了Pod的逻辑集合和访问该集合的策略,是真实服务的抽象. Service提供了一个统一的服务访问入口以及服务代理和发现机制,用户不需要了解后台Pod是如何运行. 只需要将一组跑同一服务的pod池化成一个service,k8s集群会自动给这个service分配整个集群唯一ip和端口号(这个端口号自己在yaml文件中定义),一个service定义了访问pod的方式,就像单个固定的IP地址和与其相对应的DNS名之间的关系.

监控 Pod 时,我们在监控什么

- - DockOne.io
应用 Kubernetes 化已经开始推进了一段时间,监控系统也提供了 Kubernetes Pod 相关的监控指标和警报规则. 由于 Kubernetes 和传统的物理机/虚拟机是完全不同的运行环境,因此监控系统提供的监控指标也存在一定的区别. 虽然我们已经尽量统一不同平台的差异,但是日常工作中仍会收到用户对 Kubernetes 监控指标的反馈.

在 k8s 中对指定 Pod 进行抓包

- -
Distributed Tracing时,遇到了一些问题,需要深入到底层去进行网络抓包分析报文. 但是应用时运行在 k8s 集群中的,与传统的在一台机器上跑一个进程直接通过 tcpdump 抓包方式略有不同. 最初对容器的理解不深刻认为一定要进入到这个容器抓包,而进入容器内并没有 tcpdump 等基础工具,相当于自己还是把容器当作虚拟机在看待.