遇到问题----executor无法删除一直重启序号自增
如下:
[zzq@localhost spark-2.4.4-bin-hadoop2.7]$ kubectl get pods |grep spark
spark-1529-1581160495887-exec-51856 0/1 Error 0 105s
spark-1529-1581160497902-exec-51857 0/1 Error 0 103s
这样的pod无法删除,删除后又自增
原因
executor资源无法回收的资源有两种
1、这几个pod关联的driver还未停止
2、这几个pod关联的driver被手动杀掉已经失去了联系
导致资源无法回收。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1n0oUGgJ-1581161618895)(http://image.525.life/Fl3ANMM1NOL-RR5eJptcVByhOGnq)]
如果是driver被手动杀掉已经失去了联系,那么这几个executor也能顺利删除。
一直重启的可能性是 driver的pod还在运行。
那么我们就需要找出这个pod。
解决方法
使用命令
kubectl get pod spark-1529-1581160495887-exec-51856 --output=yaml
查看这个pod创建的yaml,找到里面的SPARK_DRIVER_URL变量。 就可以看到来源。如下:
spec:
containers:
- args:
- exec