原创 openmpi超過50個節點的無法運行

之前在測試 openmpi 4.0.0 的時候,發現超過50個節點就無法運行,經過測試驗證,在 4.0.3 版本是可以的,用戶可以升級一下。 Reference https://github.com/open-mpi/ompi/

原创 kubernetes dashboard insecure配置

生產集羣做這樣的操作是很危險的,不建議在生產集羣上嘗試 對於初學者來說,在學習 kubernetes 的時候,如果能有一個可視化的界面看,那會大有幫助的。大家都知道 kubernetes/dashboard 就是一個非常好用的

原创 容器共享GPU時查看容器使用的GPU編號

對於單機多卡的 GPU 服務器,在做容器的 GPU 分配的時候,可以選擇通過環境變量 NVIDIA_VISIBLE_DEVICES來指定 GPU 的索引或者 UUID。 因爲在容器中看到的 GPU 索引都是從0開始的,如果想找到對

原创 Version of Delve is too old for this version of Go【Goland Debug】報錯

最近升級了 Go 到 1.14,發現使用 Goland debug 程序的時候報錯了。完整的報錯信息如下。 API server listening at: 127.0.0.1:53951 Version of Delve is

原创 遇到mpi worker exited on signal 9

運行一個 mpi-operator 的 demo(這個 demo 還是我提交的…),看到如下錯誤。 An MPI communication peer process has unexpectedly disconnected.

原创 遇到ELF: not found

之前鏡像運行不起來,改了一下 CMD 發現更有問題了,見下圖。 本質上,應該是把二進制文件當做 shell 文件來執行了,改掉紅色方框的就可以了。 Reference https://stackoverflow.com/qu

原创 apt-get update遇到NO_PUBKEY

這是因爲給 Ubuntu 安裝軟件的時候需要做驗證,當然了,這個並不是必須的,也就是你的容器裏也可以裝沒有經過認證可能不安全的源中安裝需要的軟件,雖然不建議,但是有時候爲了快速調試,比如在公司內部的源裏安裝軟件,可以試一下。 如果

原创 構建pyflink鏡像

想做一個 pyflink 的鏡像,所以打算在 python 的鏡像裏直接安裝 apache-flink 的 pip 包,FROM 的鏡像是 python:3.6.10-alpine3.11,發現報錯,FileNotFoundErr

原创 Kubernetes集羣的CA簽名雙向數字證書圖示

Kubernetes 提供了基於 CA 簽名的雙向數字證書的認證方式,一般對於一個安全性要求比較高的集羣,一般會選擇雙向數字證書的認證方式,而不採用 HTTP Base 或 Token 的認證方式的,所以對於搭建集羣的安全設置,這

原创 s3cmd ls之迷惑

習慣了文件系統的我們一直都覺得 ls 命令應該會把文件全部 list 出來,對於 s3cmd ls 我一開始也是這麼理解的。 直到有一天,同事通過 s3cmd delete 刪除了一個文件,執行 s3cmd ls 竟然返回200,

原创 tcsetpgrp failed重新編譯tini

文章目錄1 Overview2 tini 源碼3 Summary 1 Overview 在啓動 Spark Operator 的時候出現了一個意想不到的問題。 [root@sholdmix01node1 /data/runzhli

原创 XGBoost Operator源碼分析

文章目錄1 Overview2 Code3 Test4 Summary 1 Overview 分佈式的 XGBoost 可以用 Spark 來跑,當然也支持用其他分佈式的方法去跑,比如用 XGBoost Operator,可以很輕

原创 Virtualbox 6.0下的複製粘貼

最近在 Mac 開發機下折騰一下虛擬機,想裝個 Ceph 集羣測試一下監控功能,但是因爲需要修改很多配置文件,而且至少需要開三臺虛擬機,這樣修改起來,如果沒有複製粘貼功能,將會十分痛苦…本來以爲共享粘貼板裏的雙向功能開啓之後,就可

原创 Tensorflow Serving模型指向s3地址,Could not find base path?

之前有同學遇到一個問題,通過 Workload 配置一個 Serving 服務的時候,通過 model_config_file 這個選項來指定多個模型文件,配置文件大概長這個樣子。 ➜ tmp cat model.config

原创 煩人的 Go Proxy

Q內 + 公司的網絡環境,有時候代理尤其是 Go 的 Proxy 能把人折騰死。 # 親測 goproxy.io 有些包不全 go env -w GO111MODULE=on go env -w GOPROXY=https://g