原创 解決k8s集羣環境 容器組 報 network: open /run/flannel/subnet.env: no such file or directory

 k8s集羣環境   由於機器顯卡故障,導致節點連接失敗,出現大量1000多個 pending 容器, 查看容器  容器組裏 報   network is not ready: [runtime network not ready: Ne

原创 解決 cuda10 環境上 tf.test.is_gpu_available() 爲false

.升級Tensorflow 1.15 以及 cuda10,進行分佈式訓練 ,發現gpu  內存都只佔用 145M,開始測試單個卡也是145M ,使用如下簡單測試下gpu是否能調用 import tensorflow as tf impor

原创 解決 k8s集羣環境 安裝顯卡驅動報 An NVIDIA kernel module 'nvidia' appears to already be loaded

k8s集羣環境 下一臺 linux‘ 服務器上使用如下命令 卸載驅動   sudo apt-get purge nvidia-* 重啓後 安裝顯卡仍報如下錯  An NVIDIA kernel module 'nvidia' appear

原创 解決module 'dlib' has no attribute 'load_rgb_image'

1.在生成對齊的頭像相關圖片的過程中 ,提示module 'dlib' has no attribute 'load_rgb_image' 默認環境的dlib版本需升級 解決辦法   1.pip uninstalled dlib   2.

原创 解決重裝nvidia驅動報錯

今天一臺機器 重裝nvidia驅動報錯,在卸載環節 折騰了半天,報如下錯   nvidia-prime E: Sub-process /usr/bin/dpkg returned an error code (1) 再網上看 在卸載nv

原创 基於k8s PyTorch 共享內存設置

基於k8s PyTorch 共享內存設置 提高gpu的使用     在文件中按如下格式加入    volumeMounts:       - name: dshm           mountPath: /dev/shm       

原创 安裝指定版本kubelet kubeadm kubectl

添加同步源 add-apt-repository  cat <<EOF >/etc/apt/sources.list.d/kubernetes.list deb https://mirrors.aliyun.com/kubernetes/

原创 解決 ImportError: cannot import name 'tf_utils'

使用keras  運行時報 cannot import name 'tf_utils' keras默認版本高,安裝 pip3  install keras==2.2.0  解決

原创 解決TFServeing 模型預測不準確

 TFServeing進行模型預測,模型導出部署後,通過grpc方式訪問預測,返回的值君一樣 通過對模型訓練、client腳本、數據轉換多方定位,發送數據應該沒有問題,模型本身也沒問題,準確率都很高,以及都能按照格式返回預測結果 最後定位

原创 解決 grpc模型預測 Please switch to GA gRPC API in prediction_service_pb2_grpc.

參考 文章 https://blog.csdn.net/shin627077/article/details/78592729  調試TFServing模型預測 grpc模型測試 調用相關函數過期 調用過程中報錯     Deprecat

原创 解決TFServing grpc模式 時報No module named 'tensorflow_serving'

調試TFServing  grpc模式 ,部署相關模型後報如下問題 File "resnet_client_grpc.py", line 27, in <module>     from tensorflow_serving.apis i

原创 CIFAR-10 生成TFrecord數據 報 has type str, but expected one of: bytes

記錄一下 學習 將cifa10 轉爲tfrecord  ,pytho3.5 def _bytes_feature(value):   return tf.train.Feature(bytes_list=tf.train.BytesLis

原创 使用freeze_graph.py將inception-resnet V2 的ckpt轉爲pb文件

參考該該文章 https://www.jianshu.com/p/06548e3e8f4b 裏面提到  唯一要改動的就是output_node_names,指定的最後一層輸出節點名稱  啓動Tesorboard,查看inception-r

原创 容器內使用sudo 報bash: sudo: command not found

容器內避免使用roo,建立新用戶執行命令 使用sudo ,提示如下 bash: sudo: command not found 解決辦法  apt-get update apt-get install sudo

原创 升級cuda9.0 到cuda10  報錯 Unable to find the module utility `modprobe`

在容器裏 升級cuda9.0 到cuda10 ,嘗試新的訓練環境,先卸載9後,安裝10的相關驅動 報如下錯 [INFO]: ERROR: Unable to find the module utility `modprobe`; plea