原创 解決nvidia驅動 安裝 報'nvidia-drm'問題

參考該博文  https://blog.csdn.net/fdqw_sph/article/details/78745375 一臺ubuntu 16.04 機器重裝顯卡驅動, 查看linux 版本內核  username -a 進入對應內

原创 解決升級tensorflow到2.0的 報錯

  今天在升級tensorflow 後,運行相關腳本 ,有兩個報錯   一個是報如下 報AttributeError: module 'tensorflow' has no attribute 'decode_raw' 網上度娘沒查到,

原创 解決升級tensorflow 腳本

今天在升級tensorflow 後,運行相關腳本 ,一行代碼報如下 報AttributeError: module 'tensorflow' has no attribute 'decode_raw' 網上度娘沒查到, 用tf的升級工具試

原创 name 'file' is not defined 和 TypeError: a bytes-like object is required, not 'str'

升級環境 python2 到 python3  ,在做TFRecord 時遇見兩個問題  報  name 'file' is not defined  file函數改爲open函數 TypeError: ' xxx.jpg' has t

原创 tensorflow ckpt和pb格式模型加載

加載 ckpt格式               checkpoint_file = tf.train.latest_checkpoint(ckpt_modelpath) #load ckpt模型                     

原创 Tensorflow 中earlystopping的使用

 參考該文章 https://blog.csdn.net/zongza/article/details/85017351 報錯 Key signal_early_stopping/STOP not found in checkpoint

原创 解決TF訓練提示 Not using XLA:CPU for cluster

訓練時一直未太關注該搞錯,啓動訓練後報警提示如下,瞭解了下XLA的設置,對性能有一定提升, 於是嘗試解決   W tensorflow/compiler/jit/mark_for_compilation_pass.cc:1412] (O

原创 解決docker 無法啓動

容器一啓動後 就宕機,這個問題第一次遇到 查看日誌主要報 ,  ExecStart=/usr/bin/dockerd (code=exited, status=0/SUCCESS) 試了很多辦法仍然報,重裝了docker,居然還是起不來

原创 解決dockers無法啓動

記錄一下 折騰了一天  一臺服務器跑代碼崩了 重啓後,dockers無法使用, 啓動docker 報  Job for docker.service failed because the control process exited wi

原创 解決容器外操作copy 報no such file or directory

容器外操作copy     命令如下 nvidia-docker exec -i    contain-name   cp -r   xxxx1/*    xxx2/ cp: cannot stat 'xxx/*': No such f

原创 解決 ImportError: Extension horovod.tensorflow has not been built

在使用horovod  autotune 功能 ,提示    horovodrun: error: unrecognized arguments: --autotune --autotune-log-file horovod -h 查看

原创 使用分佈式框架horovod 未能提升加速訓練

 使用分佈式框架horovod ,初步使用了單機多卡 ,跑測的estimator, 數據集大概十幾個分類,1萬張照照片,調用4個gpu 從圖裏看出訓練時長17個小時左右 ,與之前單機單卡訓練時長和準確率沒有太大區別,浪費資源啊! 看了h

原创 k8s 環境 系統日誌 報 Unable to allocate memory on node -1

k8s 中一容器 始終佔用顯卡不釋放,相關佔用顯卡進程已 kill     通過dmesg 查看  報 Unable to allocate memory on node -1 ,治標不治本的辦法 重啓對應的容器 通過搜索  要最終解決該

原创 一臺ubuntu服務器不慎將kernal 刪除,恢復過程

 記錄一下,一臺ubuntu服務器不慎將kernal 刪除,恢復過程 一、系統啓動 後   如下報錯 Kernel panic - not syncing: VFS: Unable to mount root fs on unknown

原创 解決分佈式訓練 報terminate called after throwing an instance of 'std::length_error'

在進行分佈式進行訓練, INFO:tensorflow:Reduce to /replica:0/task:0/device:CPU:0 then broadcast to ('/replica:0/task:0/device:CPU:0