原创 解決nvidia驅動 安裝 報'nvidia-drm'問題
參考該博文 https://blog.csdn.net/fdqw_sph/article/details/78745375 一臺ubuntu 16.04 機器重裝顯卡驅動, 查看linux 版本內核 username -a 進入對應內
原创 解決升級tensorflow到2.0的 報錯
今天在升級tensorflow 後,運行相關腳本 ,有兩個報錯 一個是報如下 報AttributeError: module 'tensorflow' has no attribute 'decode_raw' 網上度娘沒查到,
原创 解決升級tensorflow 腳本
今天在升級tensorflow 後,運行相關腳本 ,一行代碼報如下 報AttributeError: module 'tensorflow' has no attribute 'decode_raw' 網上度娘沒查到, 用tf的升級工具試
原创 name 'file' is not defined 和 TypeError: a bytes-like object is required, not 'str'
升級環境 python2 到 python3 ,在做TFRecord 時遇見兩個問題 報 name 'file' is not defined file函數改爲open函數 TypeError: ' xxx.jpg' has t
原创 tensorflow ckpt和pb格式模型加載
加載 ckpt格式 checkpoint_file = tf.train.latest_checkpoint(ckpt_modelpath) #load ckpt模型
原创 Tensorflow 中earlystopping的使用
參考該文章 https://blog.csdn.net/zongza/article/details/85017351 報錯 Key signal_early_stopping/STOP not found in checkpoint
原创 解決TF訓練提示 Not using XLA:CPU for cluster
訓練時一直未太關注該搞錯,啓動訓練後報警提示如下,瞭解了下XLA的設置,對性能有一定提升, 於是嘗試解決 W tensorflow/compiler/jit/mark_for_compilation_pass.cc:1412] (O
原创 解決docker 無法啓動
容器一啓動後 就宕機,這個問題第一次遇到 查看日誌主要報 , ExecStart=/usr/bin/dockerd (code=exited, status=0/SUCCESS) 試了很多辦法仍然報,重裝了docker,居然還是起不來
原创 解決dockers無法啓動
記錄一下 折騰了一天 一臺服務器跑代碼崩了 重啓後,dockers無法使用, 啓動docker 報 Job for docker.service failed because the control process exited wi
原创 解決容器外操作copy 報no such file or directory
容器外操作copy 命令如下 nvidia-docker exec -i contain-name cp -r xxxx1/* xxx2/ cp: cannot stat 'xxx/*': No such f
原创 解決 ImportError: Extension horovod.tensorflow has not been built
在使用horovod autotune 功能 ,提示 horovodrun: error: unrecognized arguments: --autotune --autotune-log-file horovod -h 查看
原创 使用分佈式框架horovod 未能提升加速訓練
使用分佈式框架horovod ,初步使用了單機多卡 ,跑測的estimator, 數據集大概十幾個分類,1萬張照照片,調用4個gpu 從圖裏看出訓練時長17個小時左右 ,與之前單機單卡訓練時長和準確率沒有太大區別,浪費資源啊! 看了h
原创 k8s 環境 系統日誌 報 Unable to allocate memory on node -1
k8s 中一容器 始終佔用顯卡不釋放,相關佔用顯卡進程已 kill 通過dmesg 查看 報 Unable to allocate memory on node -1 ,治標不治本的辦法 重啓對應的容器 通過搜索 要最終解決該
原创 一臺ubuntu服務器不慎將kernal 刪除,恢復過程
記錄一下,一臺ubuntu服務器不慎將kernal 刪除,恢復過程 一、系統啓動 後 如下報錯 Kernel panic - not syncing: VFS: Unable to mount root fs on unknown
原创 解決分佈式訓練 報terminate called after throwing an instance of 'std::length_error'
在進行分佈式進行訓練, INFO:tensorflow:Reduce to /replica:0/task:0/device:CPU:0 then broadcast to ('/replica:0/task:0/device:CPU:0