日志 - 台部落

2019.10.31

一、在笔记本安装caffe环境
参考链接：https://blog.csdn.net/weixin_37621229/article/details/80547934
1.在笔记本安装了CUDA10.1，Cudnn10.1，并配置环境变量

2.windows下需要用vs对caffe进行编译，因此下载安装vs2013，耗时较长

3.vs2013编译libcaffe出错：error : too few arguments in function call，原因，cudnn版本过高，参考网上教程修改cudnn部分代码
参考链接：https://blog.csdn.net/mao_hui_fei/article/details/80326464

4.重新编译仍然出错：incompatible with your Protocol Buffer headers. Please update d:\caffe-master\caffe-master\include\caffe\proto\caffe.pb.h 13 2 libcaffe
版本不兼容，参考网上教程注释掉报错相关代码
参考链接：https://blog.csdn.net/chenkjiang/article/details/15809407

5.重新编译，报错：IntelliSense: 不是类名或结构名 d:\caffe-master\caffe-master\include\caffe\proto\caffe.pb.h 661 26 libcaffe

6.删除源码重新编译，报错：未能从程序集 D:\caffe-master\NugetPackages\OpenCV.2.4.10\build\native\private\coapp.NuGetNativeMSBuildTasks.dll 加载任务“NuGetPackageOverlay”。
未能加载文件或程序集“file:///D:\caffe-master\NugetPackages\OpenCV.2.4.10\build\native\private\coapp.NuGetNativeMSBuildTasks.dll”或它的某一个依赖项。
系统找不到指定的文件。请确认 <UsingTask> 声明正确，该程序集及其所有依赖项都可用，并且该任务包含实现 Microsoft.Build.Framework.ITask 的公共类。

7.卸载opencv2.4.10，安装opencv2.4.11，并修改pencv的配置文件OpenCV.props
参考链接：https://www.cnblogs.com/yamin/p/8596748.html

8.初步怀疑是CUDA、cudnn版本过高，网络教程使用CUDA8.0，实际使用版本为CUDA10.0，降低CUDA版本为8.0，安装时报错，CUDA与显卡不匹配，显卡版本高无法使用8.0低版本CUDA，
修改CUDA版本为9.0，编译同样出错，错误类型--同上!

9.在VS2013中自己配置opencv，重新编译，成功，问题解决
参考链接：https://bbs.csdn.net/topics/392062086

10.测试mnist数据集转为lmdb，失败，需要先将下载好的数据集（.gz）解压

11.仍然失败，原因，忘了加空格，加入空格，转换成功

12.训练失败报错Check failed: status == CUDNN_STATUS_SUCCESS (8 vs. 0) CUDNN_STATUS_EXECUTION_FAILED

13.版本兼容性问题，重新安装CUDA9.2，CUDnn7.4，重新编译，问题解决
二、安装了notepad++

2019.11.1

一、安装pycaffe
1.安装anconda2
2.编译报错：无法找到python2.7d.lib,VS切换成release模式，重新编译
3.报错，找不到libcaffe，重新在release编译libcaffe，再编译pycaffe，编译成功
4.将编译好的pycaffe文件夹复制到python安装路径下，即D:\anconda，在python2.7下import caffe,成功。
5.运行caffe-Mobilenet-SSD报错Message type "caffe.LayerParameter" has no field named "permute_param".，查资料发现，caffe版本不对，崩溃！
6.配置可运行SSD的caffe框架
参考链接：https://github.com/runhang/caffe-ssd-windows
7.安装Cmake
8.不可用，改变战术
9.根据链接https://blog.csdn.net/malvas/article/details/84068173安装caffe-ssd。
10.心态爆炸，再不行我就得装双系统了
11.崩溃，装双系统吧
12.装了双系统ubuntu16.04，无法使用wifi，查询资料，低版本系统没有新网卡驱动，升级系统到18.04，问题解决

2019.11.2

ubuntu18.04安装caffe-ssd
1、安装显卡驱动
2、安装CUDA10、CUDnn7.6.3
3、配置Caffe-SSD-GPU
参考链接：https://blog.csdn.net/CAU_Ayao/article/details/84000151
4.主分区分配存储太小，需要扩容
5.编译出错Makefile:570: recipe for target '.build_release/lib/libcaffe.so.1.0.0-rc3' failed
安装依赖库重新编译
参考链接：https://blog.csdn.net/CAU_Ayao/article/details/84023510
6.编译python版本出错Check failed: error == cudaSuccess (30 vs. 0) unknown error
Makefile修改CUDA_ARCH,参考链接：https://blog.csdn.net/u010167269/article/details/50703923
把其余的都注释掉，增加一行自己显卡与之相对应计算能力的设置：
CUDA_ARCH := -gencode arch=compute_75,code=compute_75
英伟达GPU算力评估表格：https://blog.csdn.net/iefenghao/article/details/97956440
7.仍然报相同错误,查询资料发现是显卡驱动问题，使用nvidia-smi
报错failed to initialize nvml driver/library version mismatch ubuntu
尝试重启机器，再使用nvidia-smi成功
参考链接：https://blog.csdn.net/jiandanjinxin/article/details/80688900
再次编译runtest 成功
训练VOC数据集
参考链接：https://blog.csdn.net/la_fe_/article/details/84928958
8.先运行caffe-ssd/data/VOC0712/create_list.sh，修改root_dir为自己的数据集路径
root_dir=/home/zimu/caffe-ssd/data/VOC0712/VOCdevkit/
create_data.sh中data_root_dir为生成的lmdb文件
dataset_name为数据集的名字
22.训练时出现training error: Data layer prefetch queue empty
这种问题出现通常是注释掉 CHECK_LE(a, b) 出现Data layer prefetch queue empty。导致程序出现死循环。
解决办法修改src/caffe/util/sampler.cpp，如下面修改代码所示//renew注释下，加入两个判断，使得bbox长宽不要越界。
参考链接：https://blog.csdn.net/LuohenYJ/article/details/88416180

2019.11.3

1.今天来到后发现训练又报错了，怀疑是电脑休眠的问题，重新训练VOC数据集
2.学习更改文件中的超参数，如迭代次数，batch等
3.学习显示出loss曲线
4.训练迭代10000次出错Check failed: error == cudaSuccess (2 vs. 0) out of memory
尝试减小batch大小，问题解决，显卡显存过小，无法使用较大batch
5.使用solverstate继续训练，在训练的时候加入-snapshot=snapshot/mobilenet_iter_12588.solverstate
参考链接：https://blog.csdn.net/baidu_32173921/article/details/72470019
6.学习验证集和测试集的区别
7.交叉验证法，BN层的作用
8.保存训练日志 GLOG_logtostderr=0 GLOG_log_dir='xxx/xxx/xxx/'
参考链接：https://blog.csdn.net/xunan003/article/details/73017436