旷世x北大 公开课 | 深度学习实战 笔记(1)

最近关注到一门28课时的《深度学习实战》的公开课(B站上有全集资源),觉着1-2天可以对深度学习有一个具体的了解,所以就开看了,这一篇是记录听课的学习笔记。


人工智能主要有以下四部分:

  • 语音(speech)
  • 视觉(vision)
  • 自然语言处理(NLP)
  • 通用人工智能(AGI):目前还做不了,包括resoning/ self-learning/interacting

其中语音和视觉是自然的光信号啊、声音信号啊,相对来说只要理解了其中的原理就可以做出来,也更容易推向市场;而NLP是人造出来的相对来说难一些,AGI输出了更抽象的概念和理解,所以目前还没办法做。

什么是计算机视觉:

  • 人类用眼睛和大脑感知世界
  • 计算机用摄像头/传感器感知世界

人脑的识别系统;

  • 大脑皮层,有6层,每层2毫米厚
  • 300亿个神经元(neurons),每个有几千个其他相连接。他们包含了我们所有的技艺,知识技能,生活经验。物理上是毫无二致的表面,没有明显的边界和分区。
  • 层级结构:视觉有V1,V2,V4,IT区,MT负责运动检测,A1的听觉区域,S1的初级体感。还有联合区域接受多个感官的输入。M1负责向脊髓传达指令驱动肌肉。

现在的科学家向从研究人脑的运作方式上来获得启发,以此来研究视觉的相关算法,但是目前来讲没有很大的进展。


计算机视觉终一些核心的问题:

  • 分类:对整张图片做分类,有没有电视机、猫狗、人之类的。
  • 检测:对照片终的人/物做检测。比较困难,比如计算机很难分出被大幅度遮挡的人/物。
  • 分割:对像素级别的分类,这个像素是属于哪个物体的。
  • 序列:把图片应用到视频上等等。
    在这里插入图片描述

计算机视觉的历史:

  • 1966年Marvin Minsky尝试用相机连在计算机上,然后让机器区描述它所看到的东西。但是这个难题至今也没有很好地被人解出来。
  • 1982年David Marr提出计算机视觉研究框架, 认为计算机视觉需要将照片描述分成三层:计算层描述、 算法层描述、 实现层描述。
  • Marvin Minsky认为David 的想法很好但是,如果解决不了核心的知识表示问题,那么即使去做边缘检测之类的也无法解决好计算机视觉的问题。
  • 所以关于知识表示问题,最直接的就是吧物体分割成块,然后分别识别。
  • 1989 卷积神经网络的应用,输入一张小的照片通过各种计算,最后输出图片文字等信息
  • 1998 人脸识别的应用
  • 90年代中期,神经网络因为没有更新的理论支持、没有训练数据、很难复现结果等一系列的原因,潮流褪去。
  • 2006年开始,深度学习开始复兴,因为又更快的学习算法的支持,比如分层计算、无监督的预训练、发现可以用GPU训练,以及语音和图像的一些突破性研究。
    • 关于图像深度的一些研究革命,最开始是AlexNet的8层(2010),到VGG的19层(2014),到GoogleNet的22层(2014),以及ResNet的152层。
    • 之前一般到20多层就下不去了,因为图片会有梯度消失的问题,硬要往下可能因为信号的衰减,就训练不起来了,而ResNet在几个连续层上加上了一条路径,残差学习有效地解决了这个问题,让没处的梯度足够大。
  • 2001年 Learning-based Representation
  • 2000-2011年左右 Feature-based Reprecentation 成为主流
  • 2010年 Deep Convolutional Neural Networks,一个比较大的突破。

深度神经网络的发展历史:
在这里插入图片描述

  • ImageNet 计算机视觉领域最大的数据集。
    在这里插入图片描述
  • 。。。。。。

课程推荐的阅读书籍:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章