反思深度学习与传统计算机视觉的关系-程序员宅基地

技术标签: ViewUI  人工智能  前端  

TB1dZoXP9zqK1RjSZFpXXakSXXa.jpg

雷锋网(公众号:雷锋网)注:【 图片来源:Google  所有者:Google 】

如今,深度学习在众多领域都有一席之地,尤其是在计算机视觉领域。尽管许多人都为之深深着迷,然而,深网就相当于一个黑盒子,我们大多数人,甚至是该领域接受过培训的科学家,都不知道它们究竟是如何运作的。

大量有关深度学习的成功或失败事例给我们上了宝贵的一课,教会我们正确处理数据。在这篇文章中,我们将深入剖析深度学习的潜力,深度学习与经典计算机视觉的关系,以及深度学习用于关键应用程序的潜在危险。

视觉问题的简单与复杂

首先,我们需要就视觉/计算机视觉问题提出一些看法。原则上它可以这样理解,人们给定一幅由摄像机拍摄的图像,并允许计算机回答关于与该图像内容的相关问题。

问题的范围可以从“图像中是否存在三角形”,“图像中是否有人脸”等简单问题到更为复杂的问题,例如“图像中是否有狗在追逐猫”。尽管这类的问题看起来很相似,对于人类来说甚至有点微不足道,但事实证明,这些问题所隐藏的复杂性存在巨大差异。   

虽然回答诸如“图像中是否有红圈”或“图像中有多少亮点”之类的问题相对容易,但其他看似简单的问题如“图像中是否有一只猫”,则要复杂得多。“简单”视觉问题和“复杂”视觉问题之间的区别难以界限。

这一点值得注意,因为对于人类这种高度视觉化的动物来说,上述所有问题都是不足以成为难题,即便是对孩子们来说,回答上述视觉问题也并不困难。然而,处在变革时期的深度学习却无法回答这些问题。

传统计算机视觉V.S.深度学习

传统计算机视觉是广泛算法的集合,允许计算机从图像中提取信息(通常表示为像素值数组)。目前,传统计算机视觉已有多种用途,例如对不同的对象进行去噪,增强和检测。

一些用途旨在寻找简单的几何原语,如边缘检测,形态分析,霍夫变换,斑点检测,角点检测,各种图像阈值化技术等。还有一些特征代表技术,如方向梯度直方图可以作为机器学习分类器的前端,来构建更复杂的检测器。

与普遍的看法相反,上面讨论的工具结合在一起可以造出针对特定对象的检测器,这种检测器性能强,效率高。除此之外,人们还可以构建面部检测器,汽车检测器,路标检测器,在精准度和计算复杂性等方面,这些检测器很可能优于深度学习。

但问题是,每个检测器都需要由有能力的人从头开始构建,这一行为低效又昂贵。因此,从历史上看,表现优良的探测器只适用于那些必须经常被检测,并且能够证明前期投资是明智的对象。

这些探测器中有许多是专有的,不向公众开放,比如人脸检测器,车牌识别器等等。但是,没有一个心智正常的人会花钱编写狗探测器或分类器,以便从图像中对狗的品种进行分类。于是,深度学习就派上了用场。

尖子生的启迪

假设你正在教授计算机视觉课程,在课程的前半部分,你要带领学生们复习大量的专业知识,然后留时间给学生完成任务,也就是收集图像内容并提问。任务一开始很简单,例如通过询问图像中是否有圆形或正方形,再到更复杂的任务,例如区分猫和狗。

学生每周都要编写计算机程序来完成任务,而你负责查看学生编写的代码,并运行查看它们的效果如何。

这个学期,一名新生加入了你的班级。他不爱说话,不爱社交,也没有提过什么问题。但是,当他提交自己的第一个任务方案时,你感到有点意外。这名新生编写的代码让人难以理解,你从来都没见过这样的代码。看起来他像是用随机的过滤器对每幅图像进行卷积,然后再用非常奇怪的逻辑来得到最终的答案。

你运行了这段代码,效果非常好。你心想,虽然这个解决方案非同寻常,但只要它有效就足够了。几周过去了,学生们需要完成的任务难度越来越高,你也从这名新生那里得到了越来越复杂的代码。他的代码出色地完成了难度日益增大的任务,但你无法真正理解其中的内容。

期末的时候,你给学生们布置了一项作业,用一组真实的图片来区分猫和狗。结果,没有学生能够在这项任务上达到超过65%的准确率,但是新生编写的代码准确率高达95%,你大吃一惊。你开始在接下来的几天中深入分析这些高深莫测的代码。你给它新的示例,然后进行修改,试着找出影响程序决策的因素,对其进行反向工程。

最终你得出一个非常令人惊讶的结论:代码会检测出狗的标签。如果它能检测到标签,那么它就可以判断对象的下部是否为棕色。如果是,则返回“cat”,否则返回“dog”。如果不能检测到标签,那么它将检查对象的左侧是否比右侧更黄。如果是,则返回“dog”,否则返回“cat”。

你邀请这名新生到办公室,并把研究结果呈给他。你向他询问,是否认为自己真的解决了问题?在长时间的沉默之后,他终于喃喃自语道,他解决了数据集显示的任务,但他并不知道狗长什么样,也不知道狗和猫之间有什么不同……

很明显,他作弊了,因为他解决任务目的和你想要的目的无关。不过,他又没有作弊,因为他的解决方案确实是有效的。然而,其他学生的表现都不怎么样。他们试图通过问题来解决任务,而不是通过原始数据集。虽然,他们的程序运行得并不好,倒也没有犯奇怪的错误。

深度学习的祝福和诅咒

深度学习是一种技术,它使用一种称为梯度反向传播的优化技术来生成“程序”(也称为“神经网络”),就像上面故事中学者学生编写的那些程序一样。这些“程序”和优化技术对世界一无所知,它所关心的只是构建一组转换和条件,将正确的标签分配给数据集中的正确图像。

通过向训练集添加更多的数据,可以消除虚假的偏差,但是,伴随着数百万个参数和数千个条件检查,反向传播生成的“程序”会非常大,非常复杂,因此它们可以锁定更细微偏差的组合。任何通过分配正确标签,来统计优化目标函数的方法都可以使用,不管是否与任务的“语义精神”有关。

这些网络最终能锁定“语义正确”的先验吗?当然可以。但是现在有大量的证据表明,这并不是这些网络分内之事。相反的例子表明,对图像进行非常微小的、无法察觉的修改就可以改变检测结果。

研究人员对训练过的数据集的新示例进行了研究,结果表明,原始数据集之外的泛化要比数据集内的泛化弱得多,因此说明,网络所依赖的给定数据集具有特定的低层特性。在某些情况下,修改单个像素就足以产生一个新的深度网络分类器。

在某种程度上,深度学习最大的优势就是自动创建没有人会想到的特性能力,这同时也是它最大的弱点,因为大多数这些功能至少在语义上看起来,可以说是“可疑的”。

什么时候有意义,什么时候没有意义?

深度学习对于计算机视觉系统来说无疑是一个有趣的补充。我们现在可以相对容易地“训练”探测器来探测那些昂贵且不切实际的物体。我们还可以在一定程度上扩展这些检测器,以使用更多的计算能力。

但我们为这种奢侈付出的代价是高昂的:我们不知道深度学习是如何做出判断,而且我们确实知道,分类的依据很可能与任务的“语义精神”无关。而且,只要输入数据违反训练集中的低水平偏差,检测器就会出现失效。这些失效条件目前尚且不为人知。

因此,在实践中,深度学习对于那些错误不是很严重,并且保证输入不会与训练数据集有很大差异的应用程序非常有用,这些应用能够承受5%以内的错误率就没问题,包括图像搜索、监视、自动化零售,以及几乎所有不是“关键任务”的东西。

具有讽刺意味的是,大多数人认为深度学习是应用领域的一次革命,因为深度学习的决策具有实时性,错误具有重大性,甚至会导致致命的结果,如自动驾驶汽车,自主机器人(例如,最近的研究表明,基于深层神经网络的自主驾驶确实容易受到现实生活中的对抗性攻击)。我只能将这种信念描述为对“不幸”的误解。

一些人对深度学习在医学和诊断中的应用寄予厚望。然而,在这方面也有一些令人担忧的发现,例如,针对一个机构数据的模型未能很好地检测另一个机构数据。这再次印证了一种观点:这些模型获取的数据要比许多研究人员所希望的更浅。

数据比我们想象的要浅

出人意料的是,深度学习教会了我们一些关于视觉数据(通常是高维数据)的东西,这个观点十分有趣:在某种程度上,数据比我们过去认为的要“浅”得多。

似乎有更多的方法来统计地分离标有高级人类类别的可视化数据集,然后有更多的方法来分离这些“语义正确”的数据集。换句话说,这组低水平的图像特征比我们想象的更具“统计意义”。这是深度学习的伟大发现。

如何生成“语义上合理”的方法来分离可视数据集模型的问题仍然存在,事实上,这个问题现在似乎比以前更难回答。

结论

深度学习已经成为计算机视觉系统的重要组成部分。但是传统的计算机视觉并没有走到那一步,而且,它仍然可以用来建造非常强大的探测器。这些人工制作的检测器在某些特定的数据集度量上可能无法实现深度学习的高性能,但是可以保证依赖于输入的“语义相关”特性集。

深度学习提供了统计性能强大的检测器,而且不需要牺牲特征工程,不过仍然需要有大量的标记数据、大量GPU,以及深度学习专家。然而,这些强大的检测器也会遭遇意外的失败,因为它们的适用范围无法轻易地描述(或者更确切地说,根本无法描述)。

需要注意的是,上面的讨论都与“人工智能”中的AI无关。我不认为像深度学习与解决人工智能的问题有任何关系。但我确实认为,将深度学习、特性工程和逻辑推理结合起来,可以在广泛的自动化空间中实现非常有趣和有用的技术能力。

雷锋网注:本文编译自Piekniewski's blog

雷锋网注:【封面图片来源:网站名Google,所有者:Google】

雷锋网版权文章,未经授权禁止转载。详情见转载须知。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_33711641/article/details/89572967

智能推荐

艾美捷Epigentek DNA样品的超声能量处理方案-程序员宅基地

文章浏览阅读15次。空化气泡的大小和相应的空化能量可以通过调整完全标度的振幅水平来操纵和数字控制。通过强调超声技术中的更高通量处理和防止样品污染,Epigentek EpiSonic超声仪可以轻松集成到现有的实验室工作流程中,并且特别适合与表观遗传学和下一代应用的兼容性。Epigentek的EpiSonic已成为一种有效的剪切设备,用于在染色质免疫沉淀技术中制备染色质样品,以及用于下一代测序平台的DNA文库制备。该装置的经济性及其多重样品的能力使其成为每个实验室拥有的经济高效的工具,而不仅仅是核心设施。

11、合宙Air模块Luat开发:通过http协议获取天气信息_合宙获取天气-程序员宅基地

文章浏览阅读4.2k次,点赞3次,收藏14次。目录点击这里查看所有博文  本系列博客,理论上适用于合宙的Air202、Air268、Air720x、Air720S以及最近发布的Air720U(我还没拿到样机,应该也能支持)。  先不管支不支持,如果你用的是合宙的模块,那都不妨一试,也许会有意外收获。  我使用的是Air720SL模块,如果在其他模块上不能用,那就是底层core固件暂时还没有支持,这里的代码是没有问题的。例程仅供参考!..._合宙获取天气

EasyMesh和802.11s对比-程序员宅基地

文章浏览阅读7.7k次,点赞2次,收藏41次。1 关于meshMesh的意思是网状物,以前读书的时候,在自动化领域有传感器自组网,zigbee、蓝牙等无线方式实现各个网络节点消息通信,通过各种算法,保证整个网络中所有节点信息能经过多跳最终传递到目的地,用于数据采集。十多年过去了,在无线路由器领域又把这个mesh概念翻炒了一下,各大品牌都推出了mesh路由器,大多数是3个为一组,实现在面积较大的住宅里,增强wifi覆盖范围,智能在多热点之间切换,提升上网体验。因为节点基本上在3个以内,所以mesh的算法不必太复杂,组网形式比较简单。各厂家都自定义了组_802.11s

线程的几种状态_线程状态-程序员宅基地

文章浏览阅读5.2k次,点赞8次,收藏21次。线程的几种状态_线程状态

stack的常见用法详解_stack函数用法-程序员宅基地

文章浏览阅读4.2w次,点赞124次,收藏688次。stack翻译为栈,是STL中实现的一个后进先出的容器。要使用 stack,应先添加头文件include<stack>,并在头文件下面加上“ using namespacestd;"1. stack的定义其定义的写法和其他STL容器相同, typename可以任意基本数据类型或容器:stack<typename> name;2. stack容器内元素的访问..._stack函数用法

2018.11.16javascript课上随笔(DOM)-程序员宅基地

文章浏览阅读71次。<li> <a href = "“#”>-</a></li><li>子节点:文本节点(回车),元素节点,文本节点。不同节点树:  节点(各种类型节点)childNodes:返回子节点的所有子节点的集合,包含任何类型、元素节点(元素类型节点):child。node.getAttribute(at...

随便推点

layui.extend的一点知识 第三方模块base 路径_layui extend-程序员宅基地

文章浏览阅读3.4k次。//config的设置是全局的layui.config({ base: '/res/js/' //假设这是你存放拓展模块的根目录}).extend({ //设定模块别名 mymod: 'mymod' //如果 mymod.js 是在根目录,也可以不用设定别名 ,mod1: 'admin/mod1' //相对于上述 base 目录的子目录}); //你也可以忽略 base 设定的根目录,直接在 extend 指定路径(主要:该功能为 layui 2.2.0 新增)layui.exten_layui extend

5G云计算:5G网络的分层思想_5g分层结构-程序员宅基地

文章浏览阅读3.2k次,点赞6次,收藏13次。分层思想分层思想分层思想-1分层思想-2分层思想-2OSI七层参考模型物理层和数据链路层物理层数据链路层网络层传输层会话层表示层应用层OSI七层模型的分层结构TCP/IP协议族的组成数据封装过程数据解封装过程PDU设备与层的对应关系各层通信分层思想分层思想-1在现实生活种,我们在喝牛奶时,未必了解他的生产过程,我们所接触的或许只是从超时购买牛奶。分层思想-2平时我们在网络时也未必知道数据的传输过程我们的所考虑的就是可以传就可以,不用管他时怎么传输的分层思想-2将复杂的流程分解为几个功能_5g分层结构

基于二值化图像转GCode的单向扫描实现-程序员宅基地

文章浏览阅读191次。在激光雕刻中,单向扫描(Unidirectional Scanning)是一种雕刻技术,其中激光头只在一个方向上移动,而不是来回移动。这种移动方式主要应用于通过激光逐行扫描图像表面的过程。具体而言,单向扫描的过程通常包括以下步骤:横向移动(X轴): 激光头沿X轴方向移动到图像的一侧。纵向移动(Y轴): 激光头沿Y轴方向开始逐行移动,刻蚀图像表面。这一过程是单向的,即在每一行上激光头只在一个方向上移动。返回横向移动: 一旦一行完成,激光头返回到图像的一侧,准备进行下一行的刻蚀。

算法随笔:强连通分量-程序员宅基地

文章浏览阅读577次。强连通:在有向图G中,如果两个点u和v是互相可达的,即从u出发可以到达v,从v出发也可以到达u,则成u和v是强连通的。强连通分量:如果一个有向图G不是强连通图,那么可以把它分成躲个子图,其中每个子图的内部是强连通的,而且这些子图已经扩展到最大,不能与子图外的任一点强连通,成这样的一个“极大连通”子图是G的一个强连通分量(SCC)。强连通分量的一些性质:(1)一个点必须有出度和入度,才会与其他点强连通。(2)把一个SCC从图中挖掉,不影响其他点的强连通性。_强连通分量

Django(2)|templates模板+静态资源目录static_django templates-程序员宅基地

文章浏览阅读3.9k次,点赞5次,收藏18次。在做web开发,要给用户提供一个页面,页面包括静态页面+数据,两者结合起来就是完整的可视化的页面,django的模板系统支持这种功能,首先需要写一个静态页面,然后通过python的模板语法将数据渲染上去。1.创建一个templates目录2.配置。_django templates

linux下的GPU测试软件,Ubuntu等Linux系统显卡性能测试软件 Unigine 3D-程序员宅基地

文章浏览阅读1.7k次。Ubuntu等Linux系统显卡性能测试软件 Unigine 3DUbuntu Intel显卡驱动安装,请参考:ATI和NVIDIA显卡请在软件和更新中的附加驱动中安装。 这里推荐: 运行后,F9就可评分,已测试显卡有K2000 2GB 900+分,GT330m 1GB 340+ 分,GT620 1GB 340+ 分,四代i5核显340+ 分,还有写博客的小盒子100+ 分。relaybot@re...

推荐文章

热门文章

相关标签