PCMag编辑选择和审查产品独立.如果您通过附属链接购买,我们可能获得佣金,这有助于支持我们的测试。

什么是计算机视觉?

计算机视觉是计算机科学和人工智能研究中最热门的领域之一,但它还不能与人眼的能力竞争。这是为什么。

当你看下面的图片时,你看到了人、物体和建筑物。它会勾起你对过去经历的回忆,你遇到过的类似情况。人群面向同一个方向,举着手机,这说明这是某种活动。站在摄像机附近的人穿着一件t恤,暗示着事件可能是什么。当你观察其他小细节时,你可以从图片中推断出更多的信息。

图片由Joshua J. Cotten在Unsplash上拍摄
图片由Joshua J. Cotten在Unsplash上拍摄

但是对于计算机来说,这个图像和所有图像一样,是一个像素数组,代表红色、绿色和蓝色阴影的数值。自20世纪50年代以来,计算机科学家一直在努力应对的挑战之一就是创造出能够像人类一样解读照片和视频的机器。领域的计算机视觉已经成为计算机科学和人工智能

几十年后,我们在创建能够理解和描述可视化数据内容的软件方面取得了巨大进展。但我们也发现,在理解和复制人脑的一项基本功能之前,我们还有很长的路要走。

计算机视觉简史“,

1966年,两位人工智能的先驱西摩·帕普特和马文·明斯基推出了夏天视觉项目(在一个新窗口中打开)该项目历时两个月,由10人共同开发了一个能够识别图像中的物体的计算机系统。

为了完成这项任务,计算机程序必须能够确定哪些像素属于哪个物体。这是一个由人类对世界的广泛了解和数十亿年的进化所驱动的视觉系统很容易解决的问题。但对于只有数字构成的计算机来说,这是一项具有挑战性的任务。

在这个项目的时候,人工智能的主要分支是象征性的人工智能(在一个新窗口中打开),也被称为基于规则的AI:程序员手动指定检测图像中的对象的规则。但问题是,图像中的物体可以从不同的角度和不同的光线出现。物体可能出现在一系列不同的背景下,或者被其他物体部分遮挡。每种场景都会生成不同的像素值,实际上不可能为每种场景都创建手动规则。

当然,“夏季愿景计划”并没有走得太远,成果也有限。几年后的1979年,日本科学家福岛国彦提出neocognitron(在一个新窗口中打开)这是一种基于对人类视觉皮层进行的神经科学研究的计算机视觉系统。尽管福岛的新认知电子未能完成任何复杂的视觉任务,但它为计算机视觉历史上最重要的发展之一奠定了基础。

深度学习革命

20世纪80年代,法国计算机科学家颜乐存介绍了卷积神经网络(CNN)(在一个新窗口中打开)这是一个受福岛新cognitron启发的人工智能系统。CNN由多层人工神经元组成,这些数学成分大致模仿了生物神经元的工作方式。

当卷积神经网络处理图像时,它的每一层都从像素中提取特定的特征。第一层检测非常基本的东西,如垂直和水平边缘。当你深入神经网络时,这些层会检测到更复杂的特征,包括角和形状。CNN的最后几层检测特定的事物,如脸、门和汽车。CNN的输出层提供一个数值表,表示在图像中发现特定对象的概率。

上层神经网络检测一般特征;深层检测实际对象(来源:arxiv.org)
上层神经网络检测一般特征;深层检测实际对象(来源:arxiv.org)

LeCun的卷积神经网络非常出色,显示出了很大的前景,但它们被一个严重的问题所阻碍:调整和使用它们需要大量的数据和计算资源,而这在当时是不可用的。cnn最终在一些有限的领域找到了商业用途,如银行和邮政服务,它们被用于处理信封和支票上的手写数字和字母。但在物体检测领域,他们却被其他公司所取代机器学习技术,如支持向量机(在一个新窗口中打开)而且随机森林(在一个新窗口中打开)

2012年,来自多伦多的人工智能研究人员开发了AlexNet,这是一种卷积神经网络,主导了流行ImageNet(在一个新窗口中打开)图片识别竞争。AlexNet的胜利表明,考虑到数据和计算资源日益增加的可用性,也许是时候重新审视cnn了。这一事件重新激起了人们对cnn的兴趣,并引发了一场革命深度学习>,机器学习的一个分支,涉及到多层人工神经网络的使用。

从那时起,由于卷积神经网络和深度学习的进步,计算机视觉得到了突飞猛进的发展。

计算机视觉的应用

您每天使用的许多应用程序都使用了计算机视觉技术。谷歌使用它来帮助您在图像库中搜索对象和场景(例如“狗”或“日落”)。

其他公司使用计算机视觉来帮助增强图像。Adobe Lightroom CC就是一个例子,它使用机器学习算法来增强放大图像的细节。传统的缩放使用插值技术为放大的区域着色,但Lightroom使用计算机视觉来检测图像中的对象,并在放大时锐化它们的特征。

由于计算机视觉的进步,有一个领域取得了显著的进步面部识别.苹果公司使用面部识别算法解锁iphone.Facebook使用面部识别技术来检测你在网上发布的图片中的用户并不是所有人都喜欢).在中国,许多零售商现在都提供这种服务人脸识别支付技术(在一个新窗口中打开)这样一来,顾客就不必再掏腰包了。

面部识别技术的进步也造成了隐私和权利倡导者对此感到担忧不过,由于不同国家的政府机构都在使用它进行监控,这一点尤其令人担忧。

内容审核是计算机视觉的另一个重要应用。像Facebook这样的公司每天必须审查数十亿个帖子,并删除包含暴力、极端主义或色情内容的图片和视频。大多数社交媒体网络使用深度学习算法来分析帖子,并标记出包含禁止内容的帖子。

在更专业的领域,计算机视觉正迅速成为医学中不可或缺的工具。深度学习算法在分析医学图像时显示出令人印象深刻的准确性。医院和大学正在使用计算机视觉预测各种类型的癌症通过检查x光和核磁共振扫描。

自动驾驶汽车还严重依赖计算机视觉来感知周围环境。深度学习算法分析安装在车辆上的摄像头提供的视频,并检测人、汽车、道路和其他物体,以帮助汽车在环境中导航。

计算机视觉的极限

当前的计算机视觉系统在经过足够多的例子训练后,在图像分类和照片对象定位方面做得不错。但在其核心,为计算机视觉应用提供动力的深度学习算法是匹配像素模式。他们完全不了解图片里的内容。

理解视觉数据中人与物之间的关系需要常识和背景知识。这就是为什么社交媒体网络使用的计算机视觉算法可以检测到裸体内容,但往往难以区分安全的裸体(母乳喂养或文艺复兴时期的艺术)和色情等被禁止的内容。同样,这些算法也很难区分极端主义宣传和关于极端主义组织的纪录片。

当人类面对从未见过的情况时,他们可以利用自己对世界的广泛知识来填补空白。与人类不同,计算机视觉算法需要在它们必须检测的对象类型上得到彻底的指导。一旦它们的环境中包含了与训练例子不符的东西,它们就会开始以不合理的方式行动,比如未能进行检测应急车辆停在奇怪的地方(在一个新窗口中打开)

目前,解决这些问题的唯一解决方案是在越来越多的例子上训练AI算法,希望额外的数据能够覆盖AI将面临的每一种情况。但经验表明,如果没有态势感知,总会出现一些极端情况——让人工智能算法感到困惑的罕见情况。

许多专家认为,我们只有在创造的时候才能实现真正的计算机视觉人工总体智能人工智能可以像人类一样解决问题。正如计算机科学家和人工智能研究员梅勒妮·米切尔在她的书中所说人工智能:思考的人类指南:“视觉智能似乎很难与其他智能区分开来,特别是一般知识、抽象概念和语言……此外,类人视觉智能所需的知识……可能无法从网上下载的数百万张图片中学习,而必须在现实世界中以某种方式体验。”

个人电脑的标志这个人工智能驱动的机器人可以在一小时内制作300个披萨
What's New Now<\/strong> to get our top stories delivered to your inbox every morning.","first_published_at":"2021-09-30T21:30:40.000000Z","published_at":"2022-08-31T18:35:24.000000Z","last_published_at":"2022-08-31T18:35:20.000000Z","created_at":null,"updated_at":"2022-08-31T18:35:24.000000Z"})" x-show="showEmailSignUp()" class="rounded bg-gray-lightest text-center md:px-32 md:py-8 p-4 mt-8 container-xs">

获取我们最好的故事!

报名参加现在的新让我们的头条新闻每天早上送到您的收件箱。

本通讯可能包含广告、交易或附属链接。订阅通讯表明您同意我们的使用条款而且隐私政策.您可以随时取消订阅通讯。beplay体育苹果下载


感谢您的报名!

您的订阅已被确认。留意你的收件箱!

注册其他通讯beplay体育苹果下载

你会喜欢的PCMag故事

关于本迪克森

本迪克森

本·迪克森是一名软件工程师和科技博主。他的文章涉及颠覆性技术趋势,包括人工智能、虚拟和增强现实、区块链、物联网和网络安全。本还经营着博客TechTalks。在Twitter和Facebook上关注他。

阅读本的完整简历

阅读本·迪克森的最新报道

Baidu
map