任何有大量数据的旧的分类问题都将通过深度学习来解决。 深度学习将会有成千上万的应用。杰弗里•辛顿,加拿大认知心理学家和计算机科学家
深度学习的缘起
无论是微信的语音识别,还是支付宝的人脸支付,都离不开背后的深度学习技术。
十年前的人工智能领域,专家们比较热衷于研究能够不基于特定数据而放之四海皆准的算法。而部分学者经过深入思考,提出了独特的见解,认为机器需要像小孩的智力成长一样通过接触大量的信息,进而形成一定的智能去理解这个世界。他们开始考虑构建一个具有大量图片的数据集,给机器进行学习,就好像大人带着小孩认识这个世界一样。但他们面临着一个重大挑战:找到高质量的数据集。 起初,研究人员考虑用人工方式建立数据集,比如安排研究生从互联网上下载图片。 但是这个过程太慢,太乏味了。直到一名学生提议通过众包在线服务来解决问题,它将允许快速和准确地标记数据,非常可能加速和扩大这一数据集建立过程。 在采纳了这一建议后,结果很好。 经过数年努力,研究人员创建了ImageNet,早期其拥有超过5200个类别的320万张照片。
研究人员创建的ImageNet ImageNet的诞生对深度学习的浪潮起了巨大的推动作用,正是因为通过ImageNet识别大赛,才诞生了AlexNet, VggNet, GoogleNet, ResNet等深度学习算法。这些深度学习算法能够达到或超过人类的识别能力,从而构成了语音识别、人脸识别等应用的重要技术基础。 到目前为止,深度学习的错误率仅为2%左右,比人类更好。
在后续的文章中,我们将讨论深度学习,这显然是人工智能领域最热门的领域。 它在自动驾驶汽车和虚拟助手领域取得了重大进展。当然,深度学习可能是一门复杂的学科,而且这个领域在不断变化。 但是我们将看一看主要的概念和趋势——而不是进入技术细节。
深度学习和机器学习的区别
深度学习和机器学习之间经常存在混淆。 这是合理的。 这两个话题都相当复杂,而且它们确实有许多相似之处。为了理解它们之间的区别,让我们先来看看机器学习的特征,以及它与深度学习的关系。
首先,虽然两者通常都需要大量数据,但类型通常是不同的。
举个例子:假设我们有数千只动物的照片,想要创建一个算法来找到这些马。 机器学习本身不能直接分析照片,数据必须被标记。 然后,机器学习算法将通过一个被称为监督学习的过程来识别马。即便机器学习可能会产生好的结果,它仍然有局限性。通过分辨图像的像素本身并找出其中的模式不是更好吗? 但要用机器学习做到这一点,你需要使用一个称为特征提取的过程。 这意味着你必须提出马的各种特征,比如形状、蹄子、颜色和高度——然后算法将试图识别这些特征。
同样,这是一种很好的方法,但还远远不够完美。 如果你提出的特征偏离了目标,或者没有考虑到异常值或异常,那该怎么办? 在这种情况下,模型的准确性可能会受到影响。 毕竟,马有很多变种。 特征提取也有忽略大量数据的缺点。 对于某些用例,这可能非常复杂(如果不是不可能的话)。 看看计算机病毒。 它们的结构和模式被称为“特征”,不断变化以便渗透到系统中。 但是有了特征提取,人们就不得不预料到这一点,这是不实际的。 这就是为什么网络安全软件经常在病毒造成损害后才开始收集签名。
人工智能、机器学习、深度学习的演进 但通过深度学习,我们可以解决这些问题。 这种方法逐个像素地分析所有数据,然后使用一个模仿人类大脑的神经网络来找到它们之间的关系。
感谢您的阅读,我每周都会发布几次关于机器学习、人工智能、编程和所有与计算机科学相关的内容。
想了解更多精彩内容,快来关注科技创造财富
往期内容:
机器学习之无监督算法:K-Means聚类
机器学习之监督学习算法:回归篇
机器学习之监督学习算法:分类篇
机器学习算法的四大金刚