深度神经网络是谁发明的,深度神经网络谁提出的

神经网络的历史是什么？

沃伦·麦卡洛克和沃尔特·皮茨（1943）基于数学和一种称为阈值逻辑的算法创造了一种神经网络的计算模型。这种模型使得神经网络的研究分裂为两种不同研究思路。

一种主要关注大脑中的生物学过程，另一种主要关注神经网络在人工智能里的应用。一、赫布型学习二十世纪40年代后期，心理学家唐纳德·赫布根据神经可塑性的机制创造了一种对学习的假说，现在称作赫布型学习。

赫布型学习被认为是一种典型的非监督式学习规则，它后来的变种是长期增强作用的早期模型。从1948年开始，研究人员将这种计算模型的思想应用到B型图灵机上。

法利和韦斯利·A·克拉克（1954）首次使用计算机，当时称作计算器，在MIT模拟了一个赫布网络。纳撒尼尔·罗切斯特（1956）等人模拟了一台IBM704计算机上的抽象神经网络的行为。

弗兰克·罗森布拉特创造了感知机。这是一种模式识别算法，用简单的加减法实现了两层的计算机学习网络。罗森布拉特也用数学符号描述了基本感知机里没有的回路，例如异或回路。

这种回路一直无法被神经网络处理，直到保罗·韦伯斯(1975)创造了反向传播算法。在马文·明斯基和西摩尔·派普特（1969）发表了一项关于机器学习的研究以后，神经网络的研究停滞不前。

他们发现了神经网络的两个关键问题。第一是基本感知机无法处理异或回路。第二个重要的问题是电脑没有足够的能力来处理大型神经网络所需要的很长的计算时间。

直到计算机具有更强的计算能力之前，神经网络的研究进展缓慢。二、反向传播算法与复兴后来出现的一个关键的进展是保罗·韦伯斯发明的反向传播算法（Werbos1975）。

这个算法有效地解决了异或的问题，还有更普遍的训练多层神经网络的问题。在二十世纪80年代中期，分布式并行处理（当时称作联结主义）流行起来。

戴维·鲁姆哈特和詹姆斯·麦克里兰德的教材对于联结主义在计算机模拟神经活动中的应用提供了全面的论述。神经网络传统上被认为是大脑中的神经活动的简化模型，虽然这个模型和大脑的生理结构之间的关联存在争议。

人们不清楚人工神经网络能多大程度地反映大脑的功能。

支持向量机和其他更简单的方法（例如线性分类器）在机器学习领域的流行度逐渐超过了神经网络，但是在2000年代后期出现的深度学习重新激发了人们对神经网络的兴趣。

三、2006年之后的进展人们用CMOS创造了用于生物物理模拟和神经形态计算的计算设备。最新的研究显示了用于大型主成分分析和卷积神经网络的纳米设备具有良好的前景。

如果成功的话，这会创造出一种新的神经计算设备，因为它依赖于学习而不是编程，并且它从根本上就是模拟的而不是数字化的，虽然它的第一个实例可能是数字化的CMOS设备。

在2009到2012年之间，JürgenSchmidhuber在SwissAILabIDSIA的研究小组研发的循环神经网络和深前馈神经网络赢得了8项关于模式识别和机器学习的国际比赛。

例如，AlexGravesetal.的双向、多维的LSTM赢得了2009年ICDAR的3项关于连笔字识别的比赛，而且之前并不知道关于将要学习的3种语言的信息。

IDSIA的DanCiresan和同事根据这个方法编写的基于GPU的实现赢得了多项模式识别的比赛，包括IJCNN2011交通标志识别比赛等等。

他们的神经网络也是第一个在重要的基准测试中（例如IJCNN2012交通标志识别和NYU的扬·勒丘恩（YannLeCun）的MNIST手写数字问题）能达到或超过人类水平的人工模式识别器。

类似1980年KunihikoFukushima发明的neocognitron和视觉标准结构（由DavidH.Hubel和TorstenWiesel在初级视皮层中发现的那些简单而又复杂的细胞启发）那样有深度的、高度非线性的神经结构可以被多伦多大学杰弗里·辛顿实验室的非监督式学习方法所训练。

2012年，神经网络出现了快速的发展，主要原因在于计算技术的提高，使得很多复杂的运算变得成本低廉。以AlexNet为标志，大量的深度网络开始出现。

2014年出现了残差神经网络，该网络极大解放了神经网络的深度限制，出现了深度学习的概念。

构成典型的人工神经网络具有以下三个部分：1、结构（Architecture）结构指定了网络中的变量和它们的拓扑关系。

例如，神经网络中的变量可以是神经元连接的权重（weights）和神经元的激励值（activitiesoftheneurons）。

2、激励函数（ActivationRule）大部分神经网络模型具有一个短时间尺度的动力学规则，来定义神经元如何根据其他神经元的活动来改变自己的激励值。

一般激励函数依赖于网络中的权重（即该网络的参数）。3、学习规则（LearningRule）学习规则指定了网络中的权重如何随着时间推进而调整。这一般被看做是一种长时间尺度的动力学规则。

一般情况下，学习规则依赖于神经元的激励值。它也可能依赖于监督者提供的目标值和当前权重的值。例如，用于手写识别的一个神经网络，有一组输入神经元。输入神经元会被输入图像的数据所激发。

在激励值被加权并通过一个函数（由网络的设计者确定）后，这些神经元的激励值被传递到其他神经元。这个过程不断重复，直到输出神经元被激发。最后，输出神经元的激励值决定了识别出来的是哪个字母。

谷歌人工智能写作项目：神经网络伪原创

什么是深度学习

随着阿尔法狗、无人驾驶、智能翻译的横空出世，“人工智能”这个已经存在60多年的词语，仿佛一夜之间重新成为热词好文案。

同时被科技圈和企业界广泛提及的还有“机器学习”“深度学习”“神经网络”……但事实是，如此喧嚣热烈的气氛之下，大部分人对这一领域仍是一知半解。

如果要说谁有资格谈论目前正在进行的“人工智能革命”，特伦斯·谢诺夫斯基（TerrySejnowski）必然是其中一个。

在智能翻译、无人驾驶、阿尔法狗、微软小冰还被认为是远在天边的愿景时，谢诺夫斯基就已经在为深度学习领域奠定基础了。

ProfessorTerrySejnowski.Image:SalkInstitute谢诺夫斯基是20世纪80年代挑战构建人工智能主流方法的一小撮研究人员之一。

他们认为，受大脑生物学启发的、那些被称为“神经网络”“连接主义”和“并行分布处理”的AI实现方法，会最终解决困扰基于逻辑的AI研究的难题，从而提出了使用可以从数据中学习技能的数学模型。

正是这一小群研究人员，证明了基于大脑式的计算的全新方法是可行的，从而为“深度学习”的发展奠定了基础。

借由《深度学习：智能时代的核心驱动力量》一书出版机会，美国科技媒体《TheVerge》采访了特伦斯·谢诺夫斯基，与他讨论了“人工智能”“神经网络”“深度学习”“机器学习”究竟有何区别？

为何“深度学习”突然变得无处不在，它能做什么？不能做什么？以下是采访全文：《深度学习：智能时代的核心驱动力量》中信出版集团2019.2Q：首先，我想问一下定义。

人们几乎可以互换地使用“人工智能”，“神经网络”，“深度学习”和“机器学习”等词语。但这些是不同的东西。你能解释一下吗？

人工智能可以追溯到1956年的美国，那时工程师们决定编写一个试图仿效智能的计算机程序。在人工智能中，一个新领域成长起来，称为机器学习。

不是编写一个按部就班的程序来做某事——这是人工智能中的传统方法——而是你收集了大量关于你试图理解的事物的数据。例如，设想您正在尝试识别对象，因此您可以收集大量它们的图像。

然后，通过机器学习，这是一个可以剖析各种特征的自动化过程，就可以确定一个物体是汽车，而另一个是订书机。机器学习是一个非常大的领域，其历史可以追溯到更久远的时期。最初，人们称之为“模式识别”。

后来算法在数学上变得更加广泛和复杂。在机器学习中有受大脑启发的神经网络，然后是深度学习。深度学习算法具有特定的体系结构，其中有许多层数据流经的网络。

基本上，深度学习是机器学习的一部分，机器学习是人工智能的一部分。Q:有什么“深度学习”能做而其他程序不能做的吗？编写程序非常耗费人力。

在过去，计算机是如此之慢，内存非常昂贵，以至于人们采用逻辑，也就是计算机的工作原理，来编写程序。他们通过基础机器语言来操纵信息。计算机太慢了，计算太贵了。但现在，计算力越来越便宜，劳动力也越来越昂贵。

而且计算力变得如此便宜，以至于慢慢地，让计算机学习会比让人类编写程序更有效。在那时，深度学习会开始解决以前没有人编写过程序的问题，比如在计算机视觉和翻译等领域。

机器学习是计算密集型的，但你只需编写一个程序，通过给它不同的数据集，你可以解决不同的问题。并且你不需要是领域专家。因此，对于存在大量数据的任何事物，都有对应的大量应用程序。

Q：“深度学习”现在似乎无处不在。它是如何变得如此主导潮流？我可以在历史上精确地找到这一特定时刻：2012年12月在NIPS会议（这是最大的AI会议）上。

在那里，计算机科学家GeoffHinton和他的两个研究生表明你可以使用一个名为ImageNet的非常大的数据集，包含10,000个类别和1000万个图像，并使用深度学习将分类错误减少20％。

通常，在该数据集上，错误在一年内减少不到1％。在一年内，20年的研究被跨越了。这真的打开了潮水的闸门。Q：深度学习的灵感来自大脑。那么计算机科学和神经科学这些领域如何协同工作呢？

深度学习的灵感来自神经科学。最成功的深度学习网络是由YannLeCun开发的卷积神经网络（CNN）。如果你看一下CNN的架构，它不仅仅是很多单元，它们以一种基本上镜像大脑的方式连接起来。

大脑中被研究的最好的一部分在视觉系统，在对视觉皮层的基础研究工作中，表明那里存在简单和复杂细胞。如果你看一下CNN架构，会发现有简单细胞和复杂细胞的等价物，这直接来自我们对视觉系统的理解。

Yann没有盲目地试图复制皮质。他尝试了许多不同的变种，但他最终收敛到的方式和那些自然收敛到的方式相同。这是一个重要的观察。自然与人工智能的趋同可以教给我们很多东西，而且还有更多的东西要去探索。

Q：我们对计算机科学的理解有多少取决于我们对大脑的理解程度？我们现在的大部分AI都是基于我们对大脑在60年代的了解。我们现在知道的更多，并且更多的知识被融入到架构中。

AlphaGo，这个击败围棋冠军的程序不仅包括皮质模型，还包括大脑的一部分被称为“基底神经节”的模型，这对于制定一系列决策来实现目标非常重要。

有一种称为时间差分的算法，由RichardSutton在80年代开发，当与深度学习相结合时，能够进行人类以前从未见过的非常复杂的玩法。

当我们了解大脑的结构，并且当我们开始了解如何将它们集成到人工系统中时，它将提供越来越多的功能，超越我们现在所拥有的。Q：人工智能也会影响神经科学吗？它们是并行的工作。

创新神经技术已经取得了巨大的进步，从一次记录一个神经元到同时记录数千个神经元，并且同时涉及大脑的许多部分，这完全开辟了一个全新的世界。我说人工智能与人类智能之间存在着一种趋同。

随着我们越来越多地了解大脑如何工作，这些认识将反映到AI中。但与此同时，他们实际上创造了一整套学习理论，可用于理解大脑，让我们分析成千上万的神经元以及他们的活动是如何产生的。

所以神经科学和人工智能之间存在这种反馈循环，我认为这更令人兴奋和重要。Q：你的书讨论了许多不同的深度学习应用，从自动驾驶汽车到金融交易。你觉得哪个特定领域最有趣？

我完全被震撼到的一个应用是生成对抗网络，或称GANS。使用传统的神经网络，你给出一个输入，你得到一个输出。GAN能够在没有输入的情况下开展活动-产生输出。

是的，我在这些网络创建假视频的故事背景下听说过这个。他们真的会产生看似真实的新事物，对吧？从某种意义上说，它们会产生内部活动。事实证明这是大脑运作的方式。

你可以看某处并看到一些东西，然后你可以闭上眼睛，你可以开始想象出那里没有的东西。你有一个视觉想象，当周围安静时，你闹钟声会浮现想法。那是因为你的大脑是生成性的。

现在，这种新型网络可以生成从未存在过的新模式。所以你可以给它，例如，数百张汽车图像，它会创建一个内部结构，可以生成从未存在的汽车的新图像，并且它们看起来完全像汽车。

Q：另一方面，您认为哪些想法可能是过度炒作？没有人可以预测或想象这种新技术的引入会对未来的事物组织方式产生什么影响。当然这其中有炒作。我们还没有解决真正困难的问题。

我们还没有通用智能，就有人说机器人将不久后会取代我们，其实机器人远远落后于人工智能，因为复制身体被发现比复制大脑更复杂。让我们看一下这一种技术进步：激光。它是在大约50年前发明的，当时占据了整个房间。

从占据整个房间到我现在演讲时使用的激光笔需要50年的技术商业化。它必须被推进到体积足够小并可以用五美元购买它的程度。同样的事情将发生在像自动驾驶汽车这样的被炒作的技术上。

它并不被期望在明年或者未来10年，就变得无处不在。这过程可能需要花费50年，但重点是，在此过程中会有逐步推进，使它越来越灵活，更安全，更兼容我们组织运输网络的方式。炒作的错误在于人们的时标设定错了。

他们期待太多事情太快发生，其实事物只在适当的时候。关于深度学习的问题可以看下这个网页的视频讲解：AI深度学习—中科院公开课。

人工神经网络是哪一年由谁提出来的

人工神经网络是1943年，心理学家W.S.McCulloch和数理逻辑学家W.Pitts提出来。

他们通过MP模型提出了神经元的形式化数学描述和网络结构方法，证明了单个神经元能执行逻辑功能，从而开创了人工神经网络研究的时代。1949年，心理学家提出了突触联系强度可变的设想。

60年代，人工神经网络得到了进一步发展，更完善的神经网络模型被提出，其中包括感知器和自适应线性元件等。

M.Minsky等仔细分析了以感知器为代表的神经网络系统的功能及局限后，于1969年出版了《Perceptron》一书，指出感知器不能解决高阶谓词问题。

扩展资料人工神经网络的特点和优越性，主要表现在三个方面：第一，具有自学习功能。

例如实现图像识别时，只在先把许多不同的图像样板和对应的应识别的结果输入人工神经网络，网络就会通过自学习功能，慢慢学会识别类似的图像。自学习功能对于预测有特别重要的意义。

预期未来的人工神经网络计算机将为人类提供经济预测、市场预测、效益预测，其应用前途是很远大的。第二，具有联想存储功能。用人工神经网络的反馈网络就可以实现这种联想。第三，具有高速寻找优化解的能力。

寻找一个复杂问题的优化解，往往需要很大的计算量，利用一个针对某问题而设计的反馈型人工神经网络，发挥计算机的高速运算能力，可能很快找到优化解。

神经网络、深度学习、机器学习是什么?有什么区别和联系?

深度学习是由深层神经网络+机器学习造出来的词。深度最早出现在deepbeliefnetwork（深度（层）置信网络）。其出现使得沉寂多年的神经网络又焕发了青春。

GPU使得深层网络随机初始化训练成为可能。resnet的出现打破了层次限制的魔咒，使得训练更深层次的神经网络成为可能。深度学习是神经网络的唯一发展和延续。

在现在的语言环境下，深度学习泛指神经网络，神经网络泛指深度学习。在当前的语境下没有区别。定义生物神经网络主要是指人脑的神经网络，它是人工神经网络的技术原型。

人脑是人类思维的物质基础，思维的功能定位在大脑皮层，后者含有大约10^11个神经元，每个神经元又通过神经突触与大约103个其它神经元相连，形成一个高度复杂高度灵活的动态网络。

作为一门学科，生物神经网络主要研究人脑神经网络的结构、功能及其工作机制，意在探索人脑思维和智能活动的规律。

人工神经网络是生物神经网络在某种简化意义下的技术复现，作为一门学科，它的主要任务是根据生物神经网络的原理和实际应用的需要建造实用的人工神经网络模型，设计相应的学习算法，模拟人脑的某种智能活动，然后在技术上实现出来用以解决实际问题。

因此，生物神经网络主要研究智能的机理；人工神经网络主要研究智能机理的实现，两者相辅相成。

深度学习与神经网络有什么区别

深度学习与神经网络关系2017-01-10最近开始学习深度学习，基本上都是zouxy09博主的文章，写的蛮好，很全面，也会根据自己的思路，做下删减，细化。

五、DeepLearning的基本思想假设我们有一个系统S，它有n层（S1,…Sn），它的输入是I，输出是O，形象地表示为：I=>S1=>S2=>…..=>Sn=>O，如果输出O等于输入I，即输入I经过这个系统变化之后没有任何的信息损失（呵呵，大牛说，这是不可能的。

信息论中有个“信息逐层丢失”的说法（信息处理不等式），设处理a信息得到b，再对b处理得到c，那么可以证明：a和c的互信息不会超过a和b的互信息。这表明信息处理不会增加信息，大部分处理会丢失信息。

当然了，如果丢掉的是没用的信息那多好啊），保持了不变，这意味着输入I经过每一层Si都没有任何的信息损失，即在任何一层Si，它都是原有信息（即输入I）的另外一种表示。

现在回到我们的主题DeepLearning，我们需要自动地学习特征，假设我们有一堆输入I（如一堆图像或者文本），假设我们设计了一个系统S（有n层），我们通过调整系统中参数，使得它的输出仍然是输入I，那么我们就可以自动地获取得到输入I的一系列层次特征，即S1，…,Sn。

对于深度学习来说，其思想就是对堆叠多个层，也就是说这一层的输出作为下一层的输入。通过这种方式，就可以实现对输入信息进行分级表达了。

另外，前面是假设输出严格地等于输入，这个限制太严格，我们可以略微地放松这个限制，例如我们只要使得输入与输出的差别尽可能地小即可，这个放松会导致另外一类不同的DeepLearning方法。

上述就是DeepLearning的基本思想。六、浅层学习（ShallowLearning）和深度学习（DeepLearning）浅层学习是机器学习的第一次浪潮。

20世纪80年代末期，用于人工神经网络的反向传播算法（也叫BackPropagation算法或者BP算法）的发明，给机器学习带来了希望，掀起了基于统计模型的机器学习热潮。这个热潮一直持续到今天。

人们发现，利用BP算法可以让一个人工神经网络模型从大量训练样本中学习统计规律，从而对未知事件做预测。这种基于统计的机器学习方法比起过去基于人工规则的系统，在很多方面显出优越性。

这个时候的人工神经网络，虽也被称作多层感知机（Multi-layerPerceptron），但实际是种只含有一层隐层节点的浅层模型。

20世纪90年代，各种各样的浅层机器学习模型相继被提出，例如支撑向量机（SVM，SupportVectorMachines）、Boosting、最大熵方法（如LR，LogisticRegression）等。

这些模型的结构基本上可以看成带有一层隐层节点（如SVM、Boosting），或没有隐层节点（如LR）。这些模型无论是在理论分析还是应用中都获得了巨大的成功。

相比之下，由于理论分析的难度大，训练方法又需要很多经验和技巧，这个时期浅层人工神经网络反而相对沉寂。深度学习是机器学习的第二次浪潮。

2006年，加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton和他的学生RuslanSalakhutdinov在《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。

这篇文章有两个主要观点：1）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；2）深度神经网络在训练上的难度，可以通过“逐层初始化”（layer-wisepre-training）来有效克服，在这篇文章中，逐层初始化是通过无监督学习实现的。

当前多数分类、回归等学习方法为浅层结构算法，其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力受到一定制约。

深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从少数样本集中学习数据集本质特征的能力。

（多层的好处是可以用较少的参数表示复杂的函数）深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。

因此，“深度模型”是手段，“特征学习”是目的。

区别于传统的浅层学习，深度学习的不同在于：1）强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；2）明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。

与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。

七、Deeplearning与NeuralNetwork深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

深度学习是无监督学习的一种。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

Deeplearning本身算是machinelearning的一个分支，简单可以理解为neuralnetwork的发展。

大约二三十年前，neuralnetwork曾经是ML领域特别火热的一个方向，但是后来确慢慢淡出了，原因包括以下几个方面：1）比较容易过拟合，参数比较难tune，而且需要不少trick；2）训练速度比较慢，在层次比较少（小于等于3）的情况下效果并不比其它方法更优；所以中间有大约20多年的时间，神经网络被关注很少，这段时间基本上是SVM和boosting算法的天下。

但是，一个痴心的老先生Hinton，他坚持了下来，并最终（和其它人一起Bengio、Yann.lecun等）提成了一个实际可行的deeplearning框架。

Deeplearning与传统的神经网络之间有相同的地方也有很多不同。

二者的相同在于deeplearning采用了神经网络相似的分层结构，系统由包括输入层、隐层（多层）、输出层组成的多层网络，只有相邻层节点之间有连接，同一层以及跨层节点之间相互无连接，每一层可以看作是一个logisticregression模型；这种分层结构，是比较接近人类大脑的结构的。

而为了克服神经网络训练中的问题，DL采用了与神经网络很不同的训练机制。

传统神经网络（这里作者主要指前向神经网络）中，采用的是backpropagation的方式进行，简单来讲就是采用迭代的算法来训练整个网络，随机设定初值，计算当前网络的输出，然后根据当前输出和label之间的差去改变前面各层的参数，直到收敛（整体是一个梯度下降法）。

而deeplearning整体上是一个layer-wise的训练机制。

这样做的原因是因为，如果采用backpropagation的机制，对于一个deepnetwork（7层以上），残差传播到最前面的层已经变得太小，出现所谓的gradientdiffusion（梯度扩散）。

这个问题我们接下来讨论。

八、Deeplearning训练过程8.1、传统神经网络的训练方法为什么不能用在深度神经网络BP算法作为传统训练多层网络的典型算法，实际上对仅含几层网络，该训练方法就已经很不理想。

深度结构（涉及多个非线性处理单元层）非凸目标代价函数中普遍存在的局部最小是训练困难的主要来源。

BP算法存在的问题：（1）梯度越来越稀疏：从顶层越往下，误差校正信号越来越小；（2）收敛到局部最小值：尤其是从远离最优区域开始的时候（随机值初始化会导致这种情况的发生）；（3）一般，我们只能用有标签的数据来训练：但大部分的数据是没标签的，而大脑可以从没有标签的的数据中学习；8.2、deeplearning训练过程如果对所有层同时训练，时间复杂度会太高；如果每次训练一层，偏差就会逐层传递。

这会面临跟上面监督学习中相反的问题，会严重欠拟合（因为深度网络的神经元和参数太多了）。

2006年，hinton提出了在非监督数据上建立多层神经网络的一个有效方法，简单的说，分为两步，一是每次训练一层网络，二是调优，使原始表示x向上生成的高级表示r和该高级表示r向下生成的x’尽可能一致。

方法是：1）首先逐层构建单层神经元，这样每次都是训练一个单层网络。2）当所有层训练完后，Hinton使用wake-sleep算法进行调优。

将除最顶层的其它层间的权重变为双向的，这样最顶层仍然是一个单层神经网络，而其它层则变为了图模型。向上的权重用于“认知”，向下的权重用于“生成”。然后使用Wake-Sleep算法调整所有的权重。

让认知和生成达成一致，也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。

比如顶层的一个结点表示人脸，那么所有人脸的图像应该激活这个结点，并且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。Wake-Sleep算法分为醒（wake）和睡（sleep）两个部分。

1）wake阶段：认知过程，通过外界的特征和向上的权重（认知权重）产生每一层的抽象表示（结点状态），并且使用梯度下降修改层间的下行权重（生成权重）。

也就是“如果现实跟我想象的不一样，改变我的权重使得我想象的东西就是这样的”。2）sleep阶段：生成过程，通过顶层表示（醒时学得的概念）和向下权重，生成底层的状态，同时修改层间向上的权重。

也就是“如果梦中的景象不是我脑中的相应概念，改变我的认知权重使得这种景象在我看来就是这个概念”。

deeplearning训练过程具体如下：1）使用自下上升非监督学习（就是从底层开始，一层一层的往顶层训练）：采用无标定数据（有标定数据也可）分层训练各层参数，这一步可以看作是一个无监督训练过程，是和传统神经网络区别最大的部分（这个过程可以看作是featurelearning过程）：具体的，先用无标定数据训练第一层，训练时先学习第一层的参数（这一层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层），由于模型capacity的限制以及稀疏性约束，使得得到的模型能够学习到数据本身的结构，从而得到比输入更具有表示能力的特征；在学习得到第n-1层后，将n-1层的输出作为第n层的输入，训练第n层，由此分别得到各层的参数；2）自顶向下的监督学习（就是通过带标签的数据去训练，误差自顶向下传输，对网络进行微调）：基于第一步得到的各层参数进一步fine-tune整个多层模型的参数，这一步是一个有监督训练过程；第一步类似神经网络的随机初始化初值过程，由于DL的第一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果；所以deeplearning效果好很大程度上归功于第一步的featurelearning过程。

“深度学习”和“多层神经网络”的区别

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

多层神经网络是指单计算层感知器只能解决线性可分问题，而大量的分类问题是线性不可分的。克服单计算层感知器这一局限性的有效办法是，在输入层与输出层之间引入… 深度学习的概念源于人工神经网络的研究。

含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

多层神经网络是指单计算层感知器只能解决线性可分问题，而大量的分类问题是线性不可分的。

克服单计算层感知器这一局限性的有效办法是，在输入层与输出层之间引入隐层（隐层个数可以大于或等于1）作为输入模式“的内部表示”　，单计算层感知器变成多（计算）层感知器。

人工智能，机器学习与深度学习，到底是什么关系

有人说，人工智能（AI）是未来，人工智能是科幻，人工智能也是我们日常生活中的一部分。这些评价可以说都是正确的，就看你指的是哪一种人工智能。

今年早些时候，GoogleDeepMind的AlphaGo打败了韩国的围棋大师李世乭九段。

在媒体描述DeepMind胜利的时候，将人工智能（AI）、机器学习（machinelearning）和深度学习（deeplearning）都用上了。

这三者在AlphaGo击败李世乭的过程中都起了作用，但它们说的并不是一回事。今天我们就用最简单的方法——同心圆，可视化地展现出它们三者的关系和应用。

向左转|向右转如上图，人工智能是最早出现的，也是最大、最外侧的同心圆；其次是机器学习，稍晚一点；最内侧，是深度学习，当今人工智能大爆炸的核心驱动。五十年代，人工智能曾一度被极为看好。

之后，人工智能的一些较小的子集发展了起来。先是机器学习，然后是深度学习。深度学习又是机器学习的子集。深度学习造成了前所未有的巨大的影响。

从概念的提出到走向繁荣1956年，几个计算机科学家相聚在达特茅斯会议（DartmouthConferences），提出了“人工智能”的概念。

其后，人工智能就一直萦绕于人们的脑海之中，并在科研实验室中慢慢孵化。之后的几十年，人工智能一直在两极反转，或被称作人类文明耀眼未来的预言；或者被当成技术疯子的狂想扔到垃圾堆里。

坦白说，直到2012年之前，这两种声音还在同时存在。过去几年，尤其是2015年以来，人工智能开始大爆发。很大一部分是由于GPU的广泛应用，使得并行计算变得更快、更便宜、更有效。

当然，无限拓展的存储能力和骤然爆发的数据洪流（大数据）的组合拳，也使得图像数据、文本数据、交易数据、映射数据全面海量爆发。

让我们慢慢梳理一下计算机科学家们是如何将人工智能从最早的一点点苗头，发展到能够支撑那些每天被数亿用户使用的应用的。

| 人工智能（ArtificialIntelligence）——为机器赋予人的智能向左转|向右转早在1956年夏天那次会议，人工智能的先驱们就梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。

这就是我们现在所说的“强人工智能”（GeneralAI）。这个无所不能的机器，它有着我们所有的感知（甚至比人更多），我们所有的理性，可以像我们一样思考。

人们在电影里也总是看到这样的机器：友好的，像星球大战中的C-3PO；邪恶的，如终结者。强人工智能现在还只存在于电影和科幻小说中，原因不难理解，我们还没法实现它们，至少目前还不行。

我们目前能实现的，一般被称为“弱人工智能”（NarrowAI）。弱人工智能是能够与人一样，甚至比人更好地执行特定任务的技术。例如，Pinterest上的图像分类；或者Facebook的人脸识别。

这些是弱人工智能在实践中的例子。这些技术实现的是人类智能的一些具体的局部。但它们是如何实现的？这种智能是从何而来？这就带我们来到同心圆的里面一层，机器学习。

| 机器学习——一种实现人工智能的方法向左转|向右转机器学习最基本的做法，是使用算法来解析数据、从中学习，然后对真实世界中的事件做出决策和预测。

与传统的为解决特定任务、硬编码的软件程序不同，机器学习是用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。机器学习直接来源于早期的人工智能领域。

传统算法包括决策树学习、推导逻辑规划、聚类、强化学习和贝叶斯网络等等。众所周知，我们还没有实现强人工智能。早期机器学习方法甚至都无法实现弱人工智能。

机器学习最成功的应用领域是计算机视觉，虽然也还是需要大量的手工编码来完成工作。

人们需要手工编写分类器、边缘检测滤波器，以便让程序能识别物体从哪里开始，到哪里结束；写形状检测程序来判断检测对象是不是有八条边；写分类器来识别字母“ST-O-P”。

使用以上这些手工编写的分类器，人们总算可以开发算法来感知图像，判断图像是不是一个停止标志牌。这个结果还算不错，但并不是那种能让人为之一振的成功。

特别是遇到云雾天，标志牌变得不是那么清晰可见，又或者被树遮挡一部分，算法就难以成功了。这就是为什么前一段时间，计算机视觉的性能一直无法接近到人的能力。它太僵化，太容易受环境条件的干扰。

随着时间的推进，学习算法的发展改变了一切。

| 深度学习——一种实现机器学习的技术向左转|向右转人工神经网络（ArtificialNeuralNetworks）是早期机器学习中的一个重要的算法，历经数十年风风雨雨。

神经网络的原理是受我们大脑的生理结构——互相交叉相连的神经元启发。但与大脑中一个神经元可以连接一定距离内的任意神经元不同，人工神经网络具有离散的层、连接和数据传播的方向。

例如，我们可以把一幅图像切分成图像块，输入到神经网络的第一层。在第一层的每一个神经元都把数据传递到第二层。第二层的神经元也是完成类似的工作，把数据传递到第三层，以此类推，直到最后一层，然后生成结果。

每一个神经元都为它的输入分配权重，这个权重的正确与否与其执行的任务直接相关。最终的输出由这些权重加总来决定。我们仍以停止（Stop）标志牌为例。

将一个停止标志牌图像的所有元素都打碎，然后用神经元进行“检查”：八边形的外形、救火车般的红颜色、鲜明突出的字母、交通标志的典型尺寸和静止不动运动特性等等。

神经网络的任务就是给出结论，它到底是不是一个停止标志牌。神经网络会根据所有权重，给出一个经过深思熟虑的猜测——“概率向量”。

这个例子里，系统可能会给出这样的结果：86%可能是一个停止标志牌；7%的可能是一个限速标志牌；5%的可能是一个风筝挂在树上等等。然后网络结构告知神经网络，它的结论是否正确。

即使是这个例子，也算是比较超前了。直到前不久，神经网络也还是为人工智能圈所淡忘。其实在人工智能出现的早期，神经网络就已经存在了，但神经网络对于“智能”的贡献微乎其微。

主要问题是，即使是最基本的神经网络，也需要大量的运算。神经网络算法的运算需求难以得到满足。

不过，还是有一些虔诚的研究团队，以多伦多大学的GeoffreyHinton为代表，坚持研究，实现了以超算为目标的并行算法的运行与概念证明。但也直到GPU得到广泛应用，这些努力才见到成效。

我们回过头来看这个停止标志识别的例子。神经网络是调制、训练出来的，时不时还是很容易出错的。它最需要的，就是训练。

需要成百上千甚至几百万张图像来训练，直到神经元的输入的权值都被调制得十分精确，无论是否有雾，晴天还是雨天，每次都能得到正确的结果。

只有这个时候，我们才可以说神经网络成功地自学习到一个停止标志的样子；或者在Facebook的应用里，神经网络自学习了你妈妈的脸；又或者是2012年吴恩达（AndrewNg）教授在Google实现了神经网络学习到猫的样子等等。

吴教授的突破在于，把这些神经网络从基础上显著地增大了。层数非常多，神经元也非常多，然后给系统输入海量的数据，来训练网络。在吴教授这里，数据是一千万YouTube视频中的图像。

吴教授为深度学习（deeplearning）加入了“深度”（deep）。这里的“深度”就是说神经网络中众多的层。

现在，经过深度学习训练的图像识别，在一些场景中甚至可以比人做得更好：从识别猫，到辨别血液中癌症的早期成分，到识别核磁共振成像中的肿瘤。

Google的AlphaGo先是学会了如何下围棋，然后与它自己下棋训练。它训练自己神经网络的方法，就是不断地与自己下棋，反复地下，永不停歇。

| 深度学习，给人工智能以璀璨的未来深度学习使得机器学习能够实现众多的应用，并拓展了人工智能的领域范围。深度学习摧枯拉朽般地实现了各种任务，使得似乎所有的机器辅助功能都变为可能。

无人驾驶汽车，预防性医疗保健，甚至是更好的电影推荐，都近在眼前，或者即将实现。人工智能就在现在，就在明天。有了深度学习，人工智能甚至可以达到我们畅想的科幻小说一般。

你的C-3PO我拿走了，你有你的终结者就好了。

深度学习和神经网络的区别是什么

。

这两个概念实际上是互相交叉的，例如，卷积神经网络（Convolutionalneuralnetworks，简称CNNs）就是一种深度的监督学习下的机器学习模型，而深度置信网（DeepBeliefNets，简称DBNs）就是一种无监督学习下的机器学习模型。

深度学习的概念由Hinton等人于2006年提出。基于深信度网(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。

此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。

今天的文章深度神经网络是谁发明的,深度神经网络谁提出的分享到此就结束了，感谢您的阅读。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/65389.html