大数据与人工智能导论(第二版)
上QQ阅读APP看书,第一时间看更新

1.2 人工智能

1.2.1 认识人工智能

人工智能(AI,Artificial Intelligence)最初是在1956年的Dartmouth学会上提出的。自此以后,在众多研究者发展理论的过程中,人工智能的概念逐渐扩散开来。从计算机应用系统的角度出发,人工智能是研究如何制造智能机器或智能系统来模拟人类智能活动的能力,以延伸人类智能的科学。

1.2.2 人工智能的派别与发展史

人工智能的派别分为三种,包括符号主义(Symbolicism)、连接主义(Connectionism)和行为主义(Actionism)。

(1)符号主义-数理逻辑

人工智能起源于数学逻辑,这是符号主义学派的一般观点。人类认知的客体和过程可以被建模成符号相关,思维的基本单元就是符号,而认知的过程可以被建模为符号表示的运算。符号主义学派希望通过符号来建模人类学习事物的过程,进而转换成计算机可以处理的模型,以此实现人工智能。

符号主义经历了推理期(20世纪50年代—20世纪70年代)和知识期(20世纪70年代至今)两个阶段的发展。同样是基于符号知识表示,“推理期”学者通过演绎推理来推动人工智能发展;“知识期”学者则更专注于建立专家系统这种需要获取和利用领域知识的针对性系统,已经取得大量成果。

(2)连接主义-仿生学

连接主义的学者从仿生学的角度出发,通过算法模仿人类的神经元,这样的一个“算法神经元”被称为感知机,多个感知机可以并列组成一层网络,连接多层这样的网络得到神经网络。连接主义学派专注于从人脑的高层活动中获取灵感,强调复杂的智能活动也是由大量简单的单元并行运行的结果,而连接这些单元的复杂网络是使复杂智能出现的重要原因。神经网络可以根据实际问题来构建,网络中的连接权重通过不断训练而被更新,最终达到模拟智能的效果。

20世纪60年代,连接主义的热潮出现。但对人脑模型和技术条件的认知不足,成为阻碍这一学派发展的主要原因,人脑模型研究也在20世纪70年代后期陷入低潮。1982年和1984年,Hopfield教授通过两篇重要论文传达了使用硬件模拟神经网络的思想,连接主义重新成为学界讨论的热点。1986年,经典的反向传播算法(BP)被Rumelhart等提出。而进入21世纪后,“大名鼎鼎”的深度学习概念被连接主义学派提出。

(3)行为主义-控制论

行为主义学派从生物对环境的适应角度出发,将生物的适应过程建模成基于“感知-行动”的方法来模拟智能。其所创建的模拟智能的主要作用在于预见和控制行为。

直到20世纪末,人工智能学派的队伍中才出现了行为主义学派的面孔,一时引起许多人的关注。其代表作是Brooks的一个六足行走机器人,这是一个基于感知-动作模式的智能体,可以模仿昆虫的行为,被认为是新一代的“控制论动物”。

人工智能的概念最初是由被称为计算机之父和人工智能之父的Alan Turing提出的,人工智能的发展历史如下。

(1)诞生

1956年,不同领域(数学、心理学、工程学、经济学和政治学)的科学家在达特茅斯学院举行了一次会议。在这次会议上,人工智能被正式列为研究学科。人工智能发展的第一波浪潮就此掀起。

(2)第一次发展高潮(1955年—1974年)

在这段时间,人们利用计算机研发的程序解决了大量的数学代数和几何问题,并且研究了AI的新方向;人工智能领域内的贝尔曼公式(增强学习雏形)、感知器(深度学习雏形)、搜索式推理、自然语言等一系列的新理论被提出。

(3)第一次寒冬(1974年—1980年)

AI在20世纪70年代遇到了瓶颈。计算机运算能力的限制,使类似于指数爆炸的复杂问题无法解决,对外界信息的常识和推理常常不准确。无法克服基础性障碍,使AI似乎只是个有着简单逻辑推理能力的“玩具”。AI研究达不到预期完全智能的效果,研究人员也无法兑现当初的承诺。社会各界对AI从乐观变得冷淡,公众开始批判AI研究人员,机构减少甚至停止对人工智能的资助。

(4)第二次发展高潮(1980年—1987年)

在20世纪80年代初,随着“专家系统”类AI程序被产业界、学术界证明其强大的智能模拟能力,人工智能研究迎来了新一轮高潮。“专家系统”在小领域或者特定领域内推演出事物发展规则,可以很好地解决实际生活中的问题。因此,一些企业和大学重新开始对人工智能研究进行资助,希望造出可与人交互、具有强大推理能力的机器。此外,在这段时间,由于BP算法的诞生,神经网络得到了突破和发展。

(5)第二次寒冬(1987年—1993年)

1987年,AI硬件的需求下跌。同时,“专家系统”的弊端出现。“专家系统”虽然有用,但领域窄、更新维护成本高。台式机开始普及,个人计算机理念开始发展,而一些公司在上一次高潮中定的一些目标没有实现。在这段时间,计算机的算力仍然没有得到很好的发展,依然缺乏海量的训练数据。商业界对AI又变得冷淡,使AI资金短缺,研究停滞。

(6)第三次发展高潮(1993年至今)

摩尔定律的预言使计算机的性能不断地得到提升,限制计算机和人工智能发展的瓶颈被突破。云计算、大数据、机器学习、自然语言和机器视觉等领域发展迅速,人工智能迎来第三次高潮。

1.2.3 人工智能的现状与应用

随着AI技术的发展,人工智能技术涉及各行各业的发展,人工智能技术已经渗透到许多领域,其应用范围主要如下。

自然语言处理:自然语言是人工智能技术实际运用的典型范例。在这一领域,人工智能取得了丰硕的成果。目前,该领域的主要课题是:计算机系统如何在注重大量世界知识和期望作用的基础上,生成和理解自然语言以应对主题和对话情境为基础的实际问题。

机器翻译:利用计算机把一种自然语言转换成另一种自然语言的过程叫作机器翻译,完成这个过程的软件系统叫作机器翻译系统。作为计算语言学(Computational Linguistics)的一个分支,机器翻译极具科学研究价值,涉及计算机、认知科学、语言学、信息论等学科,是人工智能最终需要实现的目标之一。

计算机视觉:计算机视觉的主要目的是使计算机具有像生物一样通过二维图像认知三维环境信息的能力。生物通过多个二维图像可以对三维环境中物体位置、形状、姿态和运动等信息进行感知,进一步可以对这些信息进行处理,包括对信息的描述、存储、识别与理解。

语音识别:语音识别是把语音转化为文字,并对其进行识别、认知和处理的技术。通过机器,可以将接收到的语音信号转变为相应的文本或命令。语音识别在包括医疗、语音书写、电脑系统声控、车联网等领域有广泛的应用。

推荐引擎:推荐引擎能主动发现用户的当前需求甚至潜在需求,并将这些信息主动推送给用户的信息网络。推荐引擎能分析并利用用户的行为、属性,对象的属性、内容、分类,以及用户之间的社交关系等,推断出用户的爱好需求,并继续推送给用户与其爱好需求相关的信息。最典型的应用例子就是网上购物。例如,淘宝、京东等购物平台,能根据之前的浏览记录或者搜索记录,推送一些相关的产品或者网站内容。在很多视频网站和社交软件上,推荐引擎也有着广泛的应用。例如,在一定时间内,若浏览了大量的言情或者武侠视频,那么接下来的一段时间,视频首页会推荐大量的言情或者武侠视频。

专家系统:专家系统是一种具有特定领域内大量知识与经验的程序系统,是目前人工智能中成果最丰富的研究领域之一,也是研究人员最活跃的研究热点之一。人类专家凭借其丰富的知识,能够高效、快速地解决相应领域的众多问题,基于这一事实,给计算机程序学习并使其灵活运用这些专业知识,其就能解决人类专家所解决的问题,而且可以为人类专家的推理提供辅助和错误判断。

智能机器人:人类的视觉、触觉、嗅觉等感觉可以通过在机器人的身上安装各种传感器来模拟,再利用人工智能技术和计算机视觉,将其整合在一起,就能设计出智能机器人,使其具有一定的判断和决策能力。根据具体的需要,智能机器人可以设计出不同的功能和形状,使其适应不同的场景,如工业机器人、农业机器人、扫地机器人、救援机器人等。

机电控制:机电受控系统的模型参数具有复杂不确定性,并且系统模型本身存在着或大或小的摄动问题,而人工神经网络具有自学习和自适应能力,可以实时模拟受控对象的变化,并最终做出合理的判断。当受控对象的输出与模型的输出存在一定误差时,神经网络所具有的容错能力使控制系统具有一定的鲁棒性。在创建人工智能的过程中,主要使用的两种方法是神经网络系统和模糊推理系统,这两个系统之间存在很多差异,有各自的优缺点。因此,将它们组合起来形成一个模糊神经网络系统,使信息更准确地表达从而构造一个科学而适当的空间。同时,在逻辑推理过程中,可以充分利用两者的优势,不浪费资源。

虚拟现实:人工智能在人类行为上的学习潜力很强,可以通过模仿人类而达到模糊机器和人类的界限。随着机器与人类之间的界线变薄,并且味觉和气味的新感官成分被嵌入此类技术中,虚拟现实(VR)与现实生活之间的界线将交织在一起,这可能会改变消费者和商业世界。而一些企业将增强现实(AR)结合在一起,可以链接各种接触点并增强用户的旅程以提供更好的客户体验,但它们非常复杂,并且依赖于学习算法来定制产品和旅程。

智慧医疗:在医学领域,使用人工智能来应对如肿瘤、抑郁症、神经系统疾病、癌症等问题。在基因组学和遗传学中,人工智能有助于识别有关患者的遗传信息的巨大数据集,因此,在遗传学中使用聚类算法或数据挖掘来帮助查找与特定疾病相关的基因。与通过临床试验所花费的时间相比,使用AI进行药物创建所花费的时间更少。另外,有了AI,可以轻松完成图像识别和分析。一些复杂的图像可以自动解释,从而有助于MRI扫描。

1.2.4 当人工智能遇上大数据

大数据的发展离不开人工智能,而任何智能的发展,都是一个长期学习的过程,且这一学习的过程离不开数据的支持。随着大数据持续发展,人工智能有了海量数据的支撑,得到了快速发展。各类感应器和数据采集技术也在不断进步,海量数据可以被快速且持续地获取。更详细、深入的专业领域数据的获取也逐渐降低了门槛,使相关领域的智能训练变得更加容易。

不同于以往众多数据分析技术,人工智能技术立足于神经网络,并在此单层或数层神经网络的基础上发展出多层神经网络结构,从而可以通过深度机器学习对多网络模型进行训练。与以往的传统算法相比,这一算法没有如线性建模需要假设数据之间的线性关系之类多余的假设前提,而是完全利用输入的数据内容和结构,自行模拟和构建相应的模型结构并优化参数,使其具有更为灵活的自优化特性。

这样的算法之所以在以前被提出却得不到快速的发展,是因为有限的计算机运算能力无法应对如此庞大的运算量。现在,计算机算力提高,可以进行高速并行运算,能够接收海量的数据,运行更优化的算法,这是实现人工智能发展突破的关键。

大数据和人工智能虽然逐渐细化成了两个不同的领域,但实际上却是相辅相成、互相促进发展的。一方面,人工智能的决策和判断是建立在大量数据的基础上,只有通过大量的数据进行训练、预测、验证,人工智能才能发挥出真正的威力,且数据量越大,人工智能的效果越好。另一方面,人工智能为大数据提供了技术支持,如果能在大数据领域使用人工智能进行数据分析,那么大数据将会如虎添翼。