人工智能作为当今世界上最重要的科技之一,其走过了60年“三起两落”的发展历程,已融入人们生产生活的各个方面。“智能+”时代正在加速向我们走来。在人工智能风口到来之际,构建应用场景、找准突破口成为人工智能应用落地的重中之重。
人工智能应用落地的四个关键因素
人工智能产业发展繁荣离不开数据驱动和计算能力的提升。大数据、计算能力、人工智能之间正在形成一种共生生态,大数据为人工智能提供源源不断的动力,人工智能衍生出了诸如深度学习、强化学习、迁移学习、对抗学习等新型算法,硬件计算能力的有力提升有效地缩减了算法迭代改进周期。未来可从四个方面形成合力,加速人工智能应用落地。
明确应用场景边界。人工智能技术尚未达到强人工智能水平,产业落地过程中应避免好高骛远。例如,机器人脸识别在绝大多数情况下比人识别的效果要好,但是在需要知识、想象力的特殊情况下,与人脑还是存在较大差距。现阶段以深度学习为代表的人工智能技术并不善于解决通用性问题,人工智能技术要实现产业落地并形成商业价值,需要清晰其所能解决的特定领域问题,并有明确的应用场景边界。将人工智能的功能需求限定在有限的特定问题边界之内,这样得出的解决方案才能相对可行可靠,如借助视听传感器能够自主规划扫地方案的扫地机器人等。
闭环数据反馈循环。谷歌、Facebook、英特尔、微软、苹果、特斯拉,中国的BAT等人工智能前沿公司,通常都具有一个共同的特征——闭环的数据反馈循环。例如,Google、百度等互联网广告系统能够根据用户点击及输入等操作,自动收集到用户一手数据,抽取关键特征并输入深度学习神经网络,神经网络训练好后能用于对用户行为的预测,进而提高用户体验。从应用终端收集数据,再用数据训练模型,之后用模型提高用户应用体验,用户应用后又产生新的数据,这就形成了闭环的数据反馈循环。其内部就可以完成自动数据收集、标注、训练与反馈,这使得人工智能算法实时迭代优化的更加便利。
海量高质量数据。随着移动互联网和物联网的快速发展,数据量正在以指数级增加,根据IDC统计,全球数据总量预计2020年达到44ZB,中国数据量将达到8060EB,占全球数据总量的18%。对于自然语言、音频和视频等数据,其分析越来越聚集于提取其中的语义,包括情感分析、文档主题模型、依存模型、问答语义分析等。以深度学习为代表的人工智能技术,本质上是一个具有多层的神经网络,通过大数据计算来自动学习最终的网络参数,不同的网络参数能够识别出不同的物体,但需要依赖规模庞大的高质量带标签数据集,才能够保证其学习质量。
高性能计算硬件。深度学习模型需要很高的内在并行度、大量的浮点计算能力以及矩阵运算,按环节可分为前期训练、云端推理、终端推理等三个阶段。在前期训练和云端推理环节,需要进行规模庞大的运算量,CPU+GPU架构成为目前多数人工智能企业的主流选择。然而,构建GPU集群的成本非常高昂,仅购置一块Nvidia Tesla K80的费用近4万元。FPGA具备较高的性能功耗比和重构灵活性,百度采用FPGA打造百度大脑专用AI芯片,微软打造的Brainwave平台也是基于英特尔Stratix 10 FPGA芯片。在终端推理环节,由于智能手机、语音交互、VR/AR等终端设备需求不同,需要定制化、低功耗、低成本的嵌入式解决方案,其市场呈现更加多样化竞争态势,如寒武纪的1A处理器、地平线的BPU芯片等,华为Mate 10的麒麟970芯片搭载了神经网络单元NPU,使得其在处理相关人工智能任务(如图像识别等)时有50倍能效和25倍性能的提升。
我国人工智能应用落地面临的问题及建议
基础研究与实践联系不紧密,要统筹协调促进研发资源聚合。在研发方面,我国人工智能研发主力集中于科研院所(国外主要集中于大企业),并且研究力量比较分散,研发经费也呈现撒胡椒面式的碎片化,这难以聚集力量解决重点问题。可借鉴美国成立国防高级研究计划局、Google X实验室、Facebook人工智能研究院的经验,成立我国人工智能国家实验室和人工智能产学研协同创新中心,打通政产学研用各环节,促进研发资源聚合。
针对数据孤岛和数据碎片化问题,可建立开放共享的大数据公共资源。由于数据表示与语义的异构性、数据的开放性等问题,导致人工智能在落地过程中出现种种问题。在异构性方面,由于许多行业的数据积累在数据标准规范上缺乏预先定义可广泛适用的元数据描述,其数据集远未达到可充分发挥人工智能技术潜能的程度。在开放性方面,一些企业从商业利益出发限制了数据的共享和流转,监管部门出于安全考虑对人工智能应用提出了更为严格的要求。因此,解决高质量大数据短缺问题是人工智能应用落地的关键,未来需要在整合异构数据源、建立一些开放共享的大数据公共资源库等方面多做努力。
缺乏完整的产业生态体系,应围绕特定应用场景开发定制AI芯片。目前,我国仍然缺乏完整的人工智能产业生态,特别在基础硬件(芯片)领域。未来应加快补齐基础层软硬件短板,可围绕一些特定应用场景(如智能手机、无人机、智能驾驶、服务机器人等),从硬件实现角度颠覆性地突破类脑神经芯片,如深度卷积神经网络芯片等。
缺乏顶尖级创新型资深人才,可借助互联网实现AI技术教育泛化。根据LinkedIn发布的《全球AI领域人才报告》,2017年第一季度全球人工智能人才超过190万人,其中美国拥有85万以上,中国拥有约5万。美国人才多集中于人工智能基础层和技术层,而我国多集中于应用层,并且同时掌握实践能力和理论能力的研究人员比较稀缺。未来,应增强我国人才自身造血能力,可考虑借助互联网让人工智能教育实现泛化(如借鉴国外大规模在线教育Coursera等),降低个体获得人工智能前沿技术的门槛。