王晓阳:智能化现状与趋势

来源:大河网
时间:2022-09-09 16:11

  编者按

  9月6日,2022中国(郑州)国际期货论坛开幕,复旦大学计算机科学与技术学院教授王晓阳发表了题为《智能化现状与趋势》的主旨演讲。王晓阳概括了新一代人工智能的特点,阐述了人工智能的应用现状及挑战,最后指出了智能化技术的趋势与解决途径。以下为演讲实录:


  大家好,我是复旦大学计算机科学技术学院的王晓阳,很高兴参加中国郑州国际期货论坛。我分享的题目为智能化现状与趋势,今天分享一些我关于IT系统以及智能化现状与趋势的思考,主要是三个方面:第一是新一代人工智能的特点,第二是人工智能的应用现状及挑战,第三就是智能化的技术的趋势与解决途径。

  (一)新一代人工智能的特点

  知识就是力量这一句话贯穿整个人类的文明的发展,知识一般可以分成三个阶段:知识的形成、知识的编码以及知识的应用。长期以来,这三个阶段都是人类专属的阶段,也就是说,人类总结自己的经验以及其他各种学习方法,形成各种知识把它写成书里,在书本里面编码,之后再从书本里获取知识并进行应用,这三个阶段长期以来都是人类专属的阶段。计算机的出现改变了这一点,计算机在应用方面代替了人,甚至大大超越了人,它的知识形态也发生了某种变化,从原来的、书本的知识变成了模型化、编码化,知识的执行也就变成编码化、自动化,很大程度上,规模化使得知识的执行变成了大规模、快速的、高效的执行。但是形成知识以及它的编码依然是人类专属的工作。新一代人工智能的特点就是在于新的知识模型的出现,以及新的知识来源的实现。是什么样的新的来源呢?人类可以慢慢地从知识的形成过程中退出来。也就是说,知识的形成从人类设计转向了自动形成。这一转变的巨大好处是人类不再是闭环里面的短板了,人是比较慢的,机器比较快。所以从这个角度来讲,我们得到了快速的发展。新一代的人工智能和前几代的人工智能相比,最大的区别就在于知识的形成上,新一代的人工智能代替了人,在某种程度上面,所以这是一个很大的特征。

  那么知识从哪里来的?新一代的人工智能,或者说目前这一代的人工智能,主要是向数据要知识。因为信息化的发展催生了大量数据的形成,互联网、物联网、社交媒体等等,都有大量的信息产生,使得向数据要知识变成了一种可能。另外数据存储的介质价格持续下降,为大规模储存数据提供了条件。在储存数据时无需辨别,后续可以使用这些数据,从中找到我们所需要的知识。最重要的是数据的重要性越来越被认可,这一点是新一代人工智能很大的特点。在金融界、金融科技里面,数据是核心,且在征信、交易、风控等很多方面都被广泛应用。量化交易就是一个典型的智能应用的案例,量化交易中一般拥有海量的数据,来源丰富,有量化结构化行情的市场数据,也有历史回测、多事件推理、事件量化策略的数据,以及来自舆情、地理、图片、音视频等多方面的数据,进而形成融合的量化事件驱动平台,在该平台上可以做各种各样的应用,如量化投资的研究、交易等。

  它的难点是什么?就是需要有更高效的系统支持从海量数据中获取有用的知识。那么什么叫高效?高效其实分成几个方面,一个方面是计算时间,计算时间体现了效率,另外还有计算能耗,这也是目前比较大的瓶颈,即能不能使用更少的人力及专业知识,做更多的数据利用。

  (二)人工智能的应用现状以及挑战

  大数据人工智能分析的实际需求,如智能投研系统平台的需求,其实就是多数据多模型的有机组合。人们往往需要各种数据、各种分析和学习方法、各种视角协同达到系统应用的目的。在这样的系统里,一般需要多个的软硬件平台进行有效的协同,再用不同的数据,不同的方法,在不同的软硬件计算平台上完成应用的整合。例如数据清理、数据采集、数据特征抽取、模型的建成、模型的应用等等,都需要不同的软硬件系统。从流程角度来看,数据分析、因子分析、量化分析、交易分析、实际操作等方面,都需要各种各样的平台、各种各样的软硬件设施、甚至存储和通讯等基础设施来完成,这也说明目前应用方面的需求较大。其次,目前对软件站的需求也很大。机器学习的系统可以看作是人整个身体中的头部,很小却很重要。支撑机器学习的体系非常庞大而复杂,包括系统配置、数据收集、特征抽取、数据的验证、计算资源的管理,分析工具过程的管理,服务框架,以及系统的监控等等。

  不同的数据处理阶段对核心处理器的需求也不一样,数据清洗的过程中,一般为memory-intensive,数据移动比较重的工作,CPU可能也足以满足需求,但Spark、hadoop这些系统能够更加高效的进行数据清理以及数据准备。一旦到了学习及推理方面,就需要大量的计算,这时候需要不同的处理器,像GPU这样的处理器,以及MPI和Tensorflow这样的软件系统就能起到比较大的作用。所以不同分析阶段的计算有不同的特性,在同一框架上运行所有的计算肯定是低效的,如何综合各种各样的平台来进行统一的计算,是一个难点。数据分析需要大量的数据来进行大量的计算,这个时候并行化、分布式的计算等也变成了必需品,但这时又容易出现新的难题,不同的算法有不同的并行化的处理方式,不同的并行化处理方式又引起了不同系统架构上的需求,所以就出现了很多不同的并行化方法、并行化系统、以及并行化的硬件等等来进行各种各样的操作。主要问题就是如何选择对的体系架构,以及软硬件系统来处理不同的数据,这个难度也非常大。

  总的来说,智能应用的挑战主要是三个方面,一个是流程是比较复杂,每个应用具有自己独特的流程,需要多系统的协作。第二就是数据量很大,很多应用需要大量的数据来获取知识。虽然新一代人工智能在获取知识方面有很强大的算法,但是还依赖于大量数据,如何获取数据仍然是一个难题。第三就是人力的缺乏,我们驾驭智能的应用,仍然依赖大量的人工。智能化的应用需要各类系统,这既带来了各种各样的技术债务,也需要大量的人工。

  (三)人工智能的发展趋势与解决途径

  在分析了新一代人工智能的特点以及面对的挑战后,再来谈一谈目前人工智能的发展趋势如何,以及可能的解决途径是什么。一个系统需要各种各样的系统方法,例如大规模并行运行、数理方法论的创新、新型的数据库、以及软硬件的技术。我们要优化方法,进行机器学习的算法加速等研究,这样才能使整个应用更具备操作性。纵观各种各样的系统情况可以发现,机器学习的软硬件系统已经非常完善和普及了。但是智能应用系统本身还是刚刚起步,怎么把它应用在复杂系统里,这一点还在不断摸索中。数据红利的时代刚刚开始,还有很多的工作可以进行。机器学习的准确性是一个比较大的问题。机器学习的准确性可以说是统计的概念,一般它基于很多的假设,包括假设数据的分布,假设各种各样的情况,在假设的前提下,我们才能保证机器学习的准确性。但系统的准确性要求较高,需要系统能在保证严格逻辑正确的情况下适应不确定的环境,这之中有一定的差距,这个差距如何弥补是我们需要思考并解决的问题。智能化应用的趋势也就是如何把这两个点综合起来、融合起来使用。

  那么有了这些困难和趋势,我们到底用什么方法、什么途径来解决?既简单也复杂,就是用智能技术来解决智能应用的难题。复杂流程的优化其实就是机器学习,这一点上智能化具有很大的优势,比如各种系统的选择、协同,自然的人机交互等方面,如自然语言处理、视觉处理等等。这些智能的方法为复杂应用系统的构成提供了可能的途径,人工智能的应用需要很多的专业人员,我们的理想是把系统的整合、系统的组成,做得像搜索那么容易。人工智能计算要不断搜索化、自动交互、自动分析,这样才能把系统做到各种各样的应用中去。我们需要将智能系统平民化,不需要那么多专业人士参与工作。平民化的需求其实提出了很多工作需求,从大的角度来讲,就是系统能不能自动找到对的数据、对的模型、对的算法、对的平台,自动完成,这样就不需要很多计算机专业人员介入。这也要求我们做应用系统时,要专注在应用方面,而非技术层面,这也是今后解决复杂系统难题的途径。系统还有一个方面就是容错纠错,如何在系统中帮助用户发现错误、纠正错误,使得用户能够进行某种很自然的干预与决策。也就是如何支持human-in-the-loop这样的做法,使得复杂的智能化系统能够很容易的构建以及很容易的运行,这都是需要研究的问题。

  总的来说,目前智能化的发展阶段是从大量数据中自动获取知识,这也是我们的新一代人工智能的特点。但智能化的挑战也很大,如果要把它组成复杂的应用系统,所需要的技术非常复杂,而机器与人的效率都比较低,同时存在专业人员缺乏的问题。所以这种情况下,推广智能系统可以将思路反过来,用智能的技术解决智能技术应用的需求。从目前各种各样的研究中可以看出,我们已经采用了大量智能的技术方法来解决智能技术应用需求,从而使智能化系统的软件能够逐渐平民化。就像之前的计算机,通过将其做成大家常见、常用的PC机,从而使智能技术在各个方面得到应用。

  未来,大量的应用可以获得智能化的红利,但这个过程也有很大的工作量。以上就是我的一些分享、一些看法,敬请大家批评指正,谢谢!

  (复旦大学计算机科学与技术学院教授王晓阳在2022中国(郑州)国际期货论坛上的发言)


相关阅读:

方星海:开创中国特色期货市场发展新篇章 

蔡昉:中国经济现状及展望  

罗伯特·默顿:运用金融科学和衍生品应对全球性挑战  


编辑:梁爽