百度浣军:加大AI安全性研究 开放普惠AI

2018-08-30 16:35:29爱云资讯

由中国证券投资基金业协会金融科技专业委员会主办,易方达基金、华夏基金、通联数据、阿里云、新智元等协办,新浪财经作为媒体支持的“2018全球智能投资峰会”于8月30日(周四)08:30-18:00在北京金融街(6.910,-0.13,-1.85%)威斯汀大酒举办。本次峰会的主题为“聚·变”。

本届峰会以大数据、人工智能等前沿技术在金融行业的应用为主线,涵盖金融科技、智能投资等热点话题。峰会召开的同时将现场揭晓委员会主办的全球金融数据探索与发现大赛(FinancialData Discovery Competition,以下简称FDDC大赛)获奖者,并邀请全球人工智能专家、FDDC大赛导师和获奖者进行互动交流。

百度北京大数据实验室主任浣军发表了题为《AutoDL:开放普惠AI,助力中小企业》的演讲。

浣军表示,AI的安全性非常重要,深度学习之所以被广泛应用,是因为其高效。但是,随着技术的发展,AI逐步走出数据世界,走入了物理世界,其安全性涉及到人身、财产安全问题,所以要加大AI的安全性研究。

当前,机器深度学习主要集中在大型企业,也只有大型企业才能承担起相关的巨额研发费用,那么如何让数量更多的中小企业也发力机器深度学习呢?浣军提出了AutoDL,即开放、普惠的AI理念,通过自动建模、模型迁移等多种方法,让更多的企业能运用人工智能的力量。

以下为百度北京大数据实验室主任浣军主题演讲实录:

主持人:接下来让我们有请百度北京大数据实验室主任浣军教授为我们带来主题演讲,浣军教授回国前担任美国堪萨斯大学电子工程和计算机系Spahr讲席终身职正教授,长期从事大数据、AI、数据挖掘和机器学习的理论、算法和应用的研究。有请!

浣军:各位嘉宾、各位老师、各位专家教授下午好,非常高兴也非常荣幸有这么一个机会能跟大家介绍一下我们最近的工作,是关于开放普惠AI这么一个概念和它对应的这些技术的发展。我叫浣军,在百度大数据实验室工作。

今天上午大家嘉宾演讲中间都提到了AI的冬天这么一个概念,这是在下面几分钟之内很难把AI的整个发展历史比较详细地介绍,所以就简要地介绍一下。那么看得出来,从历史上AI的发展至少经历过两次冬天,所谓冬天就是大家对它的兴趣急遽下降。大家现在也在讨论AI的下一步发展会不会有新的冬天到来,我想从历史上看会有。那么也有另外一种可能,我今天在这里提出来,有没有可能AI这样成功,它非常成功融入到了我们的日常生活中间,包括出行、医疗、金融,所以大家对AI的热度不会那么高,同时也不会经历现在所有的热情上面。我们在将来拭目以待。

这个PPT是说我们这次的AI跟以前AI的不同,我想第一个它有几个特性,第一它是由大数据驱动的。这里面显示的就是在2013年人类总共收集到4.4个zitebaite(音)数字化数据。我们十年前2003年,从有史以来到2003年止,人类文明一共搜集到到的是五个aikesibaite(音)就是千分之,2013年几个小时之内人类搜集到的数据,等于有史以来到2003年总共收集的数据的总和。这上面写的是2020年这个数字会翻十倍,到2020年,人类大概几十分钟搜集到的数据就等于有史以来一直到2003年搜集的数据的总和,那么这个我想给大家比较直观的关于大数据的发展的速度。

同时是这些数据的清理、整合和标记,不光是原始数据,包括衍生数据,这应该说是一个很重要的特性。

第二个特性,这次的AI是算力急剧增长。横轴是时间,纵轴是处理器上集成的chuaizisite(音)的数目,这明显是指数上涨。AI的算力是比每18个月涨十倍要更快。用一个比较直观的例子,就是iPhoneX的处理器相当于1996年的世界上最大的最强的超算的算力,也就是说二十年后在手机上面大家拥有的,就跟当年一个占据了一个日本的大房子的算力是一样的。

这是AI算法的快速迭代,横轴时间,纵轴是ImageNet,ImageNet上面的错误率,这上面有三种颜色,特别标好了三种颜色,绿色用传统的计算机视觉办法来做识别的时候,错误率一般是20%。这个浅绿色是从2012年开始,用的是深度学习的算法。黑色的这个是人类的事业的准确率,2015年、2016年,何凯明(音)设计的ruisinaite(音),错误率已经比人类的更要低了,从机器在识别图像比人类更强。

这里是一幅图,它信息非常丰富,它显示计算机各个领域对经济的影响。那么横轴上每一个是特定的技术,比如说数据库技术,比如说微处理器,比如说AI,每个技术对应四条棒、四条线。红色的线是学术界什么时候开始研究,第二条线是蓝色的线,是工业界什么时候开始对这个概念有影响。细的绿色的线这个市值什么时候达到十亿美元,整个maketesaisi(音)怎么达到十亿美元。粗线是怎么让这个市值达到一百亿美元。那么AI应该说是下一个点。

我们现在也有说AI是新的电力,当我们说到新电力的时候,实际上说的就是工业革命,大数据AI成为新的技术和商业的创新的动力。那么我们可以看到,尤其在我们国家,工业化、信息化、自动化到智能化,这四化是在叠加,这是一场波澜壮阔的第四次工业革命,整个在世界范围内,对基础建设、商业发展、技术推进包括人的精神面貌都会有巨大的改变。

这个显示的是发达国家在前十年和前二十年的劳动生产率提高。所以首先它里面横轴是每一个国家,美国在最左边,意大利在最右边,那个蓝色的线是前二十年的劳动生产率提高的值,平均大概是2.5%左右。橘色的线是前十年的劳动生产率的提高的值,大概1%。那么这个图就是有几个,第一个,劳动生产率仍然在提高,在西方发达国家,所以一阶倒数仍然为正(音)。但是劳动生产率提高的速度在下降,前二十年平均是2%以上,近十年是1%左右。那就是二阶倒为负(音)。什么意思呢?西方发达国家的增长的速度在放慢,都在寻找下一个增长点。AI、大数据、深度学习会不会成为一个增长点,我想现在看起来非常有可能。

那么这里是美国劳动局的一些统计,就是一些预测,那么什么样的工作最有可能被取代?这里面左边是说比如说时薪20美元以下的工作,比如说餐馆的服务员,一些办公室文员时薪20美元以下被取代的概率80%以上。右边是说不同的受教育程度,如果这个职业只需要高中文凭,他被取代的概率44%。那么这些就是AI有可能对我们的社会的影响。

下面稍微介绍AI的一些具体应用,比如谷歌在去年跟多伦多一个小镇签了一个协议,建设simakesaite(音),在这个小镇上面,把自动驾驶、5G、健康等等所有这些概念,通过那个小镇在物理上面集成起来落地。咱们国家就是雄安,这是Chatbot,这个程序能够跟人聊天,缓解抑郁症。

这是大概一两年前的一个工作,有一门计算机课,那门课是AI的课,选的人很多。那几年有一个TA从来没有出现过,大家发邮件他都会回。学期结束,发现TA的名字叫沃森小姐,沃森是谁呢?他实际上是IBM的一个产品。

这跟咱们金融关系比较大,就是有一些统计,在保险业、在银行业、在资金管理上面,现在有多少是有算法来进行自动的做决策。

前面讲的是一些AI的广泛的应用,如果是第四次工业革命,我们想想前几次工业革命对整个社会的形态的影响。那么这里想说的就是再晴朗的天空,它也总有几朵乌云。这个人叫ailigelumisi(音),他犯了罪,犯罪以后被抓被审,这个事情就这样了,社会总有这种现象。威斯康辛州很有意思,这个州购买了一个私人公司的公共服务,那个私人公司做的是对这些犯罪的人打分,来判断他重新犯罪的概率,从1到10分。这个法官参考分数,量刑的时候是参考这个分数的。后来法官接受采访,这个事情被披露出来,ailigelumisi(音)的律师就告这个事情,他说第一这是个AI算法,这是个私人公司,它的数据没有公开,是两个教授一起开的公司。第一数据没有公开,第二如何训练这个数据的算法没有公开,最后只有一个模型,这个模型都没有公开,最后得到的就是一个分,从1分到10分,10分就是这个人很有可能再犯罪,1分就是这个人不太可能再犯罪。法官利用这个分数来判刑。这个律师说第一我不知道你如何做的决定,我没法重复你的决定,我都没法质证。所以这个官司一直打到美国的最高法院,最高法院有权决定是听还是不听,它最后决定没有听,这是纽约时报去年夏天报的。我相信以后这种案子会越来越多,我下面会讲到有欧洲通过GDPR。

我想给大家介绍一下,一个是我们做的工作关于AI的安全性,一个就是开放、普惠AI这么一个概念。AI的安全性我就稍微介绍一下,这是美国AI的研发战略方向,其中把安全性列为很重要的一点。为什么AI的安全性很重要?因为如果我们在建模的时候,我们可以看到我们做AI是从数据驱动的,先搜集数据。搜集数据以后建模型,建完模型以后做模型的yiwailieweishen(音)。现在深度学习为什么在现在这些领域能够广泛应用呢?因为深度学习的准确率确实非常高。但是我们在享受这个高准确率的同时,也忽略了很多因素,这些因素比如说为什么会做这个决定,这个决定什么时候会错,错了我们又能学到什么东西?那么这个为什么重要的就是因为我们现在看得到的是AI总出信息世界走向物理世界。我们在做搜索的时候或者做推荐的时候,我们错误地推荐了一个小视频给大家,大家一看这个东西跟你兴趣爱好没有关系,我觉得肯定是骂一句某公司,也不会有更进一步的行为。但是如果我们在自动驾驶的时候,因为自动驾驶的时候需要不停对路况进行判断,比如判断图片的准确率是99.9%,错了千分之一,那么有可能出现的结果是人身安全、财产损失。所以当AI走出信息社会,走入物理社会以后,它的安全性会非常重要。刚才张院长提到了透明科技的事情,其中还包括其他的,还包括它的不容易被干扰。

在欧美发达国家,因为它是多种族的国家,它还包括公平、公正这么一个概念。我们国家虽然是单一种族,但实际上公平、公正这个概念也越来越被大家所接受。

所以下一阶段的AI必须考虑它的安全性。

做金融的应该对欧洲通过的法律比较关注,两年前通过了一个法案,给了两年的通窗期,今年已经落地了已经成为法律。我想以前在北京说说布鲁塞尔通过了什么法律,可能大家感受不是很深。那么现在通过中兴这件事情以后,对长壁(音)这个概念都有一定的了解。那么这个里面它有很多新的概念,比如说可解释的权利它定义了一项可解释的权利,还定义了一项谁拥有数据,还有定义了一项被遗忘的权利,细节我们就不说了。

那么整个AI要能够做到安全,那么可解释,做到不容易被攻击,这里面有很多工作要做。大体上就是要么是你对终端模型有进行解释,要么你归因,你看到在原始数据上面,对哪些因素对你的模型影响最大,或者你对整个中间建模的过程都要有所了解,这个东西细节我们就不介绍了。而且这个概念就是从技术上要想把这个概念做,面临很多挑战,它需要对社会、对政策、对立法有一些了解。那么大家感兴趣的话,我们有一些综述,也有文章。

下面重点介绍一下我们最近的工作叫做开放、普惠AI,这个主要的目的是什么呢?如果我们还是上面的ImageNet,ImageNet随着时间来讲错误率越来越低。背后的成功是什么呢?我们看网络的复杂度,从最早的aimisilaite(音)大概是八层,到现在ImageNet是几百层,最近有一篇文章是如何训练一万层的深度学习网络。那么这个里面有几个点,一个点是所有这些成功的背后,深度学习算法成功的背后,是一个新的网络结构,这个需要人来设计,这些网络结构越来越复杂,而且它的设计过程也越来越复杂,它对设计师的要求非常高,能够设计全新网络的,这应该是被各大公司所争相礼聘的。

如果从一个初创企业来说,大家也知道一个初创企业,比如说你要想养一个十个人的算法工程师,第一你很难找到世界顶级的算法工程师来帮你设计网络;第二就算一般的算法工程师现在都非常贵;你需要一个非常大的集群,现在GPU集群也是越来越贵,包括最近艾瑞德(音)新出的具有强大算力的GPU大概几千美元一块,我们常用的一个八卡的机器人(16.300,-0.35,-2.10%)民币一百万美元。那么你需要强大的算法团队,你需要一个强大的工程团队,你需要有硬件、软件支持。

那么整个这个过程,我们使得这些先进的算法,都是掌握在大企业的手里面,大企业的研发中心里面。那么如何才能让我们的中小企业,如何才能让我们的初创企业,都能够拥有自主设计神经学习网络的能力呢?这个就是我们提出这个概念叫做开放、普惠AI,就是让所有人都能够跨过AI的鸿沟,都不需要特定的硬件、软件支持,不需要养一个非常强大的工程师团队,也能拿到自动化的、定制化的模型。

百度阿头DM(音)就是我们为这个设计的一项。那么这个思想就是用深度学习来设计深度学习,使得能够让深度学习的网络设计自动化、定制化、低成本化。

那么具体来说,用的技术叫做深度增强学习,大概的意思有两个组成成分,一个叫做教师模型,一个叫做学生模型。教师模型是来设计一个深度学习网络,把这个网络拿过去进行学习,得到它的准确度,然后把这个值反馈给teacher耐特沃(音),通过增强学习的办法来改进设计。teacher耐特沃(音)如何做这个过程呢?是通过RNN(音)的办法来编码一个深度学习,然后通过这个拿到反馈,进一步改进。

效果怎么样呢?现在阿头DM(音)在西发(音)做出来的效果超过96%,比人类专家手工设计的包括但斯耐特(音)、谷歌尹赛普深(音)这些都是在ImageNet上得奖的,效果更好。也就是说现在用深度学习的算法来深入到深度学习的网络,能够媲美人工专家。

从另外一个角度上还有非常重要的角度是适配,这些网络现在都是在云上面进行训练或者是提供服务。那么现在我们很多的网络需要到端上,手机是一个具体的端,自动驾驶是另外一个端,还有很多包括新零售在内的它有特定的硬件,这都是端。通过这个可以把现有的网络适配到端上面,通过多目标的优化的问题。

还有一个很重要的就是我们比如已经为A公司建立的一个模式,那么当A公司里面有不同的应用的时候,从一个应用换到另一个应用的时候,你是不是还需要从头建立模型呢?其实在深度学习这个领域,很多时候你不需要,你可以通过模型迁移的办法,把移动模型迁移到另一个模型。那么迁移的过程中间,你也可以特殊设计你的网络,或者你修改现有网络,达到迁移的目的。

那么这里是我们自己做的一个百度有一个公益项目,是完全免费的,大家都可以试。你有数据你可以上传,上传以后自动建模型,再把这个模型提供给大家。AutoDL会下达这个能力。

这是九个实际案例,这九个案例有跟健康有关的,有跟家具装修风格有关的,有跟公益项目鸟类有关。这是东北虎、东北豹的设计。咱们做人脸识别是识别单独的个人,东北虎、东北豹是识别单独的虎的个体。这里AutoDL对比,应该说在每一个时间上面都有提高,绝对值5%到10%。

整个这个领域叫做自动建模,如何利用现在的集群计算,如何利用深度学习来做自动建模。自动建模整个过程包括数据的清洗、整合、特征的抽取、选取、模型的建立,大家如果感兴趣的话,我们也有对应的产品,现在帮助大家自动建模,自动做超参数的选取。有一个是把所有可能的参数都搜一遍,这实际上有更强大的工具来帮助你做这件事情。

我们应该是处在一个巨大的变革的早期的范围之内,第四次工业革命,从工业化、信息化、自动化到智能化,四化叠加。那么在这个阶段,大数据、深度学习结合起来新的AI,应该说正在蓬勃地发展。我们设计的AutoDL这个理念就是开放、普惠AI,如何让这些大公司的研发中心所拥有的这些能力都能开放出来,让我们的中小企业、让我们的初创企业、让我们的个人、让我们的研究机构,都能够用这些能力,更好地发展AI。

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023