AI的新田园牧歌：反碎片化是AI+农业的关键-爱云资讯

中国的农耕文化,是世界上最早的文化之一,也是对人类影响最大的文化体系之一。

在距今10000～8000年间,中国早期农业已形成了以水稻为代表的南方水田农业和以粟为代表的北方旱作农业两大系统,并在这个格局中,孕育了辉煌灿烂的中华文明。

也许在你的印象中,农业就是田园牧歌,就是面朝黄土背朝天,这或许不假,但并非全部。

9月10日,国际粮食减损大会在济南开幕。会上指出,全球新冠疫情、国际性冲突战乱和气候变化三大挑战,使得全球粮食系统面临前所未有的压力,2020年全球共有7．2-8．11亿人口面临饥饿威胁,全球近1/3人口无法获得充足的食物与营养。

相比之下,中国的粮食无论从总产还是单产,都不断在提升。从我国粮食生产的能力和水平来看,我们国家粮食安全总体形势是好的。但是,对于一个15亿人口的大国,对于一个人均耕地在全球中下的现状,只有通过科技创新保障粮食安全,才能让中国人的饭碗始终能够端在自己手中。

而AI这种最新的前沿科技,已经在默默地为中国的农业发展贡献着力量,而其中开拓者的艰辛与努力,值得我们敬佩。

闯过农业AI化的第一道难关

在写AI是如何为农业插上科技的翅膀之前,我们首先有必要纠正一些刻板的印象。

很多人或许认为,作为古老的第一产业,农业距离AI这种数字技术极为遥远。

这个印象不能说完全错,但也并不完全正确。

首先,从国策的角度来说,让农业插上数字智慧的翅膀,并不是昨天或者今天才开始的。而是早在2014年,我国就提出了“智慧农业”概念,而到了2016年“智慧农业”就首次被写入“中央一号文件”。

如果对照一下时间表,会发现国内AI头雁百度在2013年成立深度学习研究院,在2016年推出了目前全球TOP3的深度学习平台——飞桨。

换句话说,智慧农业的提出和落实,几乎是和国内AI产业发展的前沿时间线是完全重叠在一起的。换言之,这是一个宏观环境和具体创新几乎完全同步的领域。

中国的智慧农业,开局就踩在了AI大发展的时间点上,这对我们来说,不能说不是一种幸事。

而2016年之后,每年中央都会出台新的政策规划鼓励智慧农业的发展,而中国的AI体系建设也不断发展,这两条路径始终伴随和交叠。

但也如大多数人想象的一样,农业的确和政企、金融等领域不一样,后者拥有完整的信息化基础设施,AI的加入,是在原有良好基础上的转型升级;而对于农业来说,数字化和智能化,几乎是同步拉出一条跃迁曲线。

大家大概都知道,AI的三要素是算法、算力和数据,其中数据扮演着燃料和土壤的角色,而对于古老的农业来说,AI破局的首要关口,也正是数据关。

伯乐相马,是一个千古流传的典故。“常有千里马,而不常有伯乐”,也从一个侧面说明,在没有科技手段加持的情况下,要分辨牲畜的品相,是一个相当困难的工作。

相传伯乐是春秋时代的人,距今有2000多年的历史。而在现实中,另一种历史悠久的农耕动物——牛,它的交易、流通环节,整体仍呈现出一种较为原始的模式。

就拿通辽市来说,这里的活牛年交易规模200万头,交易额200亿元,辐射全国大部分省市区,产业发展处于全国领先水平。

而在这里,大多数牛的交易仍集中在线下的牛市,每逢开集日,各大牛市人声、牛声、车声鼎沸,但是,牛的议价环节长期由“牛经纪人”掌控着,他们的“相牛技艺”让牛的定价不够清晰透明,极易造成信息不对称。

但是,人们也不得不承认,造成信息不对称的,是牛经纪人确有绝技,一位熟悉牛市的人告诉笔者,仅仅凭着肉眼的观察,这些经纪人就能知道一头牛有多重、一天能长多少斤,甚至还能知道小牛犊养到最后是赚是赔,其中的高手,一眼就能将牛只重量误差控制在5斤以内。

蓝奥云牧作为内蒙古畜牧服务行业重点企业,是中国畜牧业协会(CAAA)会员单位,他们一直在筹划一件大事——能不能用AI的一双慧眼,把沉淀千年的相牛绝技,实现标准化、数字化,提炼出其中的经验沉淀,最终变成一种可以便捷使用的能力,从而打通牛的流通环节中最难的一道关卡。

他们找到了百度,用“相牛人”的故事,打动了飞桨团队。

对于飞桨来说,算法和算力,都不存在问题,然而问题卡在第一道关口上——训练一套成熟的“相牛”模型,需要大量的数据。

这里就体现出农业AI化的门槛——对于一个落后、非标准的领域,没有任何数据积累,甚至如何采集数据、采集什么样的数据才能训练出有效的模型,都没有现成的路径可以依赖。

飞桨的工程师驻扎到了通辽,没想到,这个项目一做就是三年。

早期的数据收集,尚做不到开发“火眼金睛”,首先要解决的是体重、尺寸等比较好抓住特征的显性数据,而由于没有任何基础,飞桨团队必须通过人工拍照和测量来采集活牛数据。

笔者随着飞桨的工程师参加了一次数据采集——三点钟就要起床,很多人身上、腿上,都留下了牛踢伤的累累伤痕,然而尽管如此,好几个工程师与牛场工作人员起早贪黑,一天却最多只能测量不足十头牛的数据。

几个飞桨工程师——你或许对这个数据无感,但在AI人才非常稀贵的今天,即使在百度,这也是一笔非常惊人的人力资源开销,要知道数年后,百度支持国家跳水队开发出一套AI辅助训练系统,派出的工程师也是以个位数计算的。

显然,长此以往的操作,不仅会让项目严重拖期,也会产生巨大资源耗费。

为了突破数据难关,飞桨的团队成员经过几个月的摸索和尝试,终于研制出一套“立体三维点云数据采集装置”,这套装置包括专门定制的两台3D摄像头和3D成像模型系统,当牛从过道中有序经过时,过道两侧的摄像头便可以快速采集到牛的各种体尺数据和点云数据,并进行实时三维建模。

这里不得不提及一个利器——飞桨企业版EasyDL的EasyData智能数据服务平台,可以提供一站式数据服务工具,主要围绕AI开发过程中所需数据的采集、清洗、标注等提供完整的数据服务。

大家可能知道有个职业叫数据标注师,但对于大量中小型企业、项目来说,人工标注的成本极其高昂。

比如我们刚才提到了摄像头,其实,一个远低于相牛项目中使用的、最低端的130万像素的摄像头,在2M码流的情况下,连续工作一天24小时,将会生成约21G的视频文件,如果依靠人来标注将是巨大的工作量。

对于相牛项目来说,如果有一道分水岭,那就是手工采集+标注到自动采集+EasyData一站式处理的飞跃,这里面不仅是从几头、几十头牛的有效数据到数千头的差别,更是数据处理过程的高度自动化、智能化的过程。

经过近三年的“养牛”生活,飞桨团队成员已采集到2000余头有效的活牛数据,并在牛场进行初步测试,也终于使这套系统具备了扩大规模部署的能力,这是一个典型的AI赋能农业中,闯过数据关的故事。

同样,在北京的大兴区长子营镇,由裕农、京东方后稷、百度智能云联合打造的现代化水培植物工厂中,工程师们也遇到了数据难关。

这里,是现代农业的一个缩影,没有土壤,却有厂房——郁郁葱葱的芝麻菜、鸡毛菜和奶油生菜等平铺生长在数百块种植板上,种植板下流动的是精准配置的营养液,能提供蔬菜生长所需的所有营养。

然而,这样现代化的厂房,却有一个严重不足——终究需要人眼来判断蔬菜的长势,为此,厂里唯一一位农学专家李开每天都要走上两三万步亲自巡场,过年也不能休息。

为了开发出一套可以基于AI视觉观测蔬菜成长的系统,飞桨的工程师同样遇到了数据难关——在蔬菜生长的全周期,每天都要雷打不动的收集数据,每天上午、下午需要在固定高度、位置、光线下拍摄照片,并对照片完成标注。

笔者了解到,最开始、也是最常用的方法是,给蔬菜拍照,一张照片拍下6块种植板,每块种植板上有56棵菜,相当于需要标注300～400棵菜。

这里有一个专业术语——“克重”,这是指在一个标准的计量单位下,以克的重量单位的多少为计量标准,一种蔬菜的“克重”训练需要标注9万棵蔬菜的原图。

EasyData再次发威,通过这套系统,人力只用标注30%左右的数据,其余的数据都可通过智能标注功能自动完成。

但即使如此,飞桨的工程师还不满意,毕竟3万张原图的标注也是一个非常巨大的工作量,为了进一步减少标注的工作量,他们又开发了一种新方案:一张照片只需拍1块种植板,每块种植板种56棵菜,采集一个生长周期需要45张图,总计为2520棵菜。

从9万棵菜到2520棵,这种新方法的标注工作量直接降低了97%,从而实现了以极少的标注量获得成千上万张训练数据,现在已经有好几个模型开始使用新方案。

然而,数据只是农业进入AI的第一道关口。

反碎片化是AI+农业的关键

我们都知道,AI目前正在走向大规模落地的过程中,但这个过程并不一帆风顺,其特点就在于即使耗资钜万训练出来的强大模型,在实际部署中仍然需要二次、多次开发,而由于AI开发人员的稀缺,使得需要多次开发的项目很难具有真正的费效比。

而这还是发生在信息化程度已经很高的领域里,大家可以想见的是,既懂农业又懂AI的人才该有多么稀缺。

围绕这个问题,行业的解决思路有了分歧,有人认为,部分AI企业应该加强工程化能力的建设,但这虽然解决了落地难,却没有在本质上降低成本,而成本才是大规模普及的关键要素。

百度则采取了另一种思路,一方面大规模普及AI教育,提出了5年培养500万AI人才的计划;另一方面,百度又坚信,只有把使用AI的能力真正交到使用者手中,才能从根本上降本增效,并具备持久的反碎片化能力。

前文提及的EasyData正是这种思想的产物,而EasyData则是EasyDL的一部分,EasyDL是一套世界领先的、能够让应用者实现零算法基础定制高精度 AI模型的工具,目前已有超过90万企业用户,在工业制造、安全生产、零售快消、智能硬件、文化教育、政府政务、交通物流、互联网等领域广泛落地。(关于EasyDL可以参阅本号前文《深科普:走近EasyDL》)

如果说EasyData帮助AI+农业落地闯过了数据关,那EasyDL就实现了农业AI化中的反碎片化,把使用AI的主动权交到了真正的务农者手中。

病虫害是农作物减产的主要诱因,据全国农作物病虫测报网监测和专家会商分析,2021年小麦、水稻、玉米等粮食作物重大病虫害呈重发态势,预计全国发生面积21亿亩次,同比增加14%。

在上万年的农业生产史中,“虫口夺粮”是一个贯穿始终的主题,但这一工作的最基本要素——虫情监测,是最初依靠务农者的经验,而后是依靠专业技术人员完成的。

宁波微能云数据公司就是想靠AI“死磕”虫情监测的一家创业公司。

这套系统的核心原理并不复杂——利用昆虫的趋光性,将害虫吸引到灯下,杀死害虫后自动拍照,然后将图片上传至云端服务器,并利用百度的AI能力,对六种水稻常见害虫进行分类与统计,进而为技术人员指导水稻田内农药、化肥的使用配比与相关操作提供决策依据。

这一切的核心关键在于,如何开发一套微能云智能虫情测报系统,并自行升级、开发、扩展这些能力。

如果在两三年前,最好的办法可能是请百度的工程师驻场指导,但随着AI应用的普及,百度自身的AI技术人员即使全部用于AI的社会化落地,也远不敷分配。

说到这类问题的解决,就不得不提及EasyDL所植根的基础——百度飞桨产业级深度学习平台,这一平台推出五年后,市场份额从零起步,已经成为中国第一、世界前三的深度学习平台,其“产业级平台”的特性,更使得其指向非常精确——这一平台集成了数百种从产业实际环境中抽离出要素后精心开发的基础模型,这些模型可以根据用户的需求,幻化为几万、几十万种模型,解决难以计数的碎片化能力。

可以说,EasyDL是飞桨的超轻量版,也可以说,EasyDL是飞桨的便捷入口……无论如何譬喻,这一工具的本质还是为了解决千千万万碎片化场景的解决者如何能够在零算法门槛基础上使用AI的能力。

说来也简单,要解决微能云的问题,其实飞桨EasyDL早有成熟的方案——AI物体检测模型,而工程人员要做的就是,用EasyDL开发出一套具体可用的的害虫计数与种类识别模型,然后将之变成一个API接口,从而实现极为简便地部署,帮助农业种植户远程自动化采集虫情信息,准确地预测虫害的发生。

AI的一个好处是,一类精心训练的能力,可以有效地泛化为诸多的小模型,解决方方面面的问题。

例如,大家都知道百度是无人驾驶领域的国家队,那么,能够在极端复杂的城市交通环境中应付裕如的无人驾驶能力,在场景相对单一的农业机械的应用中,就更具备了降维打击的能力。

熟悉袁隆平院士生平的读者大概都知道,水稻是我国三大主粮之一,而水稻田的田间管理复杂、重复度高(诸如打药、锄草等)且工作极其繁重,客观上成为了诸多务农者跳出“农门”的动力之一,而如果能够开发出一种农业机器人,可以自动驾驶,可以根据水稻秧苗的种植情况实时调整航向,避免压苗等情况出现,更好地保养和管理水稻秧苗,这无疑是中国水稻文明史上的一次革命。

去过农田的人知道,水稻是按列种植的,列与列之间近似互为平行,似乎这对于自动驾驶来说是“小菜一碟”,但事实上,由于不同时段的光照条件、水田里的浮萍、蓝藻等与秧苗特征相似的植物夹杂生长等要素,真正要精确驾驶,并不是一件容易的事。

如果说EasyDL是一套列装齐全的轻武器库,那基于飞桨平台的开发套件,就是一套重武器体系。

图像处理是自动驾驶的基石之一,而其中的一个重要环节就是图像分割,也就是从一张自动拍摄的图片中分割出特定的要素,这一领域是诸多深度学习模型竞争的焦点,而飞桨的图像分割开发套件PaddleSeg,无疑是诸多方案中的佼佼者。

苏州博田的工程师需要考虑的是,如何把秧苗按“列”从背景中分割出来,再在这个基础上,实现秧苗“列”的中心线的精准提取。

而他们惊喜地发现,这个问题其实早就被飞桨的工程师解决了,而解决方案是一个名为Image Cascade Network(ICNet)的语义分割网络,这套系统可以在高分辨率图像的准确性和低复杂度网络的效率之间获得平衡,从而加强实时处理的能力。

△从左到右示意图:

图像分割结果示意图、原图特征点提取示意图、秧苗列中心线提取结果示意图

“飞桨是一个宝库,但如果要入宝山而不空手回,需要深入地了解这个体系,而这不是一天就能实现的”,苏州博田的工程师指出了问题的关键——事实上,在发现对应的模型后,剩余的工作变得相对简单——基于ICNnet实现了秧苗列中心线的精准提取后,准确率能达到95%以上,处理每帧图像耗费的时间仅300ms左右,完全满足农机作业环境下的速度要求。

这其实是告诉我们,有时候,所谓的AI化也未必是一次艰难困苦的长征——现代农业的工业化、自动化已经有了很好的基础,其向智能化的飞跃,并非需要全局推翻重来,而在于是否能找到AI化的关键点。换言之,绝大多数的基础能力已经储备在飞桨里,而部署和调用也极大的简化,真正考验的是找到那个能扭转全局的关键要素,一个从自动化到智能化的关键点。

显然,更适合找到这个关键点的,不应该是AI应用平台的开发者,而应该是这一应用的最终用户——他们熟悉需求、了解系统,他们积累了大量的know-how并且深知问题的关键,让他们提出解决问题的路径,比让百度的AI工程师从熟悉一套陌生的环境再去找解决方案,要有效且直接的多。

但问题的关键就是,这些人往往是某个领域的专业人士,但并不一定具备AI的思维和视角,他们需要EasyDL这样拉低门槛的开发工具,但更需要的是一套基于AI去解决问题的思维习惯,如果没有这套思维,就永远也无法实现AI能力和现实问题的碰撞。

任何革命,首先是思想的革命,然后是工具的革命,最后才是真正的变革的到来,AI的发展,也必须遵循这个规律。

所以,我们除了看到百度不断的用工具降低AI的门槛,更关注到AICA首席AI架构师培养计划的推出,这一计划专注于深度学习产业落地和应用,让“AI的火种们”可以与百度最有经验的专家闭门研讨,从剖析百度AI生态企业中业务需求与AI技术结合的典型案例中学习,最终为中国产业界培养高端复合型AI人才。

始于工具,强于平台,而决胜于人才,这是百度AI生态的一个重要特点。

目前,AI行业正在渡过黎明前最黑暗的一段时间,从资本市场到商业落地,一次强烈的爆发已经酝酿很久但迟迟不来。

其中的关键正是场景碎片化,无论是百度还是所谓的“AI四小龙”,以及近五年内崛起的上万家AI创业公司都遇到这个问题——即缺乏一种能够提供正向费效比的通用方案,使得强大的AI能力在部署时需要大量的二次、三次开发,这成为AI发展命运的咽喉。

资深的分析师甚至指出,如果不突破AI大规模落地的碎片化问题,AI甚至可能迎来史上的第三次冰封期。

对于很多早期AI公司来说,人们再用一种理性的角度来审视时,会发现其动人的故事往往是针对某一特定领域的定制方案,而这些方案在解决泛化问题时往往费效比极低。

AI企业讲故事的日子已经结束了,现在到了兑现承诺的时候——而在这个过程中,我们暂时还没有发现比“授人以鱼不如授人以渔”更好的方法,从这个角度来说,零门槛工具、开发套件是一方面,人才、生态的培养又是另一个方面,我们不能希望百度靠一己之力解决全部问题,一个健全的生态才是更好的路径。