格物钛:建立公开数据集标准,赋能AI工程化落地
2021-11-05 11:57:19AI云资讯853
10月30日,由DataFun主办的AI基础软件架构峰会如约而至,格物钛作为AI基础设施领域的创业明星代表与谷歌、字节跳动、第四范式等顶尖科技公司一同亮相MLOps分论坛,格物钛算法负责人薛林继为线上观众带来了一场《建立公开数据集标准,赋能AI工程化落地》主题演讲。

过去十年,无论是阿尔法狗、自动驾驶,还是基因测序,人工智能技术已经开始走出实验室迎来了广泛的应用落地。在这些AI应用落地的背后隐藏了一套非常复杂的系统工程。除了算法的设计开发之外,也涵盖了定义问题,收集数据,特征工程,模型部署上线等各个环节。一套正确、简单、高效并且能规模化复制的算法需要对每一个环节做精细化治理,而非简单的工具链拼凑嫁接。
正如敏捷开发标准的建立帮助广大开发者实现了软件项目的高效敏捷迭代,k8s原生技术成为实施标准后使通用的应用开发编排伸缩变得更加简单。然而AI工程化领域尚未形成一套成熟的实施标准去帮助AI更好地落地。格物钛看到了数据对AI模型效果的重要性和数据获取的难点,为全球开发者、场景和数据的拥有者提供了一个公开数据托管和协作的平台并形成了一套与之匹配的数据使用标准。
格物钛薛林继认为,如果把数据比作食材,把模型比作厨艺的话,有一句话就可以非常好地去描述数据的重要性,那就是优质的食材往往只需要最朴素的烹饪方式。但无论从采集难度还是成本上来看,获取数据始终是个很困难的事情,因此很多研究机构和企业会选择求助于免费的公开数据集资源,很多顶尖的算法也都是以公开数据集作为标准诞生的。不可否认,公开数据集会成为未来AI创新的核心驱动力,它在很大程度上解决了数据获取的难题,同时以自己的形式构建新类型任务,去推动不同算法的发展。
经过很长一段时间的调研,格物钛发现现有公开数据集的存储方式十分散乱,缺乏统一的托管平台,这种各自为战的方式使得不同的数据集提供方会选择使用不同的文件结构和标注方式,这对数据的交换与分享是极为不利的,开发者很难根据自己的任务去精确检索到自己想要的数据集。像可视化、数据标签分布统计这些基础需求的实现都会因为格式不同发生一些变化,算法工程师需要编写更多的胶水代码和新的逻辑去适配这些不同的格式。

基于对上述痛点的洞察,格物钛认为需要建立一个统一的数据标准来降低数据理解和使用成本,从而去提升整个社区、企业内部的数据交换效率。
格物钛研究了1200多个公开数据集,从数据格式、标注类型、任务类型以及应用场景这四个方面制定了统一的数据集划分规范和标注格式的基础表示方法。在实施的过程中,格物钛将很多类型的数据集放在了公开数据集社区中,目前为止这套标准也是取得了很多社区成员的认可。在推广公开数据集标准的过程中,格物钛发现数据处理是需要很多基础服务的,这些基础服务可以通过数据平台的形式来实现,去解决企业在数据管理层面的痛点。

格物钛算法负责人薛林继认为公开数据集社区和数据标准的建立与推广是一个相辅相成的关系,社区为数据标准迭代提供了一个良好的实验环境,每当有一个新的数据集登录到格物钛公开数据社区的时候,都是对当前的数据标准做了一次检验。
格物钛公开数据集社区发展至今依旧面临不小挑战。首先数据集的种类太多,新的数据集层出不穷,只依靠单方的力量去制定标准很难跟得上最新的任务类型和数据种类。其次在一些企业端的场景中,企业数据并不需要去适配公开数据集的标准,用自己的标准就可以满足任务场景的需求。因此,公开数据集标准的设计也需要支持让使用的人自定义标准格式,然后以这种方式去适配多变的数据需求。薛林继在此呼吁希望不断有新的力量加入到社区建设中来,推动数据标准的迭代和演进,共同打造下一代公开数据集标准。
相关文章
- AI-Ready Data Platform:星环科技打造面向AI时代的数据基础设施
- 2026 挑战杯揭榜挂帅启幕 思迈特软件发布AI数据创新重磅命题
- 每日互动携个知·智能工作站亮相2026全球数据周 融入全球数字生态
- 筑牢数字中国底座 国产数据库从可用到引领的硬核突围
- 易智瑞时空智能解决方案:空间数据走向“问策“时代
- 聚合数据AI创作体验中心上线HappyHorse 1.0,原生音画联合生成赋能视频创作生态
- 共赴「芯」征程丨科华数据携手无问芯穹,与国产芯片厂商共同打造企业级“Token工厂”一体化解决方案
- 2026数字中国创新大赛总决赛圆满落幕,数据应用赛道创新成果引领行业发展
- 亮相国家数据局分论坛,云基华海第九届数字中国峰会释放数据要素新动能
- 浪潮 KaiwuDB 亮相 OpenClaw 开发者日,分享Agentic AI 时代数据底座建设思路
- 双奖加冕!中移互联网携“梧桐数盾”“梧桐数御”亮相第三届数据要素创新发展大会
- 清华大学数字政府与治理研究院携数据要素价值释放和场景示范应用成果亮相数字中国峰会
- 聚焦电力交易痛点:中科天机携手飔合科技,以精准气象数据为交易提质增效
- 契合OCP开放计算标准!瑞典希恩CEJN重磅推出两款全新数据中心产品: PBMC枢转盲插接头与液冷软管
- CAN/LIN诊断工具再进阶!聚焦车载与工业通信,Kvaser(克萨)免费通用工具CanKing 7.4.0重磅更新,搭载实时信号绘图功能,赋能总线数据高效调试
- 第九届数字中国峰会现场,趣链科技董事长李伟“三词箴言”定义数据要素流通新逻辑
人工智能企业
更多>>人工智能硬件
更多>>- BOE(京东方)OLED技术赋能联想YOGA Air 14 Ultra 定义超轻薄AI PC新标杆
- iQOO 15T正式发布:天玑9500 Monster版加持 全能体验无短板
- 从“+AI”到“AI+”:天禧AI 4.0加持,联想AI主机领衔L3级终端震撼登场
- 拾年匠音,声来不凡,致敬1000X系列十周年 索尼发布1000X十周年典藏版头戴降噪耳机
- 出游露营正当时 三星Galaxy手机全方位守护你的户外体验
- 拯救者Y900系列生产力大屏AI平板正式发布,学娱场景随心换,打造新一代旗舰终端
- 智慧陪伴 定格浪漫 三星Galaxy A57 5G让你的520心意满分
- 短途出行机器人QUORRA X5出海订单覆盖欧美,头部资本加持正奇未来布局全球
人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









