百度语言与知识峰会开幕 吴华发布数据、算力两大重磅计划
2020-08-25 16:16:22AI云资讯861
近年来,尽管自然语言处理技术飞速发展,但在模型鲁棒性、可解释性、复杂知识表示与文本融合、跨模态语义理解等方面依然面临挑战。为了解决自然语言技术发展中所面临的挑战和推进中文信息处理技术的进步,8月25日百度大脑语言与知识技术峰会在线上召开,百度联合中国计算机学会、中国中文信息学会共同发布“千言”数据共建计划(网址:https://luge.ai)。同时,百度技术委员会主席吴华发布了算力共享计划,希望通过数据集的共建与算力的共享,与学界、产业界共同推进技术进步。

百度联合中国计算机学会、中国中文信息学会共同发布千言数据共建计划
目前,“千言”项目第一期已涵盖7大任务、20余个中文开源数据集,由百度携手哈工大、清华、中科院信息工程研究所等在内的10所顶级高校、企业共同建设完成。吴华表示:“我们希望通过这些计划,与业界同仁一起解决中文信息处理技术发展中的挑战,并在世界范围内建设中文信息处理影响力。”
除两大重磅计划公布外,此次峰会凝聚了百度在语言与知识领域十年的技术积累和产业实践。百度CTO王海峰发表主旨演讲,解读了百度语言与知识技术的发展历程、最新成果及趋势展望,百度集团副总裁吴甜重磅推出5款产品的新发布,加速技术大规模应用发展。
共建中文开源数据集 “千言”计划应对语言与知识技术应用新挑战
让机器像人一样理解语言、掌握知识的自然语言处理技术,是人工智能中认知智能的核心;对语言信息的处理能力也是一个国家的核心竞争力。我们每天都在使用的搜索、翻译、信息流推荐、时刻回应你每个需求的智能助手等,背后都是语言与知识技术在发挥作用。
这样大规模的产业化应用也对技术提出了新挑战。包括模型需要具有全面的、处理多个子任务的能力;在跨领域数据上具有较好的泛化能力;在应用中有足够的鲁棒性以保证安全等等。此外,这些大规模应用对语义理解提出了更高的要求,要求模型具备一定的常识、背景知识甚至推理能力;同时随着内容承载形式的多元化,也需要模型具有多模态融合的内容理解能力等。

为应对以上问题,百度联合中国计算机学会、中国中文信息学会共同发起了“千言”数据共建计划,携手高校和企业的数据资源研发者共同建设中文开源数据集。在此次峰会上,百度技术委员会主席吴华、中国中文信息学会副理事长兼秘书长孙乐、中国计算机学会自然语言处理专委会主任周国栋共同解读了“千言”数据集,“千言”的目标是覆盖丰富的任务类型,从语义理解、知识融合、跨模态融合等角度推动技术进步,同时提供能进行多维度综合评价的数据集,从而评价模型的全面性、泛化性和鲁棒性等。
截至目前,第一期千言项目已涵盖了7大任务、20余个中文开源数据集,包括开放域对话、阅读理解、机器同传、情感分析、语义解析、信息抽取和文本相似度等。由百度携手来自哈尔滨工业大学、清华大学、中国科学院信息工程研究所等10所顶尖高校和企业的数据集作者共同建立完成。

为了使千言能够提供一站式的数据浏览、下载和评测的科研体验,百度还对所有数据进行了处理,每个任务都有统一的数据格式和评测,并在此基础上提供了基线系统,帮助加速模型的研发。
吴华表示,在未来3年中,千言计划面向超20个任务,收集和建设不少于100个中文自然语言处理数据集,全面覆盖知识图谱、语言理解、语言生成、跨模态融合、NLP 应用系统等多个领域。也期待更多数据集作者能够加入共建,共同推动中文信息处理技术的进步。

推出算力共享计划!百度全力支持语言与知识技术开发者、研究人员
除数据外,算力是语言与知识技术发展中面临的另一大挑战。超大规模深度学习模型带来显著效果提升的同时,算力的需求也呈现出指数级的增长。算力的缺乏已经成为了许多开发者、研究人员进行技术研发的一大瓶颈。
为此,百度正式发布了语言与知识算力共享计划。通过AISTUDIO平台,百度将提供算力支持,为语言与知识技术开发者助力。吴华表示,后续百度会邀请“千言”数据集的使用者,百度语言与知识开源开放的用户以及更多的中文语言与知识技术开发者、研究人员免费使用这些算力。
传承千年的中文铸就了璀璨的华夏文明。在当下的人工智能时代,百度也希望与学术界、产业界携手,共同推动中文信息处理技术的进步,以智能技术学习并传承凝练于中文语言中的无尽宝藏。
相关文章
- 告别B2B“增长焦虑”,百度爱采购2026开年一课揭秘中小企业如何靠AI实现“降本增效”!
- 百度举办北京首场“龙虾”市集,现场发布零部署服务DuClaw
- 百度App开学季上线文心老师,打造免费学习机
- 让国宝“在线重生”:百度百科3D复原圆明园十二生肖喷水铜兽,沉浸式呈现历史细节
- 2025年百度AI原生营销服务收入同比增长301%
- 百度商家智能体对话近450万次,数字人线索直播助力商家转化率涨三成
- 500万用户追捧!百度地图岳云鹏文心AI副驾对话破亿,春节互动数据亮眼
- 白龙马变身文心AI副驾?岳云鹏携手百度地图上天津春晚,送出2亿红包!
- MongoDB与百度智能云达成战略合作,打造全球领先的AI原生数据库生态
- 百度百科推出国际版BaiduWiki,正式迈入全球化知识服务阶段
- Omdia报告:百度智能云领跑中国具身智能AI云市场
- 《运输策略蓝图》发布 百度杨楠:香港是孵化自动驾驶业务的宝地
- 百度千帆启动开发者大使计划 携手行业先行者共建Agent繁荣生态
- 诺科达智驾亮相百度 Apollo 生态大会,荣获 2025 年度杰出应用奖
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 手机也能用OpenClaw了!百度智能云发布移动端接入方案
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









