多模态深度语义理解:让AI从“看清听清”到“看懂听懂”
2018-07-09 16:16:56AI云资讯1188
“多模态深度语义理解能让机器听清、看清,更能深入理解它背后的含义,深度地理解真实世界,进而更好地支撑各种应用。”百度高级副总裁、AI技术平台体系(AIG)总负责人王海峰表示。

日前,在百度AI开发者大会(Baidu Create 2018)上,王海峰发布百度大脑3.0。百度大脑3.0的核心是“多模态深度语义理解”,包括数据的语义,知识的语义,以及图像、视频、声音、语音等各方面的理解。
如何实现从“看清听清”到“看懂听懂”?
视觉语义化可以让机器从看清到看懂视频,并提炼出结构化语义知识。百度视觉技术部、人脸技术部、增强现实技术部总监吴中勤介绍,视觉语义化技术首先识别人、物体和场景,同时捕捉它们之间的行为和关系,通过时序化、数字化、结构化的方式形成语义知识,最终结合领域和场景进行智慧推理,落地行业应用。
未来,视觉语义化技术还可进一步延展,它结合新型的传感器和AI芯片,可以在感知层面和计算层面得到大幅提升;结合手机可以带给用户更佳地使用体验。
语音技术的升级则让机器更好地听懂世界。百度语音技术部总监高亮表示,百度基于远场的语音语义一体化技术已取得突破,可为业界提供更顶尖的远场语音技术。
语音语义一体化将远场交互中高频Query识别准确率提升10个点,并保持普通Query识别率不降;多语种混合声学建模基于Deep Peak2大幅提升中英文混合Query识别准确率,相对错误率比业界最好竞品降低20%;新升级的TTS技术业界首创传统拼接技术与Wavenet技术融合方案,保证合成质量的同时大大降低成本,让大规模应用落地成为现实。
在对话理解方面,百度理解与交互技术平台UNIT升级至2.0,进一步增强冷启动能力,支持像人类一样在对话当中学习,同时开放了第一个工业级对话系统开源框架,降低搭建门槛,让开发者无缝对接云端。
将自主研发的芯片纳入技术体系
数据、算法、算力是影响人工智能技术发展的重要因素。王海峰表示百度大脑3.0首次将芯片纳入技术体系,带动百度大脑算力爆发式增长。百度自主研发的中国第一款云端全功能AI芯片“昆仑”也在会上首次亮相。未来,AI芯片将与百度自主研发的PaddlePaddle深度学习框架相结合,推动百度AI产业生态快速发展。
百度在2016年正式开源的PaddlePaddle,如今也迎来了PaddlePaddle3.0版本。百度AI技术生态部总经理喻友平对此进行了详细解读。PaddlePaddle3.0包括完整的核心框架,以及AI Studio、AutoDL、EasyDL等可以让开发者获取AI能力的平台。
PaddlePaddle3.0核心框架对服务器版本以及移动端版本进行了全面优化,PaddlePaddle Fluid提供丰富的满足常见主流模型搭建需求的API,支持广泛的模型搭建,训练Runtime可以满足各类型的模型训练需求;PaddlePaddle Serving可灵活适配多种预测引擎;PaddlePaddle Mobile集成百度移动端预测的实践经验,提供多平台支持。
百度大脑升级至3.0是百度AI技术的一次跨越式升级,王海峰强调,“百度AI能力的核心是百度大脑,百度大脑3.0是百度AI能力的集大成者。”未来,百度将逐步把基于百度大脑的技术突破开放给相关的开发者和企业。
相关文章
- 物理世界智能的优化:从文本思考到多模态思考
- 深耕AI+音视频二十载,佰锐科技多模态行为风险识别跻身行业第一梯队
- 数据的第三种形态:艺恩如何为大模型提供多模态的数据弹药?
- 算力与模型同频共振:天数智芯Day 0 深度适配 SenseNova U1,共筑多模态AI新底座
- 专攻AI供应链治理痛点!多模态SCA智能情报驱动,以AI治理AI实现全域风险可控!
- VPU:多模态AI时代下的视频算力变革
- 海康威视徐习明:聚焦感知多模态大模型,为中国制造业发展服务
- 天数智芯完成Qwen3.5 多模态模型全量适配 全栈技术筑牢生态适配硬实力
- 直击AI多模态媒资痛点!当虹科技荣获浙江省科学技术进步奖
- 小度全系产品将集结亮相AWE 2026,“超能小度”多模态能力成最大看点
- 全球首秀!讯飞AI眼镜亮相MWC,多模态同传大模型与极致轻量化设计 引领智能穿戴新风向
- 合合信息发布多模态大模型文本智能白皮书,破解复杂文档处理困局
- 合合信息发布多模态大模型文本智能白皮书,五大核心能力标准引领复杂文档处理变革
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 三维天地推出多模态数据湖产品SW-DBLake,重新定义AI时代的数据基石
- 从“物理堆叠”到“化学反应”:喜相逢以多模态融合重塑智能驾驶感知生态
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









