2020 Techo开发者大会召开,腾讯多媒体实验室推出AI媒体内容生产平台“智媒”
2020-12-20 16:42:03AI云资讯728
12月19日至20日,由腾讯主办的年度技术盛会2020Techo Park开发者大会于北京顺利召开。本次大会邀请了200多位海内外专家和和数千位参会者就人工智能、多媒体等前沿技术话题展开交流。在视频通信云分论坛上,腾讯多媒体实验室总监李松南进行了《智媒-多模态与内容生产》的主题分享。

腾讯多媒体实验室总监 李松南
智慧媒体是指用人工智能技术重构新闻信息生产与传播全流程的媒体,由智能媒体、智慧媒体和智库媒体三部分构成。近年来,以主流媒体机构为代表的各媒体、企业等积极寻求媒体智慧化的演进策略,围绕媒体信息采集、媒体内容生产等方面,对智慧媒体的发展路径做出了一系列探索。日渐成熟的5G、人工智能、云计算等新一代呈现技术,正逐渐成为支撑智慧媒体发展的核心技术群。
作为腾讯旗下顶尖科技实验室,也是全球多媒体技术的领先者,智慧媒体是腾讯多媒体实验室的重点研究领域之一。李松南表示,近期多媒体实验室推出了AI媒体内容生产平台——智慧媒体,可以通过搭建基于跨模态(图像、音频、文本、语音)算法的多媒体内容分析和理解框架,实现媒体标签、分类、检测、摘要、内容描述等功能。
论坛上,李松南重点介绍了智慧媒体的内容生产。他指出,媒体内容包含视频、图片、声音及文字等多种形态,综合使用这些媒体形态的技术即为多模态技术。智慧媒体内容生产,就是通过人工智能的方式,自动化、批量化的生产这些不同模态的内容。
李松南用“无中生有”、“浴火重生”和“斗转星移”三个词来形容智慧媒体的内容生产方式。所谓“无中生有”是指从0到1,从无到有的创作过程,比如给AI模型一些随机的噪声信号,AI模型可以生成一首诗或一段钢琴曲。浴火重生”即同模态间的转化,比如输入一段音乐,输出也是一段音乐,只是弹奏这段音乐的乐器发声了变化,比如从钢琴变成了琵琶。 “斗转星移”是指不同模态之间的匹配或转化,比如视频与音乐之间的互相匹配,图片与文字之间的相互转化等。
截至目前,腾讯智媒的媒体内容生产能力已覆盖12种技术能力,部分能力已在腾讯云上的产品进行应用。李松南表示,未来,腾讯多媒体实验室会持续深耕多媒体技术,服务好腾讯内部产品的同时,通过腾讯云将技术进行输出,为社会创造更多价值。
以下为李松南演讲实录:
大家好,我是腾讯多媒体实验室的李松南,很高兴能参加腾讯Techo大会,为大家汇报多媒体实验室新近推出的AI媒体内容生产平台-智媒。汇报的副标题是多模态与内容生产。首先我来介绍一下多模态与内容生产的关系。
大家都知道,媒体内容包含多种形态,比如视频、图片、声音、文字等等。
做技术的同学把综合使用这些媒体形态的技术,叫做多模态技术。AI媒体内容生产,就是通过人工智能的方式,自动化、批量化的生产这些不同模态的内容。
这里,为了方便记忆,我们把AI媒体内容生产方式,归纳为三种,并且给每种方式分别起了一个符号化的名字,分别是“无中生有”、“浴火重生”和“斗转星移”。
下面我来分别介绍一下这三种方式。
首先是“无中生有”,顾名思义,是一个从0到1,从无到有的创作过程:给AI模型一些随机的噪声信号,AI模型可以生成一首诗,或者一段钢琴曲,或者一副高清的人脸图片,或者一段视频。
第二种方式,我们把它叫做“浴火重生”,是指同模态间的转化,比如乐器转换,输入是一段音乐,输出也是一段音乐,只是弹奏这段音乐的乐器发声了变化,比如从钢琴变成了琵琶。
最后一种方式,我们把它叫做“斗转星移”,是指不同模态之间的匹配或转化,比如,视频与音乐之间的互相匹配,或者图像与文字之间的转化。
第一种方式,实验室做了一些初步的尝试,正在寻找合适的落地场景,这里就不介绍了。接下来我会针对第二和第三种内容生产方式给出一些更具体的例子。
第二种内容生产形式,我们把它叫做“浴火重生”,指的是相同模态内容之间的转化。因为多媒体实验室的主要工作在视频上,所以下面我以视频作为例子进行说明。算法的输入是视频,输出也是视频。
视频处理就是这样一个过程,输入是一段视频,输出也是一段视频,是经过处理后的一段视频。这个处理过程可能包括了这段demo中展示的多种操作,比如减小压缩失真、提高分辨率、提高帧率、色彩增强等等;把高清的内容变成4K甚至8K,把普通的视频变成HDR的视频;甚至修复一段老电影,去掉老电影中经常出现的划痕、雪花,让老电影中的人物更清晰等等。视频处理是实验室长期投入的方向之一,我们正在与腾讯视频云、腾讯影业一起,通过画质重生、智能影视等产品,向外部企业提供优质的视频处理服务。
另外一个例子是视频的横屏转竖屏。我们现在看到的很多短视频内容都是竖屏的,而很多优质的视频内容都是横屏拍摄的。我们通过分析画面的显著区域,设计了一个自动的裁剪算法,将大量的横屏视频自动的转换为竖屏视频。这里给出了几个例子,大家可以看到,视频的主体内容在竖屏画面中都被保留住了,同时镜头的运动也很自然。我们通过大量的主观实现,与市面上的类似产品进行了对比,证实了我们算法的优越性。
还有一个例子是视频拆条与视频集锦。这里以足球视频举例,给算法一段90多分钟的足球比赛视频,算法可以分析出不同事件发生的时间段,比如角球事件、射门事件、进球事件等等,然后把这个长视频拆分成很多一段的一段的短视频。我们还可以把我们认为是精彩的短视频拼接在一起,形成一个精彩集锦,比如,对于足球来说,我们可以把射门、慢动作、进球等事件拼接起来,自动生成一段针对一场足球比赛的精彩集锦。
第三种媒体内容生产形式,我们把它叫做“斗转星移”,指的是不同模态之间的匹配或者转化。这张PPT里给出的两给例子,分别是图片到文字、视频到文字的转化。左边是一张图片,里面是一个商品,我们可以用算法生成对这个商品的描述,帮助商家更好的吸引顾客。右边是一段游戏视频,我们可以用算法自动生成对游戏中精彩事件的描述。
最后一个例子是视频配乐,输入一段短视频,根据对这段视频内容的分析,找到适合这段视频的背景音乐。自己做过短视频的朋友都知道,给短视频找一段称心如意的背景音乐很麻烦,而背景音乐推荐算法可以帮你节省很多时间。
好的,上述所有例子都来自多媒体实验室的智媒平台,这页ppt里例举了智媒平台目前提供的所有媒体内容生产能力,其中的一部分已经开始服务于腾讯云上的产品。实验室会通过腾讯云,持续的对外输入我们的技术能力。
感谢大家的聆听!多媒体实验室会持续深耕技术,服务好腾讯内部产品,同时通过腾讯云将技术进行输出,为社会创造更多价值。谢谢大家!
相关文章
- 腾讯与特斯拉共同升级座舱体验,正式上线微信互联与目的地服务
- 腾讯游戏启动2026寒假未成年人保护专项行动,AI功能助力家庭科学管控
- 腾讯云助力炫佳科技全新升级一站式AI短剧平台 平均制作效率提升90%
- 生态共赢 赞同科技携手腾讯云斩获三项大奖
- 绿联科技联手腾讯游戏:打造“NAS+游戏”新生态,突破存储设备功能局限
- 腾讯云 WeData 升级三大 Data+AI 能力,位居一体化数据智能平台市场第一!
- 腾讯云智能体开发平台升级:做深平台、做厚内容、做强应用,构筑Agent产业合作新生态
- 从工具辅助到认知革命:天立与腾讯的战略共振如何重塑学习未来
- 腾讯云发布 AI 数据湖解决方案,支持 CPU和GPU 混合调度
- 智效跃迁,架构无界,第三届腾讯云架构师峰会圆满落幕!
- 腾讯云ADP国内首发AI原生Widget:一句话秒级生成交互组件,重塑Agent使用体验
- 绝味食品牵手腾讯打造AI会员智能体 满足消费者多元化需求
- 腾讯视频与北京电影学院达成战略合作 共建“AI影视联合实验室”
- 高端消费科技品牌 xTool 递表港交所:个人创意工具全球龙头,腾讯领投 2 亿美元 pre-IPO
- 四川具身科技新品发布,腾讯云全栈AI能力助力提升机器人情感交互能力
- 腾讯云Valkey社区贡献位居全球第一,率先在国内支持8.0版本
人工智能企业
更多>>人工智能硬件
更多>>- 当AI学会“隐身”,手机才真正智能:三星Galaxy S26系列开启AI哲学的降维打击
- 全球首秀!讯飞AI眼镜亮相MWC,多模态同传大模型与极致轻量化设计 引领智能穿戴新风向
- 全球瞩目!荣耀携Robot Phone、Magic V6系列、荣耀MagicBook Pro 14 2026震撼亮相MWC 2026
- MWC直击:荣耀双旗舰搭载第五代骁龙8至尊版,助力智能手机下一代技术演进
- 联想moto首款“大折叠”手机MWC正式发布
- 三星Galaxy S26 Ultra上手:AI深度融入,防窥屏隐私防护太实用
- 复工提速!艾利特迈幸机器人助力3C行业智能物流打通“最后一公里”
- 移动办公需求增长 三星折叠屏手机成商务用户的“神器”
人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









