RTE2023｜圆桌对话：AI如何赋能实时互动体验改善及场景创新？-AI云资讯

今年以来，由ChatGPT引发的AIGC浪潮席卷全行业，AI大模型正在被应用于各行各业的效率提升与产品研发上。就社交泛娱乐行业而言，不断进击的AI技术带来了怎样的互动体验改善与场景创新？在落地的过程中，又面临着哪些技术上的瓶颈与挑战？

在RTE2023 实时互联网大会上，喜马拉雅首席科学家卢恒、Soul App技术副总裁张高政、小红书音视频架构负责人陈靖、商汤科技商务总监&数字文娱事业部副总裁李星冶围绕相关话题展开了圆桌探讨。

以下内容基于圆桌讨论内容进行整理，为方便阅读略有删改。

Q1：AI技术已经发展很多年了，大家觉得此次AI大模型的浪潮与之前的AI技术相比，对各自的业务影响有何不同？

卢恒：喜马拉雅是全国最大的有声内容平台，我们从文本处理到音频内容生成过程中使用了大量AI技术。以话本工作为例，喜马拉雅之前在演绎小说原著或篇章时，会对小说进行海量标注，现在基本上可以用AI完成了。我们结合大模型做了很多优化工作，在话本出来之后，我们会把它送到后端支持多情感的系统里，让它自动挑选用哪个音色去进行当前句子演绎，几乎已经达到完全自动生成多情感音频内容的阶段，在角色分配、情感理解、甚至是韵律预测上，都变得更加精准。现在，喜马拉雅大概有3.7万本小说音频都是结合AI技术生成的，AIGC生成的音频内容日均播放量超过250万小时。

张高政：我认为有两点对社交行业比较重要。首先，大模型的理解将带来内容生产效率提升与门槛下降，对于UGC类的平台和用户都非常有利。随着大模型多模技术的发展，以前不太喜欢表达或不擅长表达的用户，都可以通过大模型去生产文字、图片、视频，并以更多维的方式去表达自己，展现自己，在UGC平台上，大模型将是一个很重要的工具。

其次，随着社交行业虚拟人、虚拟陪伴、智能对话等现象级产品的爆发，用户越来越能接受人机对话的互动形式，现在的bot也可以通过大模型变得更加智能、流畅、有情感，这种变革会带来社交关系的代际变化。

陈靖：先谈一下我对AI过去与现在的认识。过去的AI，更倾向于处理偏固定性的问题，或者更偏专用、小范围的具体问题，比如识别类。现在的AI，一是很通用，二是更有娱乐精神，更适用于泛娱乐行业。

起初，我们最担心的是生成式内容创作会不会影响社区真人创作氛围，大家都在讨论如何避免AIGC在我们平台失控，与此同时，我们也担忧未跟上AIGC的脚步。之前搞了一个黑客马拉松，看到了一些非常有趣的idea。虽然现在很多项目还没有落地，但我们都在持续的研究。

李星冶：相比传统的AI浪潮，这波大模型核心体现出来的是大。

第一是对大算力的要求。商汤科技的上海临港AIDC是全国最大，也是亚洲最大的人工智能计算中心之一，还在广州、重庆、深圳、福建等地打造了多个区域级算力中心，储备了很多计算资源，目前看来边际效应还是递增的状态。回过头去看，当时的做法很正确。

第二个是大模型的参数量上。商汤的模型数量增长迅速，仅去年到现在，短短一年，基本上翻了一倍。所以，从模型数量上也体现了其泛化的特点。

第三个是它的应用空间很大。今年我们成为了拿到网信办首批AI大模型牌照的8家公司之一，也做了一些像商汤如影、商汤格物等应用，但我们的目的不是为了去做C端的运营，而是作为技术厂商，需要更往前走一步，看看C端的痛点在哪。只有拿到用户的真实需求反馈，才能服务好客户的对应场景需求。

Q2：在落地实际的业务与场景时，大家遇到的痛点和挑战是什么？

卢恒：我们在落地的时候确实碰到了很多痛点和挑战。首先，要真正做好一个虚拟陪伴机器人、AI主播与用户进行交互，其算力成本非常贵。也就是说，如果要向C端大量提供这样的服务，本身的成本以及工程上的实时化要求就非常高。所以这块还需要做大量的工程化工作，促进算力的获取和保障。另外，虽然现在大模型的通用能力很强，但真正对于一个AGI来说，除了逻辑和智商之外，可能还需要情感表达这样的EQ能力，目前来看是有所欠缺的。

张高政：我们这边面临两个挑战。第一，AGI爆发之后，我们在思考用通用大模型，还是在垂直领域做更有人格、情绪化、情感温度的大模型。后来慢慢发现，社交行业的通用模型能解决四五十分的问题，但如果想让智能对话能力变得更人格化，通用AGI就无法满足。第二，现在的大模型几乎可以代替所有的业务模式，但对社交来说，需要的并不是简单的一问一答，而是综合的互动体验。否则就无法产生粘性和深度的关系网络。我们在大模型的应用上，除了Chatbot以外，还要配合音乐、图像的生成使用。如何推进AI新技术与社交场景的深度融合，如何借助AI工具产生更具参与感、趣味性的社交玩法，可能将是社交行业存在的一个挑战。

陈靖：大模型落地的痛点和挑战不光是技术和成本，还有一个挑战是，对于很多公司而言，说清楚一些AI大模型项目的必要性是一个巨大挑战，很多项目并不像利用AI去做体验增强那样，能够跟用户留存及转化的一些指标建立关联。

李星冶：站在我们的角度，我认为有两点。

第一，在服务C端流量产品时，算力、带宽、智力相关的弹性储备是一个很现实的挑战。比如某偏图像社区的产品，日常输出速度上限是每10秒钟200张图，但遇到万圣节等营销节点时，可能会变成至少2000张图。这背后都涉及到与算力相关的弹性储备。

第二，大模型开发厂商该如何平衡投入以及预期收入之间的关系。现在行业内大模型真正能够落地产生商业价值的并不多。只有随着行业慢慢进入深水区，才会有更多更合适的产品和技术供应方诞生，共同打造好的行业生态。

Q3：在大家已经做的尝试和探索里，能看到哪些实时互动领域业务体验的改善，或者是玩法创新？

卢恒：以内容搜索和推荐为例，此前用户想在喜马拉雅上搜索喜欢的内容，更多的是直接搜索专辑或书籍名字。大模型出来后，就可以完全根据相关算法去了解用户的想法和意图，并推荐一些适合当前听的内容，提升搜索效率和用户体验。

张高政：我分享三个案例，第一个是Soul自研的让人和人、人和内容“智能链接”的灵犀系统。因为平台有内容的分发，也有人的互动，所以我们自研了一套系统，这套系统打通了人、内容的连接，其最重要目的就是帮助用户获得更及时和高质量的互动反馈，实现注意力普惠，对于社交平台来说，这是帮助用户平等获得内容分发和交流机会的一个大突破。第二个，我们自研了NAWA引擎，一套集AI、渲染与图像处理于一体的集成化SDK，可以帮助用户创建个性化形象和个性化虚拟场景。第三，Soul 2020年就开始做与AIGC相关的研发，在智能对话、图像生成、语音技术等方面拥有相应技术积累，并且推出了AI绘画、AI聊天、AI音乐等活动和功能，例如“AI苟蛋”在内测上线以后，用户会在各个平台上自发宣传这个功能。我们认为，用户在慢慢接受人和虚拟人共存的社交体验和关系网络，未来，Soul也会陆续推出人和虚拟人互动等场景。

陈靖：从我的观察来看，美颜美体功能是过去AI为实时互动领域贡献最大价值的场景，它能极大地提高主播观看率。小红书用AI可以说是无孔不入，不仅是实时音视频、美颜、美体，还有画质增强和码率压缩方面，都应用了非常多的AI技术。在创新落地上，我们在搜索和推荐里使用了大量的AI，比如用一张图片即可搜索小红书笔记，以及如何让用户快速找到他最喜欢看的主播等等。

李星冶：整个AI互动我们经历了三个阶段。第一阶段，从2016年直播短视频爆发后，我们做了行业内第一个直播用的美颜特效、美体特效、背景分割等；第二个阶段，是2021年，也是元宇宙元年，我们做了人物场数字孪生技术。第三个阶段，我们更多的是大模型综合能力的运用，比如在《长安三万里》火的时候，我们和一个学习机硬件产品合作，用大模型做了李白的人设，放到学习机上引导小朋友与李白做互动。还有我们跟一个阅读网站合作，实现了七八个、甚至几十个虚拟人与一个真人互动的场景。用户还可以生成他的虚拟女友，失去的亲人等，这些都是我们在AI实时互动玩法上看到的一些变化。

RTE2023｜圆桌对话：AI如何赋能实时互动体验改善及场景创新？

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术