即构实时互动AI Agent 2026年重磅升级-AI云资讯

当下AI Agent赛道的核心诉求，已经超越了单纯的工具属性。

无论是让AI能够与人类高效协作，还是使其“能看、能听、会说、会动”，本质上，都是让AI更像“人”。

但这份“活人感”并不是为了替代人类，而是通过贴近真人的互动逻辑，让AI精准适配人类需求，真正做到为人所用。

近日，即构科技实时互动AI Agent 2.10版本正式上线，强化智能体的“自然拟人”效果——支持用户情绪识别和多情感TTS，让AI不仅能“听懂”你说的话，更能“读懂”你的情绪，并给予情感化的回应。

同时，优化了教育场景下的口语练习场景和数字人驱动效果，在场景适配和视觉呈现上进行了精细化打磨。

强化AI“活人感”：支持用户情绪识别、多情感TTS

以往和AI角色实时语音时，AI难以察觉用户语气中蕴含的情绪，更别说用饱含情绪的语言来回应用户。

现在，ZEGO实时互动AI Agent突破性地支持用户情绪识别和多情感TTS，让AI捕捉到用户的情绪波动，并根据用户当下的情感状态和角色人设，提供更加人性化、带有温情的反馈。

用户情绪识别：智能体可精准捕捉用户语音中的情绪波动，无论是愤怒的语调、惊喜的语气，还是低落的声音状态，都能快速识别并匹配对应情绪标签，让AI与用户产生“共鸣”。

在开启即构自研的语音情绪识别能力后，AI Agent会根据用户的原始音频分析其中的情绪，例如恐惧、开心、愤怒等，并将识别结果添加到本次请求LLM的用户提示词中，从而让AI更好地理解用户情绪。

现已支持识别7种用户情绪：生气、中性、惊讶、害怕、开心、厌恶、悲伤。

多情感TTS：AI能根据识别到的用户情绪，生成不同情绪且符合AI角色人设的语音回应。

在使用语音合成（TTS）能力时，直接调用支持多情感多风格的音色或通过配置emotion调用多情感多风格，从而实现TTS的多情感音色。

现已支持多种情绪的语音合成：中性、开心、生气、悲伤、恐惧、厌恶、惊讶、冷漠等。

这些更新，让AI智能体从有求必应但冷冰冰的“助手”，真正升级成了有共情能力的“陪伴者”。

在社交场景下，AI角色能配合剧情人设和对方情绪，让对话流畅衔接，增强社交沉浸感。

陪伴场景下，AI伴侣能察觉用户情绪变化，及时给予情感支持。

在教育场景下，AI老师则能够“察言观色”，根据学生学习状态、情绪状况循循善诱，告别“人机感”。

深耕教育场景：升级口语练习与数字人互动体验

此前，即构推出的AI伴学方案结合“图片数字人”技术，仅需一张照片，即可生成唇形准确、表情自然、动作生动的1080P高清互动形象。该方案已在大型直播课落地并取得了显著成果。

为了适配更多场景，本次ZEGO数字人的更新，优化增强了数字人的真实感和互动感。

优化高年级/成人1V1情景口语练习场景：基于AI和数字人实时互动，在情景口语练习中更好融入对话主题，提供贴近真实对话的低延迟对话体验，支持中英文识别与回复语言智能切换，AI老师还会根据上下文给用户提示回复内容。

更生动的数字人驱动效果：数字人能够根据设定好的关键词自然地引导动作触发，数字人驱动效果更生动。支持生动的头部、身体动作，和“点赞”“打招呼”“OK”等指向性手势动作。

比如在教学场景中，数字人教师会以招手动作与学生亲切问好；当学生答对问题时，数字人教师还会竖起大拇指点赞鼓励，相较传统纯语音教学，更能吸引学生注意力，有效提升学习效率。

除了教育场景，以上这些更丰富、更生动的数字人效果同样适用于AI陪伴和AI客服等场景，让用户与数字人的互动更真实、更沉浸。

多维能力迭代：强化跨场景灵活性与兼容性

除了以上优化亮点外，还在互动逻辑优化、生态适配拓展、交互方式升级等方面进行了多重升级，强化了ZEGO AI Agent的灵活性与兼容性：

互动轮次迭代优化：用户明显没有说完时，AI不会回复。为防止误判，可设置超时时间。

忽略短语/语气词，避免打断：AI在说话时，不被用户的短语气词、应和等所打断。

支持百炼智能体：百炼应用上可配置智能体，直接引用知识库等。

新增硬件厂商支持：支持在RTOS-博通集成，可在硬件上进行高识别准确率的互动。

支持微信小程序：可在小程序上与AI进行对话。

支持“按住说话”：可进行类似微信语音消息“按住说话”的交互方式。

无论你是想为泛娱乐产品添加情感陪伴“搭子”，还是为AI教育场景打造真人级口语助教，或者是想让智能硬件更有“人情味”，都能在这里找到解决方案。

即构始终致力于用AI+实时互动技术推动人机交互向更真实、自然、有温度的方向进化。

ZEGO AI Agent新版本现已发布，并提供了体验Demo深度试用。

即构实时互动AI Agent 2026年重磅升级