腾讯云 x MiniMax:平稳运行百万级Agent RL沙箱
2026-03-17 20:13:05AI云资讯1974
最近,MiniMax与腾讯云合作,成功完成一次Agent基建的重要实践。
基于腾讯云,MiniMax开始部署百万级吞吐、十万级并发的Agent RL(智能体强化学习)沙箱,并在测试环境中实现全量平稳运行。
这助力MiniMax的强化学习框架(Forge),能在大规模Agent训练场景下做到“环境秒开、用完即删”,最终让训练更快、更稳、成本更低。

在Agent RL训练中,模型不再只是生成内容,需要在真实环境中不断尝试:写代码、运行程序、再根据结果持续优化策略。
而这些执行过程的每一步,都依赖一个独立的运行环境——“沙箱”。
腾讯云Agent Runtime沙箱如何实现的?
多组训练任务,瞬时启动上万个执行环境
在 Agent RL 训练中,执行代码的不再是工程师,而是 Agent。模型会像开发者一样不断尝试解决问题:
读取代码 → 修改 → 运行 → 查看报错 → 再尝试一次。
很多训练任务甚至来自真实开源项目,例如 GitHub 上的 bug 修复任务(如 SWE-bench)。
但和真实开发不同的是,这些操作全部由 Agent 自动完成。每一个任务,都需要启停沙箱。
当训练规模扩大,一轮任务可能需要瞬时启动上万个执行环境,一天的峰值规模可以达到百万级。
更复杂的是,这些环境往往并不相同。不同 GitHub 项目对应不同依赖库和运行环境。在一些训练场景中,系统需要一瞬间拉起十万个环境,这里面甚至有数千到上万个不同的镜像。
在这样的规模下,执行环境不再以“按需创建”为主,而是以资源池形式常驻,由调度系统统一编排。
环境的创建、分配与回收被收敛到同一执行路径中,使大规模并发任务能够持续推进,而不会在环境层面形成阻塞。
启动慢一秒,GPU 就可能空跑
并发高还不够,得快。当 Agent 生成任务时,系统需要立即唤醒一个新的执行环境。
如果环境准备时间过长,GPU 就会持续等待任务开始。在大规模训练中,这种等待会被迅速放大,转化为算力空耗。

(腾讯云沙箱“运行时快照”能力,得以让启动更快)
因此,执行环境需要具备快速进入可运行态的能力。
在实际运行中,沙箱并非从零初始化,而是基于预初始化状态进行恢复,仅加载必要运行上下文,毫秒级即可进入执行阶段。
十万环境背后,是海量镜像分发
当训练任务瞬时启动数万环境时,如果每个环境都完整拉取镜像,网络带宽和存储很快就会成为瓶颈。
但在腾讯云Agent Runtime沙箱的工程哲学里,大部分镜像数据并不会被“真正”访问。
因此,镜像不再以“整体分发”为前提,而是通过镜像去重,在运行过程中按需加载,并结合节点侧的数据复用机制减少重复读取。
镜像访问、缓存与调度被统一纳入执行链路中,使系统在高并发环境启动时,依然能够保持稳定吞吐,而不会被带宽限制。
Agent时代,基础设施不再单纯提供资源供给,而是贯穿Agent训练、执行、对外服务整体,是决定Agent能力天花板的核心所在。
腾讯云正在和客户一起加速,让每一个Agent都能放心在云上展开手脚。
相关文章
- 极客未来与腾讯云战略合作 探索备课授课系统等AI教育场景
- 腾讯云ADP Claw升级五大防护,打造安全可用的企业级OpenClaw解决方案
- 加速Data+AI一体化落地!腾讯云 WeData 首家通过信通院 DIOps 技术测试
- 腾讯云首入国际权威分析机构对象存储报告,位列「大型厂商」行列
- 腾讯云助力炫佳科技全新升级一站式AI短剧平台 平均制作效率提升90%
- 生态共赢 赞同科技携手腾讯云斩获三项大奖
- 腾讯云 WeData 升级三大 Data+AI 能力,位居一体化数据智能平台市场第一!
- 腾讯云智能体开发平台升级:做深平台、做厚内容、做强应用,构筑Agent产业合作新生态
- 腾讯云发布 AI 数据湖解决方案,支持 CPU和GPU 混合调度
- 智效跃迁,架构无界,第三届腾讯云架构师峰会圆满落幕!
- 腾讯云ADP国内首发AI原生Widget:一句话秒级生成交互组件,重塑Agent使用体验
- 四川具身科技新品发布,腾讯云全栈AI能力助力提升机器人情感交互能力
- 腾讯云Valkey社区贡献位居全球第一,率先在国内支持8.0版本
- 中国唯一入选!IDC报告:腾讯云斩获亚太前台对话式AI“领导者”评级
- 探讨AI赋能企业转型出海新路径!“腾讯云 TVP 思享会 大湾区数字化转型高管沙龙·香港站”成功举办
- 中国太原煤炭交易中心与腾讯云深化合作 共建煤炭价格指数大模型
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









