金山云完成阶跃星辰最新两款开源多模态大模型适配
2025-02-25 16:42:25AI云资讯18285
金山云已完成对阶跃星辰最新开源的两款多模态大模型的适配,包括全球参数量最大的开源视频生成模型Step-Video-T2V,以及业界首款产品级开源语音交互模型Step-Audio。目前,用户可登陆金山云官方网站进行体验。

*登陆金山云账号控制台选择裸金属服务器-新建实例
Step-Video-T2V模型
金山云针对Step-Video-T2V模型,为用户提供强大的算力支持和稳定的运行环境让模型性能得以充分释放,带来流畅的视频生成体验。
据悉,Step-Video-T2V模型的参数达300亿,可直接生成204帧、540P分辨率的高质量视频。评测结果显示,该模型在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均显著超过市面上既有的效果最佳的开源视频生成模型。

*图为Step-Video-T2V-Eval评测结果
阶跃星辰官方提供了多卡并行部署的支持,其中文本编码器和VAE部分由独立的进程维护,DiT部分可以选择4卡并行或8卡并行,每张卡需要至少80G显存。如果要在单台机器上运行,推荐使用5个80G显存的GPU。
在部署方面,金山云已预装好ubuntu22.04-Step-Video-T2V模型和依赖环境的镜像。在多卡并行部署时,金山云的云计算环境可精准协调各卡资源,保障文本编码器、VAE和DiT等部分协同工作,大幅提升视频生成效率。

*金山云裸金属服务器控制台创建流程,选择内置Step-Video-T2V的自定义镜像创建,创建完成即可启动模型并使用
运行测试
登录服务器进入Step-Video-T2V-main目录启动服务
cd Step-Video-T2V-main
python3 api/call_remote_server.py --model_dir /models/stepvideo-t2v
出现如下提示后服务启动成功
* Running on all addresses (0.0.0.0)
Step-Audio模型
金山云同时完成了实时语音对话系统Step-Audio模型的适配工作。金山云将借助先进的云计算技术,降低模型响应延迟,让用户与模型的对话更加自然流畅。在实际应用中,无论是实时语音聊天,还是语音指令控制,金山云都能确保 Step-Audio模型快速准确地响应,为用户提供优质的语音交互服务。
Step-Audio作为业内创新性的开源语音模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,并且能和用户自然地进行高质量对话。根据 LlaMA Question等五大主流公开测试,Step-Audio模型性能均位列第一,并在HSK-6(汉语水平考试六级)评测中表现突出,是最懂中国话的开源语音交互大模型。

*图为5大主流公开评测结果
在部署方面,金山云已预装好ubuntu22.04-Step-Audio模型和依赖环境的镜像。

*金山云裸金属服务器控制台创建流程,选择内置Step-Audio的自定义镜像创建,创建完成即可启动模型并使用
运行测试
登录服务器进入Step-Audio-main目录启动服务
cd Step-Audio-main
python3 tts_inference.py --model-path /models/Step-Audio/model --output-path /root/Step-Audio-output --synthesis-type tts
在人工智能高速发展的当下,秉承技术立业的金山云将始终与前沿技术同频,继续携手生态合作伙伴为前沿技术的落地转化提供助力。
相关文章
- 金山云星流平台正式上线Xiaomi MiMo-V2-Flash模型
- 金山云Q3营收拉升31% 智算云收入三位数暴增 机构:AI驱动的强劲增长路径已清晰
- 金山云Q3营收涨幅再提速 调整后净利润首次实现盈利
- 万人园区正式启用 武汉金山云持续推进人才发展战略
- 金山云AI增长确定性受看好 大行喊出超3倍价格上涨空间
- 金山云Q2营收23.5亿元 AI战略激活业务增长新空间
- 金山云携具身智能等多个AI创新解决方案亮相WAIC
- 金山云携6大AI创新成果亮相WAIC
- 金山云正式发布金山政务AI一体机 AI赋能政务数智化开启新篇章
- 金山云Q1营收19.7亿元 AI持续释放业务增长新动能
- 金山云接入Xiaomi MiMo、Qwen3系列模型
- 金山云出席数字产业集群专业工作会议 以云为基助力政企数智化转型
- 金山云Q4 AI收入同比增长近500% 人工智能收入占比处行业领先地位
- 支持平台部署!金山云完成基于国产芯片的DeepSeek满血版适配
- 金山云完成阶跃星辰最新两款开源多模态大模型适配
- 金山云支持DeepSeek-R1/V3
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









