英伟达发布开源AI模型Neomotron 3 Nano Omni,性能提升高达9倍

2026-04-29 05:59:51AI云资讯1589

(AI云资讯消息)4月28日,英伟达发布的Nemotron 3 Nano Omni是一款开源多模态模型,将这些能力整合于单一系统之中,使智能体能够跨视频、音频、图像和文本进行高级推理,提供更快、更智能的响应。这一顶尖模型为企业与开发者打造了一条生产路径,能够构建更高效、更精准的多模态AI智能体,同时具备充分的部署灵活性和掌控力。

Nemotron 3 Nano Omni为开源多模态模型树立了全新的效率标杆,凭借领先的准确率与低成本,在复杂文档智能、视频及音频理解等六项权威榜单中拔得头筹。

已采用Nemotron 3 Nano Omni的人工智能及软件公司包括Aible、应用科学智能(ASI)、Eka Care、富士康、H Company、Palantir和Pyler,此外,戴尔科技、DocuSign、Infosys、K-Dense、Lila、甲骨文和Zefr也正在对该模型进行评估。

Nemotron 3 Nano Omni 在其 30B-A3B 混合专家架构中融合了视觉与音频编码器,无需再使用独立的感知模型,从而大幅提升大规模推理效率。在保持高效率的同时,该模型还具备出色的多模态感知精度,使 AI 系统能够在同等的交互水平下,实现比其他开源全模态模型高出 9 倍的吞吐量。这意味着在不牺牲响应速度或质量的前提下,降低成本、提升可扩展性。

在智能体系统中,Nemotron 3 Nano Omni 可与专有云端模型、英伟达其他Nemotron 开源模型(如用于高频执行的 Nemotron 3 Super 或用于复杂规划的 Nemotron 3 Ultra)以及其他供应商的专有模型协同工作,为计算机操作、文档智能和音视频推理等智能体工作流中的子智能体提供支持。

计算机操作智能体——Nemotron 3 Nano Omni 为导航图形用户界面的智能体提供感知循环支持,能够对屏幕内容进行推理,并随时间推移理解用户界面的状态变化。H Company 最新的计算机操作智能体由 Nemotron 3 Nano Omni 驱动,采用 1920×1080 像素的原生输入分辨率,实现高保真视觉推理。在 OSWorld 基准测试的初步评估中,这一集成方案在导航复杂图形界面方面实现了显著飞跃,并充分发挥了 Nemotron 3 Nano Omni 处理超高分辨率图像的能力。

文档智能——能够解读文档、图表、表格、截图及混合媒体输入,使智能体能够连贯地跨视觉结构和文本内容进行推理。这对于企业分析和合规工作流至关重要。

音频与视频理解——在客户服务、研究和监控工作流中,Nemotron 3 Nano Omni 能够保持音视频上下文,将所说的内容、所显示的内容和所记录的内容整合为统一的推理流,而非割裂的摘要。

相关文章

人工智能企业

更多>>

人工智能硬件

更多>>

人工智能产业

更多>>

人工智能技术

更多>>
AI云资讯(爱云资讯)立足人工智能科技,打造有深度、有前瞻、有影响力的泛科技信息平台。
合作QQ:1211461360微信号:icloudnews