英伟达发布开源AI模型Neomotron 3 Nano Omni，性能提升高达9倍-AI云资讯

（AI云资讯消息）4月28日，英伟达发布的Nemotron 3 Nano Omni是一款开源多模态模型，将这些能力整合于单一系统之中，使智能体能够跨视频、音频、图像和文本进行高级推理，提供更快、更智能的响应。这一顶尖模型为企业与开发者打造了一条生产路径，能够构建更高效、更精准的多模态AI智能体，同时具备充分的部署灵活性和掌控力。

Nemotron 3 Nano Omni为开源多模态模型树立了全新的效率标杆，凭借领先的准确率与低成本，在复杂文档智能、视频及音频理解等六项权威榜单中拔得头筹。

已采用Nemotron 3 Nano Omni的人工智能及软件公司包括Aible、应用科学智能（ASI）、Eka Care、富士康、H Company、Palantir和Pyler，此外，戴尔科技、DocuSign、Infosys、K-Dense、Lila、甲骨文和Zefr也正在对该模型进行评估。

Nemotron 3 Nano Omni 在其 30B-A3B 混合专家架构中融合了视觉与音频编码器，无需再使用独立的感知模型，从而大幅提升大规模推理效率。在保持高效率的同时，该模型还具备出色的多模态感知精度，使 AI 系统能够在同等的交互水平下，实现比其他开源全模态模型高出 9 倍的吞吐量。这意味着在不牺牲响应速度或质量的前提下，降低成本、提升可扩展性。

在智能体系统中，Nemotron 3 Nano Omni 可与专有云端模型、英伟达其他Nemotron 开源模型（如用于高频执行的 Nemotron 3 Super 或用于复杂规划的 Nemotron 3 Ultra）以及其他供应商的专有模型协同工作，为计算机操作、文档智能和音视频推理等智能体工作流中的子智能体提供支持。

计算机操作智能体——Nemotron 3 Nano Omni 为导航图形用户界面的智能体提供感知循环支持，能够对屏幕内容进行推理，并随时间推移理解用户界面的状态变化。H Company 最新的计算机操作智能体由 Nemotron 3 Nano Omni 驱动，采用 1920×1080 像素的原生输入分辨率，实现高保真视觉推理。在 OSWorld 基准测试的初步评估中，这一集成方案在导航复杂图形界面方面实现了显著飞跃，并充分发挥了 Nemotron 3 Nano Omni 处理超高分辨率图像的能力。

文档智能——能够解读文档、图表、表格、截图及混合媒体输入，使智能体能够连贯地跨视觉结构和文本内容进行推理。这对于企业分析和合规工作流至关重要。

音频与视频理解——在客户服务、研究和监控工作流中，Nemotron 3 Nano Omni 能够保持音视频上下文，将所说的内容、所显示的内容和所记录的内容整合为统一的推理流，而非割裂的摘要。

英伟达发布开源AI模型Neomotron 3 Nano Omni，性能提升高达9倍

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术