超越GPT-4V!智谱AI第二代视觉大模型CogVLM2,19B参数跑出卓越性能
2024-05-23 17:17:38AI云资讯200568
继去年发布并开源VisualGLM-6B和CogVLM之后,智谱AI宣布近期将推出新一代多模态大模型CogVLM2。这款模型以其19B的参数量,在性能上接近或超越了GPT-4V。
据悉,CogVLM2系列模型在多个关键指标上实现了显著提升,如在 OCRbench 基准上性能提升32%,在TextVQA基准上性能提升21.9%,且模型具备了较强的文档图像理解能力(DocVQA)等。此外,CogVLM2支持8K文本长度和高达1344*1344的图像分辨率,同时提供中英文双语的开源模型版本。

CogVLM2 继承并优化了上一代模型的经典架构,采用了一个拥有50亿参数的强大视觉编码器,并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块。这一模块通过独特的参数设置,精细地建模了视觉与语言序列的交互,确保了在增强视觉理解能力的同时,不会削弱模型在语言处理上的原有优势。这种深度融合的策略,使得视觉模态与语言模态能够更加紧密地结合。
值得注意的是,尽管CogVLM2的总参数量为190亿,但实际激活的参数量仅约120亿,这得益于精心设计的多专家模块结构,显著提高了推理效率。此外,CogVLM2能够支持高达1344分辨率的图像输入,并引入了专门的降采样模块,以提高处理高分辨率图像的效率。
在多模态基准测试中,CogVLM2的两个模型,尽管具有较小的模型尺寸,但在多个基准中取得 SOTA性能;而在其他性能上,也能达到与闭源模型(例如GPT-4V、Gemini Pro等)接近的水平。

开发者可以通过GitHub、Huggingface、魔搭社区和始智社区下载CogVLM2的模型,团队还透露,GLM新版本会内嵌CogVLM2能力,在智谱清言App和智谱AI大模型MaaS开放平台上线。
相关文章
- 首创AI值守无人小店,浙江移动视觉大模型加速落地
- 超越GPT-4V!智谱AI第二代视觉大模型CogVLM2,19B参数跑出卓越性能
- 年度技术突破新物种:美图视觉大模型MiracleVision
- 美图AI视觉大模型MiracleVision(奇想智能)正式上线
- 美图视觉大模型MiracleVision入选2023中国+大模型先锋案例
- 美图视觉大模型MiracleVision斩获大模型创新应用奖项
- 美图创造力大会倒计时24小时:将发布自研视觉大模型4.0版本
- 美图创造力大会海报猜想:视觉大模型4.0要来了?
- 奥看科技荣获“2023 中国领军城市智慧视觉大模型解决方案提供商”奖
- 美图公司吴欣鸿:视觉大模型应用普及将经历三个阶段
- 美图公司股价报4港元创2年新高 发布自研视觉大模型3.0
- 美图自研视觉大模型3.0发布:助力广告、电商、游戏、动漫、影视五大行业
- 悬念即将揭晓,美图影像节或将发布视觉大模型?
- 中国移动创研院与联汇科技发布首个基于视觉大模型能力的AGI算力服务产品
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









