两大AI模型性能提升 登上国际榜单
2025-01-16 11:19:55爱云资讯44066
近日,由盛大AI团队研发的模型Watt-tool-70B和Newsbang/homer-72B,登上国际知名AI排行榜榜首。其中,Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型,目前位列BFCL Leaderboard总榜单第一。
据悉,榜单BFCL Leaderboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一,工具调用(Function-Calling)是为了让LLM理解,并能准确使用API(应用程序编程接口),来执行更复杂而具体的任务。在近期公布的最新一轮评估结果中,Watt的“多轮对话执行能力”相较于排名第二的GPT-4o 领先11分,比排名第十的Gemini-1.5-Pro 领先近40分。
“这个模型将加速大模型落地‘融合’过程。”Watt有关负责人说,还有助于从底层数据标注到人机交互的体系化建设,让大模型初步实现从“光说不练”到“能文能武”。
此外,由盛大集团NewsBang团队开发的Newsbang/homer-72B 模型位列Open LLM LeaderBoard v2榜单第一。Open LLM Leaderboard V2是由Hugging Face维护的开源语言模型评测平台升级版本,采用更全面和严格评估标准,对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力,通过搭配数据筛选机制等,在多个核心评测维度,该模型性能有了大幅提升。

据公开报道,2023年初,盛大集团宣布All in AI战略,去年10月,联合多家高校发表了AI与长期记忆方面的论文,其自研的OMNE大模型多智能体框架登上GAIA 基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖,举办和支持包括“AI+精神健康”在内的各种高水平国际会议和夏校项目,助力培养跨学科青年AI人才等。
相关文章
- 两大AI模型性能提升 登上国际榜单
- 微软澄清:不会使用用户的Word和Excel数据来训练AI模型
- 英伟达推出可创作音乐、修改语音的AI模型Fugatto
- Adobe进军生成式人工智能视频领域 推出文生视频AI模型
- 英伟达与Mistral AI联合发布企业级AI模型Mistral-NeMo AI
- JFrog收购Qwak AI,致力于简化AI模型从开发到生产的全流程
- 基石智算带来AI模型应用新体验,高效、灵活、无忧
- 学习曲线4:更精进的AI模型与不断演进的语言
- 英特尔AI平台在微软Phi-3 AI模型发布当天即实现优化支持
- SAS打包AI模型促进行业解决方案提升
- 高效、高质的AI数据,将进一步推动AI模型性能突破
- 浮点智算定制化AI模型算力服务方案,助力发展新质生产力
- 天玑9300支持AI模型端侧技能扩充技术,最丰富的端侧生成式AI体验来了!
- 华为盘古气象AI模型提供天气事件秒级预报:免费向公众发布
- 世界互联网大会“AI模型大战”打响,微美全息积极加入行业军备赛
- 全球首个!中国信通院发布AI模型开发管理标准,云测数据参与编写