两大AI模型性能提升 登上国际榜单
2025-01-16 11:19:55AI云资讯170673
近日,由盛大AI团队研发的模型Watt-tool-70B和Newsbang/homer-72B,登上国际知名AI排行榜榜首。其中,Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型,目前位列BFCL Leaderboard总榜单第一。

据悉,榜单BFCLLeaderboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一,工具调用(Function-Calling)是为了让LLM理解,并能准确使用API(应用程序编程接口),来执行更复杂而具体的任务。在近期公布的最新一轮评估结果中,Watt的“多轮对话执行能力”相较于排名第二的GPT-4o领先11分,比排名第十的Gemini-1.5-Pro 领先近40分。
“这个模型将加速大模型落地‘融合’过程。”Watt有关负责人说,还有助于从底层数据标注到人机交互的体系化建设,让大模型初步实现从“光说不练”到“能文能武”。
此外,由盛大集团NewsBang团队开发的Newsbang/homer-72B 模型位列Open LLM LeaderBoard v2榜单第一。Open LLM Leaderboard V2是由Hugging Face维护的开源语言模型评测平台升级版本,采用更全面和严格评估标准,对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力,通过搭配数据筛选机制等,在多个核心评测维度,该模型性能有了大幅提升。

据公开报道,2023年初,盛大集团宣布All in AI战略,去年10月,联合多家高校发表了AI与长期记忆方面的论文,其自研的OMNE大模型多智能体框架登上GAIA 基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖,举办和支持包括“AI+精神健康”在内的各种高水平国际会议和夏校项目,助力培养跨学科青年AI人才等。
相关文章
- 英伟达发布Nemotron 3 Super开源智能体AI模型:或成为OpenClaw的理想选择
- 政策技术协同奏响人形机器人产业强音,微美全息以AI模型为具身产业注入动能!
- 苹果用谷歌Gemini AI模型推动Siri重大升级
- 科技盛会CES 2026隆重开幕,英伟达/三星/微美全息打造跨行业AI模型领航新纪元
- 湖北移动自研AI模型为家庭网络装上“智慧大脑”
- 余杭,让AI与青才双向奔赴 ——“AI杭州 码动未来”AI模型智能体创新大赛圆满落幕
- 谷歌利用新AI模型升级天气预报功能
- 声网AI模型评测平台新增多项评测维度,模型选择数量提升3倍
- 谷歌DeepMind的新型AI模型可通过网络搜索帮助机器人完成任务
- 苹果为Siri开发的AI搜索工具或将利用谷歌的Gemini AI模型来汇总网络信息
- 苹果与谷歌洽谈使用Gemini AI模型改造Siri
- IBM调研报告:13%的企业曾遭遇AI模型或AI应用的安全漏洞
- Grok AI模型将仅适配搭载AMD锐龙处理器的特斯拉车型,而英特尔芯片的旧款车型无缘升级
- 人工智能公司Anthropic发布AI危险性报告:AI模型为达成目标不惜突破道德底线
- 微软宣布将向Edge浏览器的网页应用开放设备端AI模型
- 英伟达发布Eagle 2.5视觉语言AI模型,xAI/微美全息凭高性价比AI模型展实力!









