最新报告揭晓智慧芽专利大模型在知产领域表现超越GPT-4的技术细节
2024-05-09 11:43:54AI云资讯1600
4月28日,科技创新与知识产权信息服务商智慧芽旗下的大模型开发团队在arXiv发表技术报告PatentGPT: A Large Language Model for Intellectual Property(智慧芽专利大模型:一个应用于知识产权领域的大语言模型),介绍“智慧芽专利大模型”的训练策略,及其在知识产权场景表现超越GPT-4等方面的应用优势。此前,智慧芽已发布“垂直领域大模型”并成功训练“专利大模型”和“生物医药大模型”。

arXiv是国际知名的学术平台,于1991年创立,目前在物理、数学、计算机科学等八个主题领域,收录了超过200万篇学术文章,由康奈尔大学的arXiv领导团队及工作人员维护运营。
在该篇技术报告中,智慧芽提出了一种用于训练面向知识产权领域的大语言模型,满足知产领域的独特需求。该模型在2019年中国专利代理师资格考试中成绩超过GPT-4,达到了人类专家水平。同时,鉴于其采用SMoE架构,因而在长文本任务上展现了更高的资源效率。此外,智慧芽提出了一个更接近大模型在知识产权领域用例的基准“PatentBench”,为知产领域大模型的全面评估提供参考。
亮点一:专业能力超越GPT-4
根据技术报告,智慧芽提出了知识产权领域大模型的标准训练程序,包括数据预处理、预训练、对齐和评估,并基于此训练了“智慧芽专利大模型”。
为了证明“智慧芽专利大模型”在知识产权领域的专业能力,团队使用2019年中国专利代理师资格考试对各项大模型进行测试。实验结果表明,商业通用大模型未能通过考试及格线,而“智慧芽专利大模型”取得65分,达到知识产权专家的水平。上述结果揭示了通用大模型在知识产权领域专业能力的不足,并再次强调了预训练领域特定大模型的有效性和必要性。

上图呈现了智慧芽专利大模型考试成绩高于商业通用大模型(图源arXiv)
需要强调的是,上述考试结果不仅仅是通过将知识产权知识整合到模型中实现的,还通过一系列数据增强技术提高了模型消除选项顺序干扰的能力,这种能力可以用PPA来表示。结果显示,“智慧芽专利大模型”的PPA显著优于GPT-4-1106-preview。
在技术报告中,智慧芽还使用了MoZIP,一项专门为知识产权行业大模型设计的开源测试基准,包含三项挑战任务:IP基础知识多项选择测验(IPQuiz)、IP基础知识问答(IPQA)和专利内容匹配(PatentMatch)。
其中,“智慧芽专利大模型”在专利内容匹配任务上的表现均超过了GPT-3.5-turbo,这表明智慧芽大模型在把握各种专利之间的关系方面更为优秀,该能力有助于协助专利审查员识别潜在的侵权内容。可见,智慧芽的预训练数据和策略有效提高了大模型在知识产权领域的性能。

上图呈现了智慧芽专利大模型在专利内容匹配任务上的表现优异(表源arXiv)
亮点二:推理效率更胜一筹
除了性能外,模型的响应延迟和运营成本对于其商业可行性至关重要。智慧芽大模型开发团队对所有“智慧芽专利大模型”进行了4位量化,并使用了Text-Generation-Inference(TGI)-1.4来评估它们在输出第一个标记时的资源消耗。所有实验都在配备NVIDIA A100 80GB GPU的服务器上进行。
下图展示了输入序列长度与推理阶段资源消耗之间的关系。结果表明,所有模型的GPU内存使用量与它们的参数数量和输入序列长度都呈正相关。其中,“智慧芽专利大模型-1.0-MoE”在输入序列长度增加时GPU内存使用量的增加最小,表明其在涉及长上下文场景的应用中更具资源效率。

上图呈现了智慧芽专利大模型-1.0-MoE在长上下文场景应用中更具资源效率(图源arXiv)
实验结果还揭示了在模型性能水平几乎相等的条件下,“智慧芽专利大模型-1.0-MoE”在推理效率方面更胜一筹。知识产权领域大模型尤为注重长上下文序列的计算资源管理。该模型的设计允许处理长上下文并保持高性能水平,而不会对系统资源造成不必要的负担,提供了一个可能的优越折衷方案。这或许是在资源管理与处理复杂和长数据序列的能力同样关键的环境中部署先进的知识产权导向模型的关键一步。这些发现表明,类似“智慧芽专利大模型-1.0-MoE”这样的SMoE模型在知识产权行业中得以应用的可行性,以及选择模型架构以开发功能强大、高效和专业使用的解决方案的重要性。
亮点三:建立PatentBench评测基准
目前市面上缺乏系统性评测大模型在知识产权领域专业能力的开源基准,为此智慧芽提出了PatentBench,率先将专利代理和审查过程中涉及的任务,如专利规格起草、专利分类以及总结专利的关键技术点,纳入评估知识产权领域大模型的基准。值得一提的是,智慧芽计划在2024年第四季度开源PatentBench,为开源社区和行业发展做出贡献。
PatentBench的主要评估任务包括:专利问答Patent QA、专利撰写Patent Writing、专利分类Patent Classification、专利摘要Patent Summary、专利推理Patent Reasoning、专利校正Patent Correction、专利翻译Patent Translation。
具体来看,智慧芽首先使用GPT-4和NLP中广泛使用的指标评估“智慧芽专利大模型”在PatentBench上的零样本性能。为了评估模型的总结、撰写和对话能力,使用GPT-4作为评委,对比不同模型输出结果的质量。
结果显示,“智慧芽专利大模型”在起草和知识产权领域的开放式问答方面显著优于ChatGPT-3.5-turbo,表明“智慧芽专利大模型”有潜力作为专利助手,帮助人类起草专利说明书、阅读专利以及理解专利法律法规。
随后根据不同的指标评估了分类、审查、翻译、文本校正和推理能力。“智慧芽专利大模型”在除了推理之外的其他能力上整体优于ChatGPT-3.5-turbo。这些结果证明了智慧芽的预训练和专利大模型在知识产权领域的先进性。

上图呈现了智慧芽专利大模型在多项能力上表现优异(图源arXiv)
未来,智慧芽大模型的开发将专注于增强长上下文支持,以满足更多样化的知识产权工作场景。此外,还将积累英文预训练语料库和SFT数据,以进一步提高智慧芽垂直领域大模型在英文方面的表现。
相关文章
- 从精准评估到智慧辅学:宝盛鑫以轻量级大模型引领AI司法教育新赛道
- 显示龙头卡莱特完成DeepSeek V4在昇腾平台验证,国产大模型工程化落地提速
- 奇瑞汽车与火山引擎达成战略合作 豆包大模型将接入“小奇同学”
- 又一量产车型落地!奔驰纯电 GLC 全面接入豆包大模型
- 宇视科技亮相南京交博会,梧桐大模型凭实力“圈粉”
- 腾讯云与阶跃星辰达成战略合作,共塑大模型时代智能座舱新体验
- 亮相南京交博会,宇视梧桐大模型凭实力“圈粉”
- Siri悄然接入Gemini大模型,苹果反成谷歌云2026 Next大会主角
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Testin XAgent拆解:大模型+多智能体如何重构测试自动化工程
- 垂直大模型技术创新的“专业燃料”:为什么知识产权高质量数据集不可或缺?
- 交付结果而非工具:零犀科技如何用因果大模型打破AI商业化僵局,实现规模盈利
- 又一金融信创标杆!神州鲲泰入围中信银行CANN生态信创大模型服务器项目
- 物理AI领航者江行智能:“空间智能大模型”让AI真正看懂工业现场
- 海康威视徐习明:聚焦感知多模态大模型,为中国制造业发展服务
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由









