华为云盘古大模型团队获中国法律智能技术评测类案检索赛道第一名
2022-12-26 17:12:27AI云资讯1698
近日,中国法律智能技术评测CAIL (Challenge of AI in Law) 公布大赛结果。华为云盘古大模型团队以NDCG@30分值0.943的总成绩夺得类案检索赛道第一名,从100多支参赛队伍中脱颖而出。
中国法律智能技术评测由最高人民法院司改办和中国中文信息学会指导,旨在促进智能技术赋能司法,实现更高水平的数字正义,从2018年起已连续举办了四届,先后吸引了来自海内外高校、企业和组织的近5000支队伍参赛,成为中国法律智能技术评测的重要平台。
本次大赛共吸引了全球学术界和工业界的众多研究者和开发者参加,其中既有来自北大、清华等国内外顶尖学术机构的科研人员,也有来自微软、谷歌的优秀工程师。

华为云盘古大模型团队获中国法律智能技术评测类案检索赛道第一名
类案检索,即从海量裁判文书当中快速定位和查询与某一案件最为接近的案例、法条、法规。作为人工智能支持司法审判的重要内容,类案检索技术对于提升法院整体裁判水平、实现类案适法统一、促进司法公正有极其重要的积极意义,其应用场景涵盖公检法司、律所、公司法务等。
CAIL 2022类案检索赛道任务设置为刑事类案搜索,具体任务为给定若干查询案例,每一个查询案例均对应一个大小为100的候选案例池,要求参赛团队从候选案例池中筛选出与每一个查询案例相关的类案。每个查询案例最终的提交形式为对应的100个候选案例的排序,预测越相似的案例排名越靠前。
类案检索存在三个任务难点:
(1)首先,类案检索任务中的相关性判别机制与传统检索任务有较大差异,不仅需要判断文本的相似性,更需要识别案件在法律问题和法律程序方法的相似性,同时也存在着“大量文本相同但不是相关案例”的场景,如酒驾和醉驾、交通肇事和危险驾驶、故意伤害罪中的“不同伤残等级”等。
(2)其次,人工标注的高质量类案数据量稀少,其主要原因是标注门槛高,需要有法律专业知识的人来标注,并且标注速度很慢。
(3)第三,司法文书的长度平均几千字,远超一般预训练模型处理上限。
为了解决类案相关性判别的难点,华为云盘古大模型团队在向量检索模型学习时针对类案判别机制设计了新的预测函数,可以有效地识别出司法文书中的“要件事实”和“案情事实”;针对标注数据少的难点,华为云利用盘古大模型的小样本学习能力,在中文预训练模型(即NLP大模型)的基础上进行微调;此外,华为云利用相似案例之间的传递性,设计了数据增强的方案,并进一步设计了根据学习情况对训练正样本和负样本动态采样的策略。针对原始超长文书,华为云采用窗口化分块处理,并在处理后进行表示聚合增强模型效果。最终,华为云盘古大模型团队以NDCG@30分值0.943的总成绩大幅领先其余队伍,在100多支队伍中名列第一。
近年来,国务院发布《新一代人工智能发展规划》,明确提出建设“智慧法院”,“促进人工智能在证据收集、案例分析、法律文件阅读与分析中的应用,实现法院审判系统和审判能力智能化”。同时,大量司法公开数据,为法律大数据的开发和人工智能的应用提供了可能。如何将人工智能技术应用在司法领域,辅助司法工作者提升案件处理的效率和公正性,逐渐成为法律智能研究的热点。
华为云盘古大模型团队正在基于盘古NLP大模型构建司法领域大模型,面向公检法、律所和公司法务,赋能一系列下游应用,包括类案检索、法条推荐、司法信息抽取、罪名匹配等等。欢迎感兴趣的专家交流讨论,一起促进人工智能技术在智慧司法领域的发展。
相关文章
- 华为云创想者大会主题论坛议程公布:释放Agentic AI新布局
- 华为云创想者大会主题论坛议程公布:释放Agentic AI新布局
- 释放数据要素价值,华为云政务数字基础设施解决方案正式发布
- 华为云创想者大会剧透:计划6月重磅发布AI全系产品
- 抓AI机遇,助伙伴增长——2026华为云核心生态伙伴共创研讨会在沪举行
- 华为云发布“加速智能化·企业快成长行动2026”,助力中小企业跨越AI鸿沟
- 华为畅享90系列支持室内定位,华为云空间守护设备安全
- 极致性价比!华为云柔性智算FlexNPU让算力不再“摸鱼”
- 华为云AI战略升级:以行业智能体为中心,打造企业级AI创新“黑土地”
- 华为云陈林:只有深入了解行业、用好“数据+AI”,才能真正解决问题、创造价值
- 华为云TaurusDB数据库智胜开年季,为高并发业务打造“既稳又弹”的数据引擎
- “政策+产品+激励”三箭齐发,华为云开年采购季动员会吹响开门红冲锋号
- 华为云码道(CodeArts)代码智能体公测版正式发布,开启智能体编码新实践
- 华为云核心网开启体验经营新纪元
- 华为云完成智谱GLM-5适配,多款产品已接入可在线体验
- 华为云黄瑾:做难而正确的事,用AI解行业难题
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









