快手全新「检索数据引擎」CroPS 入选AAAI 2026 Oral
2026-01-16 10:59:52AI云资讯2374
短视频搜索业务是向量检索在工业界最核心的应用场景之一。然而,当前业界普遍采用的“自强化”训练范式过度依赖历史点击数据,导致系统陷入信息茧房,难以召回潜在相关的新鲜内容。针对当前挑战,快手搜索团队提出了CroPS框架,从根源上打破数据闭环。目前,CroPS已在快手搜索业务中实现全量部署,服务亿级用户。
本工作相关成果《CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search》已被人工智能顶级会议AAAI 2026 Oral接收。

为了打破数据边界,CroPS 框架构建了一个包含三个维度的正样本增强引擎,分别利用用户换Query行为、推荐系统反馈以及大语言模型(LLM)的世界知识,来全方位地丰富语义空间。围绕这一目标,CroPS 分别从查询行为、系统反馈和外部知识三个层面展开。

在真实的搜索场景中,用户往往难以一次性精准表达意图。当用户输入查询词A 却未能找到满意结果时,通常会进行查询重构,输入语义相关但表述不同的查询词B。CroPS 通过分析用户在短时间窗口内的改写序列,将改写后获得的成功点击回流给原始查询,利用用户的修正行为来纠正模型的语义偏差。
推荐系统拥有海量用户消费数据,其算法机制天然倾向于发散和探索。CroPS 建立了一套跨系统的信号桥接机制:对于同一个用户,如果他在推荐信息流中深度消费了某个视频,且该视频在语义上与用户近期的搜索词高度相关,该视频就会被引入作为搜索模型的正样本。
当平台现有的内容库或日志无法覆盖某些长尾、复杂查询时,CroPS 引入大语言模型(LLM)作为虚拟检索器和内容生成器,利用 One-shot Prompting 策略生成高质量合成样本,将外部世界的常识与逻辑蒸馏进检索模型中。
在多源正样本被引入之后,如何让模型有效利用这些信号,同样成为训练阶段的关键。HLA 的核心是解决 CroPS 多源正样本的可靠性差异问题,通过为样本分配分层标签,让模型能够学习更细粒度的相关性。H-InfoNCE 在训练时,将当前样本与标签严格低于它的所有样本进行对比,使学习目标与 HLA 的层级逻辑完全对齐。
这一系列设计共同构成了 CroPS 在工业检索场景中的完整解决方案。CroPS 证明了在工业检索系统中,正样本增强是缓解信息茧房问题的有效钥匙。未来,快手搜索团队将进一步探索 CroPS 与生成式检索(Generative Retrieval)方法的融合,持续挖掘大规模语言模型在搜索全链路中的潜力。
相关文章
- 华为Pura新机发布在即,快手旗下可灵AI鸿蒙版正式上架,解锁移动创作新体验
- 快手生活服务推出“商家经营Skil” 智能经营触手可及
- 神眸携手快手亮相AWE 2026,三款新品构建全场景智能守望体系
- 快手技术团队发布研发范式跃迁成果 AI驱动研发提效进入组织级阶段
- 效果、性能双突破!快手OneSug端到端生成式框架入选AAAI 2026
- 快手全新「检索数据引擎」CroPS 入选AAAI 2026 Oral
- 快手直播平台被黑灰产入侵,企业内网暴露的风险有多大?
- 让搜索更懂你 快手自研UniDex与UniSearch实现新一代工业级搜索
- 快手发布EMER框架,“自进化”AI重塑短视频推荐模式
- 登顶SWE-Bench,快手KAT-Dev-72B-Exp刷新开源SOTA
- 神眸荣获快手“品牌标杆奖”,以芯片级创新跻身行业前列
- 快手发布多模态大模型Keye-VL-1.5 8B性能领先、视频理解能力更强
- 累计生成超2亿视频,快手可灵AI引领“生成式AI应用元年”
- CVPR2025:快手可灵四大技术方向布局视频生成及世界模型
- 快手上线鸿蒙应用高性能解决方案 高效提升数据反序列化性能
- 快手与杜比实验室达成深度合作 短视频领域首家全链路支持“杜比视界”
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









