DolphinDB Shark!一个基于遗传算法的自动因子挖掘平台
2024-08-29 10:05:50AI云资讯4159
DolphinDB 推出的 CPU-GPU 异构计算平台 Shark,将 DolphinDB 上的复杂指标计算能力无缝切换到 GPU 算力平台,大幅提升了计算性能。Shark 最新版本给开发者提供了两个主要功能:因子挖掘和因子计算。通过使用遗传算法,因子挖掘功能能够从历史金融数据中提取出有效因子,提高金融数据分析的质量和效率。因子计算功能针对金融领域,提供了丰富的函数库,为大规模金融数据分析与处理提供了完整解决方案。
自 2023 年 DolphinDB 正式加入“NVIDIA 初创加速计划(NVIDIA Inception)” 以来,双方技术团队持续开展技术交流与探讨。此次,DolphinDB 开发团队与 NVIDIA 团队合作,通过利用 NVIDIA RAPIDS 加速 Shark 异构计算平台的因子挖掘算法运行效率,帮助 Shark 将因子挖掘的效率提升 2 - 10 倍;并基于 NVIDIA cuDF 实现 Shark 因子高效计算,大幅减少开发成本,缩短开发周期。
RAPIDS 的 RMM 是一套开源的内存/显存管理库,提供 C++ 和 Python 接口,它相比 cuMalloc, cuFree 等操作来讲,具有更好的性能和灵活性;RAPIDS libcudf 是基于 GPU 的 C++ DataFrame 库,提供了基础数据结构,并且内置了基础的函数算子。

当前挑战
Shark 的因子挖掘功能,通过利用遗传算法从数据中挖掘出有效的因子。在这一场景中,遗传算法会随机生成大量因子并进行计算。这一过程会频繁地创建和释放临时空间来存储中间结果,直接使用原生的 CUDA C 显存分配和释放接口,会严重降低执行效率。
Shark 的因子计算功能,针对金融领域的数据分析与处理,提供了丰富的函数库。如果从零开始将 CPU 的函数迁移至 GPU,需要为 GPU 重新实现一套底层数据结构以及基础计算函数,会导致开发周期的延长以及开发成本的增加。
应用方案
基于以上挑战,DolphinDB 开发团队与 NVIDIA 团队及 RAPIDS 开发团队合作,通过利用 RAPIDS RMM,解决因子挖掘过程中频繁申请和释放显存导致的性能问题;通过基于 RAPIDS libcudf 进行二次开发,实现因子计算,从而缩短开发周期,降低开发成本。
Shark 进行因子挖掘时,会通过遗传算法随机生成海量的因子计算公式。这些公式长度不等,接受的参数数量也不尽相同。因此在计算时,需要频繁地申请和释放临时空间用于存储中间结果。DolphinDB 开发团队通过使用 RMM 对显存进行池化,从而对中间结果所使用的显存进行高效地分配、释放和重用。
Shark 支持用户输入自定义的公式,并自动将自定义公式转换为计算图,并在 GPU 完成计算,从而加快数据分析和处理的效率。如果从零开始将 DolphinDB 的计算函数迁移至 Shark,需要在 GPU 构建 array、table 等底层数据结构,并实现大量基础计算函数。经过调研后,DolphinDB 开发团队决定基于 RAPIDS libcudf 进行二次开发,复用 cuDF 的 column、table 等底层数据结构;并借助 cuDF 的 groupby 和 rolling 框架,只需要完成算子的核心计算逻辑,即可完成 DolphinDB 时序算子和横截面算子的迁移,极大提升了开发效率,降低了开发成本。
效果展示
下图展示了在不同规模数据下,使用 RAPIDS的 RMM 显存管理库相对于原生的 CUDA 显存分配 API,Shark 因子挖掘效率的对比。可以清楚地看到,使用 RMM 可以显著提升 Shark 因子挖掘效率,最高可达到 10 倍的加速比。

除此之外,Shark 通过使用 RAPIDS libcudf,大大提升了因子的计算效率。下图中对比了 1000 个 group,每个 group 有 10 万行的数据,采用分组方式计算下面的算子。可以看到与 CPU 相比,利用 GPU 总体耗时(包含拷贝时间),基本达到了一个数量级的加速比。

借助 RAPIDS,Shark 的因子挖掘效率提升了 10 倍。除此之外,基于 cuDF 进行二次开发,只需要实现算子的核心逻辑,就可以达到一个数量级的加速,并极大降低了算子迁移成本。
相关文章
- 微算法科技(NASDAQ :MLGO)面向区块链的系统的高效反量子晶格盲签名技术
- 把尾货卖到50亿,好特卖靠AI算法,拿捏情绪经济
- MLGO微算法科技分布式量子算法模拟技术:以动态量子电路推动可扩展量子计算
- 展会数字营销的数据算法黑盒:拆解从裂变系数到ROI归因的实战方法论
- 微算法科技(NASDAQ:MLGO)量子PBFT改进技术:重构联盟链共识的效率与安全
- 算法之外:钛动科技如何用“真实场景”叩开社交软件出海的心门
- 好特卖超级仓加速落地,算法驱动供应链升级支撑大店模式
- 智造“医”线:从精密自动化到AI算法定义,电子制造技术如何为智慧医疗筑基?
- MLGO微算法科技推出全球首个量子比特高效线性微分方程求解算法
- 微云全息(NASDAQ:HOLO) HPDC 算法:重塑 AI 算力生态的分布式革新
- 微算法科技(NASDAQ: MLGO)使用量子傅里叶变换(QFT),增强图像压缩和滤波效率
- 微算法科技(NASDAQ: MLGO)基于量子技术的区块链架构:量子原生验证模型与分布式账本革新
- 以数据与算法双轮驱动的垂直AI 2025年赢得12000家客户信赖
- 极智嘉发布全新RMS调度系统:智能算法自学习,安全易用双突破
- 马斯克表示X平台即将开源新的算法
- 终端数据+算法 玄瞳AI赋能地方区域产业升级的路径与价值
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由









