信也科技联合浙江大学发布大规模动态图数据集DGraph,共建开放数字生态
2022-07-09 17:12:13AI云资讯1391
近日,信也科技联合浙江大学正式公开发布大规模动态图数据集DGraph,旨在服务图神经网络、图挖掘、社交网络、异常检测等方向的研究人员,为之提供真实场景的大规模应用数据,帮助推动整个图领域的发展。

1.场景真实
值得注意的是,DGraph 的源数据来源于信也科技的真实金融业务场景,并由信也科技对外开放共享给对图领域感兴趣的研究者。其构建逻辑贴近工业落地,为数据集的使用者提供了探索如何将图模型扩展到金融领域落地应用的机会。DGraph一方面可以作为验证相关图模型性能的标准数据,用于解决不平衡节点分类、链接预测、图分类等各种典型任务,另一方面可用于开展用户画像、网络分析等研究工作。
2.结构动态
信也科技相关负责人透露:“像此次DGraph公开的如此大规模、真实的动态图数据,据我们所知,在金融领域还是第一次。”DGraph作为一个有向无权的动态图,包含超过370万个节点和430万条动态边,支持大规模图模型的研究与评估。其用户关系采样自横跨27个月的业务场景,且网络结构会随着时间发生演化,为当前的动态图模型与挖掘研究提供了结构动态的数据支持。
3.规模庞大
此外,DGraph 中包含超过200万个“背景节点”,即并非分类或分析对象但实际存在、对业务逻辑有间接影响的节点。这些节点对于维持网络的连通性有着重要作用,在工业界广泛存在,可支持研究者深入探索背景节点的性质。合理处理背景节点可以在大规模数据场景下有效提升数据的存储空间和模型的运行效率。
如下图所示,DGraph中的节点表示信也科技服务的用户,有向边表示用户关系,每个节点包含脱敏后的属性特征,以及表示是否为金融诈骗用户的标签。

DGraph动态图数据
研究团队此前发布的论文《DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection》从图异常检测的角度出发,对DGraph进行了深入的数据分析与实验,结果阐明DGraph具有巨大潜力推动图异常检测的发展,同时DGraph所包含的多种广泛存在的工业特点值得更进一步探索。
信也科技相关负责人表示:“目前DGraph网站已吸引了一批来自清华大学、中科大、上海交大、同济大学等国内外知名高校的研究者。”其中,清华大学计算机系知识工程研究室基于他们最新的图学习框架CogDL,为DGraph数据集提供了多种图算法的Baseline。
当前,信也科技围绕着DGraph举办的第七届信也科技杯图算法大赛正面向全社会开放报名,国内外高等院校、科研院所、互联网企业等均可报名参赛,角逐共计31万人民币奖金。期待结合赛事契机,DGraph公开数据网站的发布能够帮助激发更多相关领域研究,并融入拓展更多其他领域的数据和实际应用,从而支持对于图领域特性和跨领域算法的研究,携手共建开放的数字生态。
相关文章
- 北京数据集团旗下数字认证举办信任互联合作伙伴大会 共启数据要素新征程
- 上海数据集团、阿里云、浩鲸科技深化战略合作 发力AI时代数据要素
- 中科天机高质量气象数据集上线魔搭社区,携手共建科学智能新生态
- 六大标杆成果集中亮相 湖北大数据集团第二个“百日攻坚”为全省数智经济发展注入新动能
- 全球最大规模!如视开源室内三维数据集Realsee3D
- 杭州语料库发布首批50个高质量数据集!
- 四维图新联合北京车网发布首个“双智”时空要素数据集
- 聚焦数据基石,共筑AI生态——“数据集和语料库赛道对接洽谈会”成功举办
- 突破具身智能「最后一公里」:灵巧智能首发DexCanvas数据集,破解机器人“手笨”难题!
- 破具身智能「最后一公里」:灵巧智能首发DexCanvas数据集,破解机器人“手笨”难题!
- 共筑智算新高地,九章云极携手扬州大数据集团、扬州广陵新城投资发展集团达成战略合作
- 新起点 新征程│数字认证正式并入北京数据集团!
- 老板电器入选国家首批高质量数据集建设试点,打造厨电行业“数据教科书”
- 亿信华辰数据治理解决方案助力构建高质量数据集
- 每日互动联手济南大数据集团 共筑数据要素安全流通新生态
- 全球数字经济大会 亿海蓝入选首批北京市高质量数据集
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









