维基百科将发布专用于训练人工智能模型的数据集,以抵御网络爬虫抓取
2025-04-17 22:07:03AI云资讯4016

(AI云资讯消息)维基百科将要发布一个专为训练人工智能模型优化的数据集,来劝阻人工智能开发者抓取维基百科平台内容。4月16日,维基媒体基金会宣布与谷歌旗下的数据科学社区平台Kaggle合作,发布了一个测试版数据集,其中包含结构化的英文和法文维基百科内容。
维基百科表示,Kaggle托管的这个数据集专为机器学习工作流程设计,能让人工智能开发者更便捷地获取机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。该数据集采用开放许可,截至4月15日已包含研究摘要、简短描述、图片链接、信息框数据和文章章节,但不含参考文献或音频文件等非文字元素。
维基百科表示,Kaggle用户可获取的结构良好的维基百科内容JSON格式数据,相比抓取或解析原始文章文本更具吸引力。目前自动化人工智能机器人持续消耗维基百科平台带宽,这给维基百科服务器带来压力。维基百科已与谷歌和互联网档案馆达成内容共享协议,但维基百科与Kaggle的合作将使中小企业和独立数据科学家更便捷地获取这些数据。
Kaggle合作伙伴关系负责人布伦达·弗林(Brenda Flynn)表示:"作为机器学习社区获取工具和测试的平台,Kaggle非常荣幸能托管维基媒体基金会的数据。Kaggle很高兴能在确保这些数据保持可获取、可用且实用的过程中发挥作用。"
相关文章
- 维谛技术(Vertiv)2026数据中心前瞻:一场正在发生的基础设施重构
- 马斯克称人工智能的发展速度将迫切需要建立轨道数据中心
- 数睿数据smardaten入选全国信标委《软件工厂工具及基础设施图谱》
- 云器科技完成B轮融资 资本加码AI时代的新数据基础设施
- 聚焦AI应用实战,第2届PolarDB数据库创新设计赛精彩收官!
- 文远知行GENESIS重构数据价值,CEO韩旭直言:数据已经没有那么值钱了!
- 慧博科技荣膺 “2025 消费品行业数字化最佳供应商”,用数据智能重新定义品牌增长效率
- 数据登顶、新品领先、利润攀升:科沃斯打出“三连击”,重塑2026行业天花板
- 马斯克宣称合并SpaceX与xAI,拟在太空建设数据中心
- SpaceX计划在轨道上部署100万个太阳能数据中心
- 博大数据入选“绿色低碳先进企业”,以技术创新引领算力基础设施绿色升级
- 红数据×灵积引擎×豹播:茉莉数科AI产品矩阵如何打通营销全链路
- 三维天地推出多模态数据湖产品SW-DBLake,重新定义AI时代的数据基石
- 协创数据2025年业绩预增超50%:存储算力双轮驱动 构筑AI基建核心竞争力
- 马斯克的SpaceX与xAI或将合并,有助于推进太空数据中心发射计划
- 告别信息孤岛,灵科超声波焊接机实现生产线数据实时流动









