维基百科将发布专用于训练人工智能模型的数据集,以抵御网络爬虫抓取
2025-04-17 22:07:03AI云资讯3932
(AI云资讯消息)维基百科将要发布一个专为训练人工智能模型优化的数据集,来劝阻人工智能开发者抓取维基百科平台内容。4月16日,维基媒体基金会宣布与谷歌旗下的数据科学社区平台Kaggle合作,发布了一个测试版数据集,其中包含结构化的英文和法文维基百科内容。
维基百科表示,Kaggle托管的这个数据集专为机器学习工作流程设计,能让人工智能开发者更便捷地获取机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。该数据集采用开放许可,截至4月15日已包含研究摘要、简短描述、图片链接、信息框数据和文章章节,但不含参考文献或音频文件等非文字元素。
维基百科表示,Kaggle用户可获取的结构良好的维基百科内容JSON格式数据,相比抓取或解析原始文章文本更具吸引力。目前自动化人工智能机器人持续消耗维基百科平台带宽,这给维基百科服务器带来压力。维基百科已与谷歌和互联网档案馆达成内容共享协议,但维基百科与Kaggle的合作将使中小企业和独立数据科学家更便捷地获取这些数据。
Kaggle合作伙伴关系负责人布伦达·弗林(Brenda Flynn)表示:"作为机器学习社区获取工具和测试的平台,Kaggle非常荣幸能托管维基媒体基金会的数据。Kaggle很高兴能在确保这些数据保持可获取、可用且实用的过程中发挥作用。"
相关文章
- 以算力筑基,向全球赋能:博大数据斩获IDCC2025年度全球数字基础设施领袖奖
- 做好的excel怎么通过网络自动搜集数据并自动汇总?
- 2025年私有化部署AIPPT厂家榜单:各品牌如何解决企业数据安全与效率痛点?
- AI生成只占10% 数睿数据企业级应用真正含金量在于90%“工程深海”
- 中国电信发布“星海可信数据空间”和“星辰智能体服务平台1.0”
- 谷轮赋能中国绿色数据中心建设,打造面向未来的制冷解决方案
- 国家级赛事再传捷报!中科天玑斩获 “数据要素 ×” 大赛文旅赛道全国总决赛荣誉
- 把数据中心塞进办公桌,让智能开发快N倍
- 上线25个省市!中国华电联合金仓数据库打造新能源智慧运营平台
- 博大数据荣登“2025中国AI算力领域最具商业潜力榜”:以融合算力基础设施,夯牢智能时代数字基石
- 全球数据周Tech Week Shanghai 2026即将启幕:打造亚太数据枢纽,引领全球数字创新浪潮
- O域核心!金仓数据库助力新疆移动资源管理系统成功上线
- 加和科技荣获CAAC数委会十周年“杰出贡献奖”,以数据智能与AI驱动品牌确定性增长
- 量子湃——深圳天顿数据科技有限公司旗下一站式智算服务平台!
- 能源革命与数据革命深度融合,电鸿生态加速电力系统数智化转型
- 响应国家数据要素战略 2025“数据要素X”大赛东软荣获多个奖项









