维基百科将发布专用于训练人工智能模型的数据集,以抵御网络爬虫抓取
2025-04-17 22:07:03爱云资讯3669
(爱云资讯消息)维基百科将要发布一个专为训练人工智能模型优化的数据集,来劝阻人工智能开发者抓取维基百科平台内容。4月16日,维基媒体基金会宣布与谷歌旗下的数据科学社区平台Kaggle合作,发布了一个测试版数据集,其中包含结构化的英文和法文维基百科内容。
维基百科表示,Kaggle托管的这个数据集专为机器学习工作流程设计,能让人工智能开发者更便捷地获取机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。该数据集采用开放许可,截至4月15日已包含研究摘要、简短描述、图片链接、信息框数据和文章章节,但不含参考文献或音频文件等非文字元素。
维基百科表示,Kaggle用户可获取的结构良好的维基百科内容JSON格式数据,相比抓取或解析原始文章文本更具吸引力。目前自动化人工智能机器人持续消耗维基百科平台带宽,这给维基百科服务器带来压力。维基百科已与谷歌和互联网档案馆达成内容共享协议,但维基百科与Kaggle的合作将使中小企业和独立数据科学家更便捷地获取这些数据。
Kaggle合作伙伴关系负责人布伦达·弗林(Brenda Flynn)表示:"作为机器学习社区获取工具和测试的平台,Kaggle非常荣幸能托管维基媒体基金会的数据。Kaggle很高兴能在确保这些数据保持可获取、可用且实用的过程中发挥作用。"
相关文章
- 当分布式成为标配:企业数据库选型的误区与真相
- “IPv6+数据空间”双轮驱动 助力汽车产业开启跨境数据可信流通新篇章
- 熊猫群邀请计数器,统计群成员拉人数据,拓展社群规模,私域小帮手
- 30余家上市企业走进药易购,药易购展示数据资产成果与先进经验
- 从恢复到防御,瑞数信息如何用“数据韧性”重构备份系统价值?
- 第20届 R+T Asia 亚洲门窗遮阳展圆满收官!展会数据再创新高!
- 得一微定义“AI存力芯片”,让每比特数据创造更多智能
- 固态电池量产前夜的突围者:比克电池已实现交付,数据领先
- 雁门萨氏萨师煊:中国数据库学科的拓荒人与奠基者
- “数境杯”数据智能创新应用大赛·工业数字孪生 专业赛(第四届)全国总决赛及颁奖典礼成功举办
- 天罡智算助力全国统一大市场建设:破解数据要素流通与中小企业算力困局
- 第十四届双态IT用户大会圆满结束!共论AI管理及数据管理提升之道
- 博大数据廊坊智算中心送电成功,构筑京津冀智算新基座
- 科华数据高压直流新品:解锁智算中心供电“密码”
- 能源领域新兴技术论坛:EMQ 实时数据引擎构建工业智能中枢
- AI竞争关键在于“数据竞赛”, 星环科技AI-Ready Data Platform成破局密钥