维基百科将发布专用于训练人工智能模型的数据集,以抵御网络爬虫抓取
2025-04-17 22:07:03AI云资讯3867
(AI云资讯消息)维基百科将要发布一个专为训练人工智能模型优化的数据集,来劝阻人工智能开发者抓取维基百科平台内容。4月16日,维基媒体基金会宣布与谷歌旗下的数据科学社区平台Kaggle合作,发布了一个测试版数据集,其中包含结构化的英文和法文维基百科内容。
维基百科表示,Kaggle托管的这个数据集专为机器学习工作流程设计,能让人工智能开发者更便捷地获取机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。该数据集采用开放许可,截至4月15日已包含研究摘要、简短描述、图片链接、信息框数据和文章章节,但不含参考文献或音频文件等非文字元素。
维基百科表示,Kaggle用户可获取的结构良好的维基百科内容JSON格式数据,相比抓取或解析原始文章文本更具吸引力。目前自动化人工智能机器人持续消耗维基百科平台带宽,这给维基百科服务器带来压力。维基百科已与谷歌和互联网档案馆达成内容共享协议,但维基百科与Kaggle的合作将使中小企业和独立数据科学家更便捷地获取这些数据。
Kaggle合作伙伴关系负责人布伦达·弗林(Brenda Flynn)表示:"作为机器学习社区获取工具和测试的平台,Kaggle非常荣幸能托管维基媒体基金会的数据。Kaggle很高兴能在确保这些数据保持可获取、可用且实用的过程中发挥作用。"
相关文章
- 中国贡献!全球首个专注于文物艺术品溯源元数据的国际标准正式通过
- 英特尔锐炫多卡方案:从边缘到数据中心,为全场景AI部署提供高效部署路径
- 四维图新联合北京车网发布首个“双智”时空要素数据集
- 金仓数据库助力国家电网智慧计量工控系统上线
- 2025第三季度智能机市场数据出炉 传音重回全球第四
- 天维信通CBC Tech获授Zscaler数据安全销售认证
- 澳鹏发布RoboGo具身智能数据开发平台,破解AI物理世界交互数据难题
- 守护用户数据安全,OPPO 携火山引擎发布《移动 Agent 安全技术白皮书》
- 国货的下一站机遇:玩美数据《2025美妆护肤品消费者报告》核心解读
- 破解数据流动治理难题!石犀科技荣获中国互联网创新大赛三等奖!
- 达梦数据闪耀2025移动大会,全栈赋能通信数智新时代
- 乘智算东风,筑AI算力基石丨科士达模块化数据中心案例图谱
- 首站深圳!构建AI时代数据护城河 YashanDB引领数智升级加速度
- 赛意信息筑基灯塔工厂:从数据治理到AI赋能,引领中国智造新标杆
- 智慧城市的绿色引擎:从楼宇到数据中心的可持续之路
- 破数据迷宫,立智能标准|阳采集团AI商品数据治理解决方案