维基百科将发布专用于训练人工智能模型的数据集,以抵御网络爬虫抓取
2025-04-17 22:07:03AI云资讯4079

(AI云资讯消息)维基百科将要发布一个专为训练人工智能模型优化的数据集,来劝阻人工智能开发者抓取维基百科平台内容。4月16日,维基媒体基金会宣布与谷歌旗下的数据科学社区平台Kaggle合作,发布了一个测试版数据集,其中包含结构化的英文和法文维基百科内容。
维基百科表示,Kaggle托管的这个数据集专为机器学习工作流程设计,能让人工智能开发者更便捷地获取机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。该数据集采用开放许可,截至4月15日已包含研究摘要、简短描述、图片链接、信息框数据和文章章节,但不含参考文献或音频文件等非文字元素。
维基百科表示,Kaggle用户可获取的结构良好的维基百科内容JSON格式数据,相比抓取或解析原始文章文本更具吸引力。目前自动化人工智能机器人持续消耗维基百科平台带宽,这给维基百科服务器带来压力。维基百科已与谷歌和互联网档案馆达成内容共享协议,但维基百科与Kaggle的合作将使中小企业和独立数据科学家更便捷地获取这些数据。
Kaggle合作伙伴关系负责人布伦达·弗林(Brenda Flynn)表示:"作为机器学习社区获取工具和测试的平台,Kaggle非常荣幸能托管维基媒体基金会的数据。Kaggle很高兴能在确保这些数据保持可获取、可用且实用的过程中发挥作用。"
相关文章
- 从时序数据库到 AI 原生:涛思数据发布工业数据管理新战略
- 数据境内留存:ManageEngine 卓豪中国数据中心如何助力外企满足 PIPL 要求
- 展会数字营销的数据算法黑盒:拆解从裂变系数到ROI归因的实战方法论
- 科士达参编《预制化数据中心技术规范》 ,以全栈实力筑牢行业发展基石
- IBM完成对Confluent的收购,让实时数据成为企业级AI与智能体的引擎
- 玩美数据深度实践:以用户细分带动业务增长
- 华为发布全新AI数据基础设施
- 研言堂|数据的温度:AI时代用户共创的价值重构
- 航天智造(厦门)科技研究院斩获航天级发动机数据分析软件软著
- 上海数据集团、阿里云、浩鲸科技深化战略合作 发力AI时代数据要素
- 排队节省40分钟!金仓数据库守护湘江新区百万居民就医路
- 中国人民大学联合金仓数据库攻克数据库测试难题,论文入选ICSE 2026
- 易联众睿图影像数据中台:影像数据“活起来”,医疗服务“智起来”
- 微云全息(NASDAQ:HOLO)视角下的私有区块链: 技术维度与数据处理性能分析
- 三十而立,太平鸟的“潮”前秘诀:以用户为中心,用数据重塑时尚
- AWE2026:绿联科技携手中国摄影报·旅拍中国, 共筑影像数据新生态
人工智能企业
更多>>人工智能硬件
更多>>- 一加 15T 搭载小屏唯一 165Hz 旗舰小直屏,引领小屏屏显体验大换代
- 鲲鹏 为更先进的数智世界而计算——李义在鲲鹏伙伴峰会2026上的主题发言
- 拥抱赋能OpenClaw智能生态,此芯科技CIX ClawCore螯芯系列芯片震撼首发
- 机械革命硬核新品京东首发 耀世18Pro巨幕旗舰、无界14轻薄本开启预约
- 无折痕折叠旗舰引爆市场:OPPO Find N6首销日湖南门店现抢购热潮
- AMD锐龙 AI MAX+ 392 移动处理器加持 华硕天选Air 2026 锐龙 AI Max版开启高效学习
- 聚焦 COSP 户外展:BleeqUp 超影擎如何用 AI 眼镜重新定义户外运动交互?
- 一加 15T 搭载 LUMO 凝光影像系统,3.5 倍潜望长焦加持拍人拍景更出彩









