维基百科将发布专用于训练人工智能模型的数据集,以抵御网络爬虫抓取
2025-04-17 22:07:03AI云资讯4233

(AI云资讯消息)维基百科将要发布一个专为训练人工智能模型优化的数据集,来劝阻人工智能开发者抓取维基百科平台内容。4月16日,维基媒体基金会宣布与谷歌旗下的数据科学社区平台Kaggle合作,发布了一个测试版数据集,其中包含结构化的英文和法文维基百科内容。
维基百科表示,Kaggle托管的这个数据集专为机器学习工作流程设计,能让人工智能开发者更便捷地获取机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。该数据集采用开放许可,截至4月15日已包含研究摘要、简短描述、图片链接、信息框数据和文章章节,但不含参考文献或音频文件等非文字元素。
维基百科表示,Kaggle用户可获取的结构良好的维基百科内容JSON格式数据,相比抓取或解析原始文章文本更具吸引力。目前自动化人工智能机器人持续消耗维基百科平台带宽,这给维基百科服务器带来压力。维基百科已与谷歌和互联网档案馆达成内容共享协议,但维基百科与Kaggle的合作将使中小企业和独立数据科学家更便捷地获取这些数据。
Kaggle合作伙伴关系负责人布伦达·弗林(Brenda Flynn)表示:"作为机器学习社区获取工具和测试的平台,Kaggle非常荣幸能托管维基媒体基金会的数据。Kaggle很高兴能在确保这些数据保持可获取、可用且实用的过程中发挥作用。"
相关文章
- AI-Ready Data Platform:星环科技打造面向AI时代的数据基础设施
- 2026 挑战杯揭榜挂帅启幕 思迈特软件发布AI数据创新重磅命题
- 每日互动携个知·智能工作站亮相2026全球数据周 融入全球数字生态
- 筑牢数字中国底座 国产数据库从可用到引领的硬核突围
- 易智瑞时空智能解决方案:空间数据走向“问策“时代
- 聚合数据AI创作体验中心上线HappyHorse 1.0,原生音画联合生成赋能视频创作生态
- 共赴「芯」征程丨科华数据携手无问芯穹,与国产芯片厂商共同打造企业级“Token工厂”一体化解决方案
- 2026数字中国创新大赛总决赛圆满落幕,数据应用赛道创新成果引领行业发展
- 亮相国家数据局分论坛,云基华海第九届数字中国峰会释放数据要素新动能
- 浪潮 KaiwuDB 亮相 OpenClaw 开发者日,分享Agentic AI 时代数据底座建设思路
- 双奖加冕!中移互联网携“梧桐数盾”“梧桐数御”亮相第三届数据要素创新发展大会
- 清华大学数字政府与治理研究院携数据要素价值释放和场景示范应用成果亮相数字中国峰会
- 聚焦电力交易痛点:中科天机携手飔合科技,以精准气象数据为交易提质增效
- 契合OCP开放计算标准!瑞典希恩CEJN重磅推出两款全新数据中心产品: PBMC枢转盲插接头与液冷软管
- CAN/LIN诊断工具再进阶!聚焦车载与工业通信,Kvaser(克萨)免费通用工具CanKing 7.4.0重磅更新,搭载实时信号绘图功能,赋能总线数据高效调试
- 第九届数字中国峰会现场,趣链科技董事长李伟“三词箴言”定义数据要素流通新逻辑
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









