维基百科将发布专用于训练人工智能模型的数据集,以抵御网络爬虫抓取
2025-04-17 22:07:03爱云资讯3701
(爱云资讯消息)维基百科将要发布一个专为训练人工智能模型优化的数据集,来劝阻人工智能开发者抓取维基百科平台内容。4月16日,维基媒体基金会宣布与谷歌旗下的数据科学社区平台Kaggle合作,发布了一个测试版数据集,其中包含结构化的英文和法文维基百科内容。
维基百科表示,Kaggle托管的这个数据集专为机器学习工作流程设计,能让人工智能开发者更便捷地获取机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。该数据集采用开放许可,截至4月15日已包含研究摘要、简短描述、图片链接、信息框数据和文章章节,但不含参考文献或音频文件等非文字元素。
维基百科表示,Kaggle用户可获取的结构良好的维基百科内容JSON格式数据,相比抓取或解析原始文章文本更具吸引力。目前自动化人工智能机器人持续消耗维基百科平台带宽,这给维基百科服务器带来压力。维基百科已与谷歌和互联网档案馆达成内容共享协议,但维基百科与Kaggle的合作将使中小企业和独立数据科学家更便捷地获取这些数据。
Kaggle合作伙伴关系负责人布伦达·弗林(Brenda Flynn)表示:"作为机器学习社区获取工具和测试的平台,Kaggle非常荣幸能托管维基媒体基金会的数据。Kaggle很高兴能在确保这些数据保持可获取、可用且实用的过程中发挥作用。"
相关文章
- 从分布式存储到 AI 平台:企业云私有化方案如何构建全链路数据安全体系
- 晟联科受邀出席台积电技术研讨会,高速接口IP组合及解决方案助推海量数据畅行
- 闪存普惠,一步到位 | 华为商业市场极简全闪数据中心Pro+重磅发布
- AI for Process直播日|“干货”分享,金融领域AI数据应用洞察与突围
- 金仓数据库26周年|淬火砺重器,万里再扬帆
- 极光月狐数据发布:2025年智能PPT行业市场研究报告
- Yeelight Pro集成驱动程序上线Control4全球数据库,开启全屋智能新时代
- “无智联,不AI”品智联接数据通信商业市场创新峰会成功举办
- 数智加速 华为极简全闪数据中心Pro+暨新品发布会即将举行
- 5G基站“智能午休”,数据中心“精打细算” 浙江移动低碳科技打造“绿色流量”
- 综合实力TOP10、蝉联生态图谱、入选创新案例,博大数据三冕加身再出发
- 数据为笔绘少年答卷!2025 少年开发者人工智能大赛复评答辩完美收官,决赛蓄势待发
- 花瓣地图与GrabMaps签署合作备忘录,深化东南亚地图数据合作
- 喜讯!科士达全变频智慧氟泵自然冷精密空调荣获2024年度数据中心用户满意产品奖
- 亚信科技、跨境数科助力上海打造“国际数据港”,成立联合实验室
- 商业大数据企业纷纷布局B端业务,B端市场或成必争之地