维基百科将发布专用于训练人工智能模型的数据集,以抵御网络爬虫抓取
2025-04-17 22:07:03爱云资讯3606
(爱云资讯消息)维基百科将要发布一个专为训练人工智能模型优化的数据集,来劝阻人工智能开发者抓取维基百科平台内容。4月16日,维基媒体基金会宣布与谷歌旗下的数据科学社区平台Kaggle合作,发布了一个测试版数据集,其中包含结构化的英文和法文维基百科内容。
维基百科表示,Kaggle托管的这个数据集专为机器学习工作流程设计,能让人工智能开发者更便捷地获取机器可读的文章数据,用于建模、微调、基准测试、对齐和分析。该数据集采用开放许可,截至4月15日已包含研究摘要、简短描述、图片链接、信息框数据和文章章节,但不含参考文献或音频文件等非文字元素。
维基百科表示,Kaggle用户可获取的结构良好的维基百科内容JSON格式数据,相比抓取或解析原始文章文本更具吸引力。目前自动化人工智能机器人持续消耗维基百科平台带宽,这给维基百科服务器带来压力。维基百科已与谷歌和互联网档案馆达成内容共享协议,但维基百科与Kaggle的合作将使中小企业和独立数据科学家更便捷地获取这些数据。
Kaggle合作伙伴关系负责人布伦达·弗林(Brenda Flynn)表示:"作为机器学习社区获取工具和测试的平台,Kaggle非常荣幸能托管维基媒体基金会的数据。Kaggle很高兴能在确保这些数据保持可获取、可用且实用的过程中发挥作用。"
相关文章
- 金仓数据库:深耕民生领域 赋能数字化转型新征程
- AI时代,数据觉醒 | 华为发布AI数据湖解决方案,加速行业智能化
- MAXHUB亮相数字中国建设峰会:AI重构会议体验,数据驱动企业决策
- 中国移动发布梧桐大数据“AI+DATA”系列创新成果
- 金仓数据库:三轮驱动,赋能数字中国高质量发展
- 启信宝荣获2024年上海市电信和互联网行业数据要素流通标杆案例
- 金仓数据库:在网信领域持续打造有竞争力的产业生态
- 释放数据要素潜能,共赴2025数据安全发展大会
- 慧科讯业AI赋能数据标签化,破局多模态数据治理难题
- 合思冯子瑜:电子会计档案+AI,让数据释放更多价值
- 金蝶信科王宏:AI重塑小微信贷流程 数据“替企业说真话”
- 刘东:以标准推进国际数据流通 助力人工智能产业创新发展
- 戴尔智能冷却:以创新技术引领数据中心绿色革命
- 中国人形机器人生态大会丨虚拟动点破解具身智能“数据”难题
- 2025 IT市场权威榜单丨科华数据连续五年获评新一代信息技术领军企业
- 以劳动丈量价值 用实干筑牢根基——远大铝业发布一线工人薪酬增长数据,诠释实业报国担当