AI Challenger大赛:搜狗开设翻译、问答双赛道,企业级数据集助力AI技术研究
2018-10-22 17:15:00AI云资讯1465
10月20日,“AI Challenger 走进传智汇•搜狗专场”在上海举行。AI Challenger是面向全球人工智能人才开放的数据集和编程竞赛平台,致力于打造大型、全面的科研数据集与世界级竞赛平台。作为发起方之一,继去年开设翻译赛道后,此次搜狗新增问答领域赛道,开放口语领域、机器阅读理解领域全球规模最大、难度最大的数据集。
分享会上,搜狗公司专家研究员翟飞飞、搜狗杭州研究院首席研究员张奇分别分享了搜狗在翻译及问答领域的技术研究及成果。翟飞飞表示,“目前的翻译常见于基于一个句子进行,但实际生活中的应用范围却是场景和篇章,希望通过我们的分享,能够帮助大家在翻译上做更多探索。”张奇则对机器问答技术进行了介绍,“整个问答就是搜索加上阅读理解,搜索引擎已从‘搜关键词得链接’发展到‘搜问句得答案’的时代。”
拥有庞大用户量的搜狗,积累了海量数据集,此次为大赛开放企业级数据集,一方面,有效解决了AI技术落地中数据集缺失的问题,让AI技术更加实用化地应对真实世界的问题。另一方面,为人工智能产业发掘并培养优秀人才,促进行业发展创新。
全球规模最大数据集,助力翻译体验更加人性化
随着全球化的不断深入,跨国交流逐渐成为常态,人工翻译门槛高、入门慢,已经不能满足人们爆发式增长的交流需求,机器翻译越来越具备成为跨语言交流工具的优势。

(搜狗公司专家研究员翟飞飞在会上发表演讲)
在AI技术真正应用于翻译之前,语序错乱、翻译速度慢等问题层出不穷,人们对机器翻译的能力并不满意。然而在实际研究中,数据的缺失对机器翻译技术的研发及落地应用带来了诸多限制和难题,机器翻译要真正应用于现实生活中,复杂的应用场景也对数据的选取提出了更高的要求。
2017年,搜狗作为主办方之一,在第一届AIChallenger中主持翻译赛道,开放1000万规模的中英双语数据集,吸引超2000个团队的6000名左右选手参赛。今年,搜狗再次开设翻译领域赛道——英中文本机器翻译,在去年1000万级中英双语数据的基础上,新增300万带有上下文情景的双语数据,开放1300万全球规模最大的口语领域英中双语对照数据集,在开放的中英语料里,搜狗超过千万级的语料规模,仅次于联合国平行语料库(亿级)。真实有价值的企业级数据为机器翻译的研究提供更多探索空间,推动翻译产品使用体验更加人性化。
企业级的数据来自于搜狗在机器翻译领域的多年积累,翻译是搜狗AI战略中的重要一环,且搜狗已取得阶段性成果突破,不仅在国际学术赛事WMT2017中层获得中英和英中机器翻译双向冠军,并且发布了全球首次商用基于深度神经网络的同传翻译技术,在领先技术的支持下,搜狗推出英文搜索、翻译宝pro等软硬件产品,率先推动AI翻译技术走向实用化,将技术真正落到实处。
全球难度最大数据集,为提供更精准的答案积蓄力量
机器的使命之一是和人做沟通,如何让人和机器能够更自然地沟通交互是当前发展人工智能技术的前沿议题。随着人工智能的发展,问答技术成为推动人与机器自然沟通的下一个发力点,问答相当于搜索加阅读理解,即让机器先理解问题,然后从海量网页中寻找问题的答案。

(搜狗杭州研究院首席研究员张奇在会上发表演讲)
今年的AIChallenger上,除翻译赛道外,搜狗增设问答领域赛道:观点型问题机器阅读理解,开放总共30万规模的数据集,数据中包括问题及对应短文本和答案。此次开放的问答数据,不仅是全球难度最大的中文阅读理解开源数据集,同时也是全球最大的观点型机器阅读理解公开数据集。
事实上,在很多问答比赛中,使用的数据并不是真实问题,而是人为构建,与现实存在很大差距。而搜狗搜索作为国内第二大搜索,拥有超5亿用户规模,积累了大量丰富且真实的数据。此次AIchallenger大赛,搜狗在问答赛道中针对阅读理解中较为复杂的,但是十分典型的观点型问题构建了大规模语料,语料均来自于用户的真实问题和真实需求,帮助参赛团队实现实用化程度高的研究,提升阅读理解的研究水平,推动问答技术研究向更高阶段发展。
用AI应对真实世界的问题,让技术真正走向生活
在2018 AI Chanllenger开幕式上,搜狗CEO王小川表示,“数据是AI研发的核心,如果没有真实的数据,应用场景就会走偏,技术研究的方向具体的算法就会走向错误。”
真实的互联网数据是展开前沿技术研究最重要的依靠,早在2006年,搜狗就与清华大学联合成立“清华搜狗搜索技术联合实验室”,将积累的大数据资产开放给高校,共同推动前沿技术研究与进步。
此次挑战赛上,搜狗不仅给出题目和赛道,并在赛道中开放企业级数据集,其重量级、真实的数据集为人工智能的实际需求研究提供助力,为技术的应用场景保驾护航。同时,搜狗也将与优秀人才进一步沟通交流,共同提升研究的实用性价值,让人工智能更加实用化。
王小川认为,“人工智能与人不是取代的关系,而是配合的关系,最终将成为人类能力的延伸。”作为人工智能领域的开拓者,搜狗用开放的力量整合创新能力,为人工智能行业培养并输送人才,为行业进步和发展提供内驱力,推动中国人工智能领域科研创新。
相关文章
- 阳台储能开创者疆海科技完成数亿元 B 轮融资,押注 AI 时代的家庭能源中心
- 开源!鲸智百应升级,浩鲸科技重新定义企业AI原生
- 万兆AI惠商 联通美好未来 ——中国联通东莞市分公司5・17 电信日暨联通客户日活动圆满举行
- 中国联通在北京地区携手华为发布3000M宽带新产品,全光臻宽带矩阵为“双万兆AI提质行动”添砖加瓦
- 超显商城整合核心GLED显示技术,开启显示设备AI定制新模式
- 博大数据荣膺“全球AI生态基石大奖”,夯实融合算力基础设施服务商领先地位
- 全国人工智能发展大会 AI HANGZHOU 2026中国(杭州)国际人工智能展览会
- 酷开发布企业AI操作系统 开启硅基管理新时代
- 酷开AIOS:定义“企业AI操作系统”的野心与挑战
- 华为超千兆新品亮相山西!三频Wi-Fi 7+AI 焕新智慧家庭新生活
- 辽宁与华为联合发布超千兆三频Wi-Fi 7+AI 新品,共筑辽沈智慧家庭新生活
- 亿达科创亮相国际人工智能展再获AI大奖
- 花旗银行报告称,台积电在AI领域的主导地位不会受到英特尔威胁
- 华为云创想者大会主题论坛议程公布:释放Agentic AI新布局
- 与AI同行 3000M助力 共创智家新生活——中国联通品牌与产品辽宁宣传推广会 全面启动联通社区惠民行系列行动
- 以创新设计重塑 AI 路由未来,MOVA LINCO X1 Pro 荣膺红点奖
人工智能企业
更多>>人工智能硬件
更多>>- 一飞智控携全空间解决方案及三款新品,亮相2026世界无人机大会
- 续航超强的微星全新尊爵系列,重塑轻薄本的超凡全能体验
- BOE(京东方)全球首发原生千帧FHD 护眼电竞显示器 真千帧硬实力引领电竞高刷新时代
- Neousys宸曜发布星宸系列强固嵌入式工控机,赋能工业智能升级
- BOE(京东方)OLED技术赋能联想YOGA Air 14 Ultra 定义超轻薄AI PC新标杆
- iQOO 15T正式发布:天玑9500 Monster版加持 全能体验无短板
- 从“+AI”到“AI+”:天禧AI 4.0加持,联想AI主机领衔L3级终端震撼登场
- 拾年匠音,声来不凡,致敬1000X系列十周年 索尼发布1000X十周年典藏版头戴降噪耳机
人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









