数据是AI发展的关键要素,可促进行业大模型的发展效率提升
2024-02-25 07:50:02爱云资讯
数据是AI大模型的关键竞争要素之一。高质量数据集能够提高模型精度与可解释性,并且减少训练时长。OpenAI 在《Scaling Laws for Neural Language Models》中也提出LLM 模型所遵循的“伸缩法则”(scaling law),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。
例如,大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集:与GPT-2相比,GPT-3对模型架构只进行了微小的修改,但花费精力收集更大的高质量数据集进行训练。ChatGPT与 GPT-3的模型架构类似,并使用RLHF(来自人工反馈过程的强化学习)来生成用于微调的高质量标记数据。
据IDC 研究发现,积极参与数字化转型的客户群体都有AI数据服务的需求,其中标注质量、标注效率、知识经验、数据安全、整体成本五个维度,构成了用户对 AI 数据服务商的能力要求。云测数据是高质量、场景化AI数据服务厂商代表,正通过扎根市场的实践积累和其进行前瞻布局与前沿技术能力探索,积极地发挥着训练数据的价值。
云测数据在业务端面向智能驾驶、智慧城市、智能家居、智慧金融、新零售等众多领域提供一站式数据处理服务,提供通用数据集、数据标注平台&数据管理系统等生产工具,持续为计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域提供高价值数据支持。
例如云测数据推出的“面向垂直行业大模型的数据解决方案”,可以为行业客户深度定制数据采集方案,助力获取高价值数据,在面对微调任务会根据大模型落地场景特点,提供包含QA-instruct、prompt等文本类任务项目和多模态大模型的相关能力支持。在完成微调后,云测数据通过垂直领域的人员和专家积累+评测体系和服务,帮助企业对各个垂直应用落地领域进行评估。并通过以集成数据底座为核心的数据标注平台,将难例数据回流完成清洗标注,为更有效率的模型调优做准备。
数据质量和数据量将是下一阶段大模型能力涌现关键中的关键。如果数据的问题不能解决,意味着大模型发展将缺少根基。上海数据交易所副总经理韦志林也曾表示“大模型的预训练对数据要求特别高,必须在前期进行清洗、标注、标识,但围绕千行百业的数据训练,在数据供给方面也呈现出了许多问题和挑战。”
当前,很多专注于垂直领域的科技公司也在探索特定领域的行业大模型,中国行业大模型覆盖领域较为丰富,其中商业、金融、医疗等领域的行业大模型探索较多。相信随着国内数据服务产业蓬勃发展,数据服务商未来将在数据加工处理,数据基础设施建设,数据资源集成,提供数据分析服务等方面协助企业构建高质量数据集,进一步提升我国大模型训练的数据质量,从而促进各行业大模型的发展效率提升。
- 思科重新构想人工智能时代的数据中心与云端安全
- Aloudata 携手杭州银行荣获「 中国数据资产管理最佳实践案例」
- 混合云数据保护,能否走出“一地鸡毛”
- 新点软件应邀出席2024乌镇数据要素产业对接会,共探数据要素产业新趋势
- 小影科技参编《生成式人工智能数据应用合规指南》团体标准正式发布
- EMQX Platform 产品发布会回顾:全球部署与无缝数据集成,驱动汽车行业智能化转型
- Kingwow(金乌)数据库荣获2023年度金融信创“优秀解决方案”奖
- 云测数据入选2024全国“人工智能+”行动创新案例TOP100
- 国产数据库实践:亚信安慧AntDB在DTC 2024展示创新实力
- 更深入、更高效、更精准,神策数据海外媒介效果分析能力升级
- 美创科技19周年数据安全实践巡礼
- 数栈+AI:数栈V6.2创新发布,让数据开发更智能
- 数据原点,持续生长--打造数字化转型最佳实践
- 共创数据场景价值,上海数交所携手合合信息举办数据资产管理与创新应用专题研讨会
- 助力数字化发展安全前行|瀚高数据库再获市场认可
- 凌锐蓝信自研SmartEdge智能边缘数据传输系统获发明专利,开创数据传输新局面
- 探索影像新境界:华为Pura70系列与云空间的完美融合体验
- 浪潮商用机器2024 Power Start精彩上演 乘AI东风再绘生态新蓝图
- 水陆两用运动耳机鲸语Alpha新品来袭,音乐潮玩OWS耳机鲸语Loki叛逆亮相
- 西部数据以多样化存储产品赋能广电视听行业多元化发展,携手伙伴共同探索大视频时代下的用户体验
- 黑鹰灭凤凰!联发科天玑9400 CPU采用最新架构,IPC性能鲨疯了
- 超擎数智重磅发布擎天、锋锐、元景系列AI服务器,打造人工智能新质生产力强劲引擎
- CPU性能还是得看联发科,天玑9400采用Arm黑鹰架构又要封神
- 一顿烧烤钱升级疾速WIFI7网络,中兴巡天BE5100仅需229起双2.5G版即将开售