微软开源大规模数据处理项目 Data Accelerator
2019-04-23 10:44:23AI云资讯1636
微软开源了一个原为内部使用的大规模数据处理项目 Data Accelerator。自 2017 年开发以来,该项目已经大规模应用在各种微软产品工作管道上。
据微软官方开源博客介绍,Data Accelerator 的一些方法可以更容易地在 Apache Spark 上构建流式传输管道:
- 即插即用:轻松设置输入源和输出接收器,以便在几分钟内建立管道。Data Accelerator 支持从 Eventhub 和 IoThub 取数据,并支持将数据下载到 Azure blob、CosmosDB、Eventhub 等。
- 无代码体验:无需编写任何代码即可设置警报和数据处理。通过规则设计器体验,您可以指定简单和聚合的数据处理,标记和警报。
- SQL 查询:在 SQL 中编写复杂的处理——无需在 Scala 中工作。内置的可扩展性模型还支持用户定义的函数并利用 Azure 功能,例如,用于 ML 中流。
- 实时查询:通过针对传入数据样本运行,在几秒钟内验证您的查询,从而节省设置和测试管道处理的工作时间。
Data Accelerator 不仅仅是 EventHub 和数据库之间的管道。它允许用户在继续流式传输的同时重塑传入的事件,然后将同一事件的不同部分路由到不同的数据存储,同时提供健康监控和整个管道状态的警报。
Data Accelerator 还提供配置 UI 和规则/查询设计器体验,使用户无需编写任何代码即可启动和运行。
此外,任何进行流数据处理的人通常都需要使用滑动窗口处理数据,或处理延迟到达数据,或者随时间累积数据。Data Accelerator 支持并简化了这些高级功能的使用。
最后,微软提到,Data Accelerator 支援 dev-test 循环的快速验证周期,其中查询针对本地采样的事件运行在部署之前就能迭代修正到可用,这可以节省大量测试工作管道处理的时间。
相关文章
- 微软紧急推送Windows 11更新,修复严重系统恢复漏洞
- 微软将重写 Windows 系统,把电脑改造成可对话的AI个人电脑
- 微软人工智能部门宣布推出首款自研图像生成器
- 微软Windows 11 2025年度更新25H2版本正式发布
- 微软在Excel和Word中推出Office智能体功能
- 微软携手OpenAI的竞争对手Anthropic,共同提升Microsoft 365应用效能
- 拥抱AI PC:英特尔联手微软、京东,以智能科技点亮校园生活
- 首席执行官萨提亚·纳德拉承认微软引领人工智能时代困难重重
- 微软将富士康空置建筑改造成全球最强人工智能数据中心
- 《消费者报告》杂志呼吁微软继续支持Windows 10
- 微软与OpenAI达成新协议,或为OpenAI上市铺平道路
- Windows开发者可以免费在微软应用商店发布应用程序
- 微软人工智能推出首批自研模型MAI-Voice-1语音模型与MAI-1预览版
- 芯动力RPP架构成功适配微软BitNet,打造端侧AI高效推理新生态
- 微软推出DirectX高级着色器交付技术 解决着色器卡顿问题
- 微软全线产品接入GPT-5:Copilot智能模式全面升级









