摘要:1月20日,2016云栖大会上海峰会在上海科技馆开幕。阿里云宣布开放阿里巴巴十年的大数据能力,发布全球首个一站式大数据平台“数加”,首批亮相20款产品。 |
这些产品覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。“在技术上至少领先业界三年”,阿里云大数据事业部资深总监徐常亮说,“数加”承载了阿里巴巴EB级别的数据加工计算,经历了上万名工程师的实战检验。
Datahub是数加上的一款数据采集产品,可为用户提供实时数据的发布和订阅功能。写入的数据可直接进行流式数据处理,也可参与后续的离线作业计算。Datahub同主流插件和客户端保持高度兼容。
大数据计算服务MaxCompute(原ODPS)、分析型数据库Analytic DB、流计算StreamCompute共同组成了底层强大的计算引擎。
1、大数据计算服务可6小时处理100PB数据,相当于1亿部高清电影。单集群规模过万台,并支持多集群联合计算。做到了速度更快,成本更低。
经测算,自建Hadoop集群的成本是数加的1.5倍,国外计算厂商AWS 的EMR成本更是数加的5倍。阿里云当天还宣布,大数据计算服务再降价50%。
2、分析型数据库可实现对数据的实时多维分析,百亿量级多维查询只需100毫秒。
3、流计算擅长对实时流式数据进行分析,具有低延时、高性能的特点。每秒查询率可以达到千万级,日均处理万亿条消息、PB量级的数据。
计算引擎之上,“数加”提供了最丰富的云端数据开发套件,开发者可一站式完成数据加工。这些产品包含:数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控。
整体来看,大数据开发套件的优势包括:支持100人以上协同设计、开发、运维;具有良好的扩展性;提供各个产品功能模块的Open API,可二次开发;多个数据实例之间的数据授权机制,确保数据只能使用却不可见;提供白屏化的运维能力,以及字段级数据质量监控、机器预警、资源使用率监控等功能,让用户更好的掌控自己的数据及数据任务。
在数据分析方面,数加提供了3款产品供开发者使用: