数据湖十年风雨路,云服务商缘何脱颖而出
2020-04-08 19:11:35
  • 0
  • 0
  • 0

数据湖,是一个并不新颖却越来越被用户看重的名词。

从2010年Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念开始,数据湖十年发展之路可谓是兜兜转转、起起伏伏。在这期间,既有开源厂商们提出的各种营销理念,也有传统存储厂商打造的各类解决方案,更有业界对于数据湖带来的数据沼泽、数据价值探索等问题的深入思考。

时至如今,数据湖虽然经历了各种各样的“挫折”,但是数据湖在数字化时代给用户带来的价值已经愈发清晰。而率先帮助用户走出数据湖价值落地之路的,不是开源厂商,也不是传统存储厂商,恰恰是以AWS为代表的云服务提供商们。

这背后有何缘由?这一切还得从数据湖的本质谈起。

数据湖的价值凸显

维基百科对于数据湖的定义是:“Data Lake是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据、非结构化数据以及二进制数据等。”

数据湖最大的价值在于可以帮助用户梳理清楚从数据存储、数据汇聚到数据挖掘这些过程。比如,相比于数据仓库对于数据协作有规则限制,数据湖对于数据写入没有限制,可以更容易的收集数据;数据湖可以汇聚来自各种数据源的数据,并进行数据拉通,从而消除数据孤岛的问题;而数据湖中存放着最原始的数据则更加有利于数据价值的挖掘。

千万不要小看数据湖所能完成的这些数据处理过程。这些都是用户们在数字化时代发挥数据价值所必不可少的基础。时至今日,数据其实已经成为数字化时代的一种最为重要的生产资料,数据正在加速重塑企业与组织的生产、经营、销售、服务等流程,就如AWS首席云计算企业战略顾问张侠所指出的:“在当今企业中,数据流就是企业的血液流,企业的数字化转型很重要的一个方向就是把数字化的资产好好利用起来。”

数据湖成为大势所趋

与此同时,数据湖在过去十年并不缺乏产品与解决方案,为何数据湖失败的案例依然不少,为何又是以AWS为代表的云服务提供商们率先走在数据湖解决方案落地的最前沿?

事实上,作为很早推动数据湖服务的公司,AWS的数据湖解决方案成功并不是偶然。首先,Amazon作为全球最大的互联网公司之一,其数据规模、数据复杂度、数据处理难度、数据价值挖掘在业界无出其右,由于背靠Amazon,AWS数据湖解决方案天然就得到了不断的历练,比如Amazon内部一个数据湖部署--Galaxy,就存储了超过50PB的数据量,每天进行着多达60万的数据分析任务。

其次,AWS数据湖在产品技术层面进行了持续的提升与完善,其产品组合的成熟度和丰富程度走在了业界的前列。举个例子,大部分数据湖解决方案都是基于开源Hadoop的,但之前Hadoop集群的计算和存储紧耦合架构,使得数据湖架构的扩展成本高、效率低;而AWS在构建数据湖解决方案时候,很重要的一个选择就是让计算与存储分离,在存储上采用S3对象存储服务,从而让数据湖解决方案可以更好地应用在用户业务领域。

另外,AWS作为云计算市场的龙头,其公有云的环境也有利于数据湖解决方案的部署,在过去十年中为多个不同行业、不同规模的用户提供相关的数据湖服务,积累了丰富的用户实践经验。

在产品、解决方案以及用户实践上的领先其实就是AWS在数据湖领域脱颖而出的秘诀所在。

十年之后,AWS描绘出数据湖全景图

从十年前的概念到如今被越来越多行业用户所认同和采用,数据湖如今不再只是一个名词,它更代表着一种进化,它是过去十年数字化驱动下,用户在数据层面的需求、技术、产品不断进化的一个缩影。

过去十年移动化、社交化带来了数据指数级增长、数据来源广泛化、数据类型多元化,而像5G、物联网、边缘计算的兴起,只会加剧数据应用的趋势,并且会让现代数据应用的复杂性进一步提升,这恰恰反映出用户过去十年对数据应用的需求不断驱动着数据湖走向落地。

在技术层面来看,云计算、大数据以及人工智能具备天然融合在一起的属性,云计算无疑是过去十年对整个IT产业界带来最大变革的技术,它的弹性、灵活为数据湖带来了坚实的基础;而人工智能在过去几年取得突破性的发展,使之成为驱动数据湖发展的最大驱动力之一。

而过去十年也是数据湖产品与解决方案不断走向成熟的十年。像AWS这样的供应商已经逐步打造出非常全面与完善的数据湖解决方案,可以涵盖从数据收集、汇聚到分析、应用、可视化等方方面面。“数据湖从2014年进入了发展的第二个阶段。以AWS为例,围绕数据湖相关的技术、产品已经基本成熟。”张侠如是说。

根据介绍,AWS数据湖平台包括了数据仓库、大数据处理、交互查询、运营分析、数据交换、可视化、实时分析、推荐、预测分析。事实上,AWS这种全面的数据湖生态完整覆盖了数据湖的数据收集、存储、分析、应用四个阶段,并且这些产品、工具以及服务彼此之间并不是孤立的,互相配合可以达到更加出色效果,快速、便捷地帮助用户构建起数据湖相关应用。

AWS拥有涵盖全面的数据分析组件

在AWS 数据湖平台中有很多非常出色的组件,可以帮助用户解决数据湖中典型的挑战。比如,Amazon EMR大数据处理组件,可以在AWS上轻松运行Spark、Hadoop、Hive等大数据分析。EMR解决了开源生态集群部署与维护升级繁杂的痛点,这对于用户快速应用数据湖开源产品与工具大有裨益,

而 Amazon Redshift是一款性能优秀、强大、使用简单、全托管的数据仓库服务,可以轻松进行大规模并行处理,支持TB级规模数据的扩展,可以通过Spectrum引起将查询扩展到Amazon S3,与数据湖集成可以进行EB级的数据湖分析。

其他像Amazon Kinesis、AWS Lake Formation、Amazon Aurora、Amazon S3等都是AWS上深受用户喜欢的产品与服务。张侠认为:“数据湖在云计算时代得以快速发展,它发展到现在已经包含了所有的数据库、数据仓库等服务,是企业数据体系的基础。数据湖其实比国内流行的数据中台更加全面,任何想构建数据中台的企业其实都可以在AWS找到全面的解决方案。”

多款新品落地,AWS加速中国数据湖应用

在中国市场,各个行业用户对于数据湖也是经历了一个从认知到认可的过程。张侠坦言,当前中国市场的数据湖应用依然处于早期阶段,整个市场有着非常大的潜力。

中国数据湖市场之所以是一个重要且广阔的市场,无外乎三点:

  • 首先,中国对于数字经济的重视程度超乎想象,从国家政策还是企业自身都对于发展数字经济有着广泛的共识,数字经济加速推动了各个行业的数字化进程。根据IDC《数据时代2025》白皮书预测,中国数据量预计在未来7年将每年平均增长30%,位居世界第一,随之而来的就是对于数据存储、汇聚、分析越来越多的需求。
  • 其次,在经历了多年的“企业上云”之后,各行各业对于云计算的认知和认可已经形成,在企业加速上云这个过程中,数据湖作为与云计算天然紧密联系在一起的应用,其实已经具备了非常好的基础设施环境,用户在上云之后逐步采用数据湖服务也是顺势而为。
  • 再次,中国市场在5G、人工智能、物联网等领域的步伐快速,尤其是5G商用所带来的云计算、通信、大数据、人工智能等多项技术走向融合,未来在各个行业中会催生出更多新的现代化数据应用场景,数据湖在这个过程中将会起到重要的支撑作用。
AWS在数据湖领域深厚的积累有助于推动中国数据湖应用落地

据悉,针对中国市场,AWS近期在中国两个区域陆续上线了多款重磅级的新产品与新服务,其中就包括AWS Glue和Amazon Athena两款跟数据湖相关的服务。张侠透露:“AWS中国之后会陆续上线数据湖相关的产品与服务。随着越来越多服务落地中国,中国区用户可以在短短几天之内完成数据湖的建立工作。”

例如,AWS Glue是数据湖应用中一款非常重要的服务,它可以帮助用户建立起无服务器架构的数据目录和ETL服务,自动发现数据并存储Schema,与AWS上运行的Aurora、RDS、Redshift、S3和数据库引擎天然集成,这将给用户在使用数据湖带来巨大好处。举个例子,用户之前想将数据导入Redshift云数据仓库,之前需要自己写ETL管道,非常不方便,如今有了AWS Glue能够快速完成数据的抽取、转换和加载。

“中国市场的确是到了该好好研究与使用数据湖的阶段了,尤其是5G、边缘计算应用上来之后,在数据层面更应该匹配走数据湖这条路。”张侠最后表示道。

总体而言,数据湖一晃已经走过了十年,从一个概念逐步走向落地。在这十年中,以AWS为代表云服务提供商们真是洞悉了用户在数据湖上的需求,并且围绕数据湖打造出来的一系列全面的产品体系,使得数据湖真正走出了一条价值之路。

十年意味着一个阶段的结束,也预示着下一个阶段的开启。数据湖在未来会有更大的舞台。

 
最新文章
相关阅读