您现在的位置是:首页» windows系统» apacheflink是开源的嘛,apacheflink有什么功能

apacheflink是开源的嘛,apacheflink有什么功能

2023-10-20 17:49:05
今天小编为大家分享Windows系统下载、Windows系统教程、windows相关应用程序的文章,希望能够帮助到大家!   随着人工智能时代的到来,数据量呈现爆发式增长。在大数据的典型业务场景中,数据业务通常采用两种处理方式:批处理技术处理全量数据,流式计算处理实时增量数据。在大多数情况下,用户的业务逻

今天小编为大家分享Windows系统下载、Windows系统教程、windows相关应用程序的文章,希望能够帮助到大家!

  随着人工智能时代的到来,数据量呈现爆发式增长。在大数据的典型业务场景中,数据业务通常采用两种处理方式:批处理技术处理全量数据,流式计算处理实时增量数据。在大多数情况下,用户的业务逻辑在批处理和流处理中是相同的,但是却需要使用不同的计算引擎。

  这就导致用户通常需要写两套代码,这不可避免地增加了额外的负担和成本。阿里巴巴的商品数据处理中经常需要面对增量和全量两套不同的业务流程问题,因此阿里巴巴开始思考能否使用一套统一的大数据引擎技术,用户只需根据自身业务逻辑开发一套代码。这样无论是处理全量数据还是增量数据,甚至实时处理,在任何不同的场景下都能选择一套方案来支持。

  当前,有许多开源的大数据计算引擎可供选择,如流计算引擎Storm、Samza、Flink、Kafka Stream等,以及批处理引擎Spark、Hive、Pig、Flink等。而支持流处理和批处理的计算引擎只有两种选择:Apache Spark和Apache Flink。

  从技术和生态等多个方面考虑,Spark的技术理念是基于批处理来模拟流处理,而Flink完全相反,它采用基于流处理来模拟批处理。从技术发展方向来看,用批处理来模拟流处理存在一定的技术局限性,并且这种局限性可能很难突破。而Flink基于流处理来模拟批处理,在技术上有更好的扩展性。所以从长远来看,阿里巴巴决定选择Flink作为统一的、通用的大数据引擎。

  Flink是一个低延迟、高吞吐量、统一的大数据计算引擎。在阿里巴巴的生产环境中,Flink的计算平台能够以毫秒级的延迟处理每秒上亿次的消息或事件。同时,Flink提供了Exactly-once的一致性语义,确保了数据的正确性。这使得Flink的大数据引擎能够提供金融级的数据处理能力。

  基于Apache Flink,在2016年阿里巴巴正式搭建了自己的计算平台,并从搜索和推荐这两大场景开始实施。目前阿里巴巴所有业务,包括子公司,都采用基于Flink搭建的实时计算平台。这个平台运行在开源的Hadoop集群上,使用Hadoop的Yarn作为资源管理调度器,以及HDFS作为数据存储器。因此,Flink与开源大数据软件Hadoop可以无缝对接。

  目前,基于Flink搭建的实时计算平台不仅为阿里巴巴内部提供服务,还通过阿里云的云产品API向整个开发者生态提供基于Flink的云产品支持。

  在阿里巴巴的大规模应用中,Flink表现如何呢?首先,规模是衡量一个系统是否成熟的重要指标。Flink最初上线时只有数百台服务器,而现在已经发展到上万台,这在全球范围内是非常少见的。其次,Flink内部累积的状态数据已经达到了PB级别。每天在Flink的计算平台上处理的数据已经超过了万亿条。在峰值期间,Flink的计算平台可以承担每秒超过4.72亿次的访问,最典型的应用场景就是阿里巴巴的双11大屏。

  接下来从开源技术的角度来看,Apache Flink是如何诞生并成长起来的,以及在关键时刻阿里巴巴是如何参与进来并做出贡献和支持的。Flink最初诞生于欧洲一个大数据研究项目StratoSphere,该项目是柏林工业大学的一个研究性项目。在2014年,StratoSphere的核心成员将Flink孵化并捐赠给Apache,随后Flink成为Apache的顶级大数据项目。同时,Flink的主要方向被定位为流式计算,即用流式计算来处理所有的大数据计算,这就是Flink技术诞生的背景。

  2014年起,Flink作为一种主攻流式计算的大数据引擎开始在开源大数据行业崭露头角。与Storm、Spark Streaming和其他流式计算引擎不同的是,Flink不仅是一种高吞吐、低延迟的计算引擎,还提供许多高级功能。例如,它支持有状态的计算和状态管理,提供强一致性的数据语义,并支持Event Time和WaterMark处理乱序消息。

  总的来说,Flink最与众不同的地方就是它的状态管理特性。在流计算系统或任务中,开发者经常需要对数据进行统计,如求和、计数、求最小值、最大值等操作,这些值是需要存储的。在Flink中,这种存储被称为状态。Flink的核心概念和基本理念就是围绕着这种状态管理展开的。

  总的来说,Flink作为一种统一的、通用的大数据引擎,在阿里巴巴得到了大规模的应用。它提供了低延迟、高吞吐量的计算能力,并具备强大的状态管理功能。阿里巴巴不仅在内部广泛应用了Flink,还通过阿里云为开发者生态提供基于Flink的云产品支持。Flink的发展道路并不平坦,但在阿里巴巴的支持下,它不断壮大成长,取得了显著的成就。

wWw.Xtw.com.Cn系统网专业应用软件下载教程,免费windows10系统,win11,办公软件,OA办公系统,OA软件,办公自动化软件,开源系统,移动办公软件等信息,解决一体化的办公方案。

免责声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。内容仅供参考使用,不准确地方联系删除处理!

联系邮箱:773537036@qq.com