据悉,Data Artisans由领导开发Apache Flink(开源大规模数据处理技术)的团队于2014年创立。该创业公司为包括Netflix,ING,Uber和阿里巴巴在内的企业客户提供了自己的dA平台,包括开源Apache Flink和Application Manager。
两家公司分别在声明中称,自2016年以来,阿里巴巴一直与Data Artisans合作,通过支持和开源工作来帮助软件的架构和性能。Data Artisans首席执行官Kostas Tzoumas表示,阿里巴巴还将向该公司投入一笔未公开的资金,用于开发Apache Flink,这是一种可处理大量数据的开源软件,并可扩展到新的业务领域。
而阿里巴巴集团副总裁周敬仁在一份声明中表示:“通过利用两个团队的技术专长和共同的热情来开发开源社区,我们相信这一战略合作将进一步加强Flink社区的发展,加速数据处理技术并帮助开放,对于那些热衷于流处理和为现代企业提供实时应用的全球开发人员来说,这是一个协作和建设性的环境。”
阿里为什么会选择Apache Flink
随着人工智能时代的降临,数据量的爆发,在典型的大数据的业务场景下数据业务最通用的做法是:选用批处理的技术处理全量数据,采用流式计算处理实时增量数据。在绝大多数的业务场景之下,用户的业务逻辑在批处理和流处理之中往往是相同的。但是,用户用于批处理和流处理的两套计算引擎是不同的。
因此,用户通常需要写两套代码。毫无疑问,这带来了一些额外的负担和成本。阿里巴巴的商品数据处理就经常需要面对增量和全量两套不同的业务流程问题,所以阿里就在想,我们能不能有一套统一的大数据引擎技术,用户只需要根据自己的业务逻辑开发一套代码。这样在各种不同的场景下,不管是全量数据还是增量数据,亦或者实时处理,一套方案即可全部支持,这就是阿里选择Flink的背景和初衷。
这笔交易让人回想起阿里巴巴2017年对MariaDB的投资,这是一家开源创业公司,以提供MySQL最受欢迎的替代品:数据库管理系统而闻名。虽然不是完整的收购,但合作伙伴关系已经看到两家公司合作为社区开发新产品,这也是这里的目标。
转向开源和基础架构技术对于阿里巴巴来说是非常有意义的,众所周知,阿里巴巴以电子商务而闻名,但同时也提供云业务,流媒体等服务。据悉,公司上一季度的净利润为26.6亿美元,营收为124亿美元,阿里巴巴肯定有足够的资金来实施这一战略。
当被问及为什么阿里巴巴进行收购而不是继续合伙或投资时,阿里巴巴副总裁周敬仁表示:“我们有信心在技术和社区发展方面为Flink做出更多贡献。这是两个团队聚集在一起的共同愿景和有效的工作关系。我们感谢彼此学习,努力使数据处理开源社区更加开放,协作和多样化。”
周敬仁同时也表示:“自2016年以来,我们一直是Data Artisans的强大合作伙伴,我们一直都热衷于使用开源流处理框架来统一实时事件驱动的应用程序和实时分析。Data Artisans和阿里巴巴已经参与Apache Flink社区多年,绝对尊重Apache软件基金会的精神,我们打算继续这样做。”
Apache Flink现状
Flink是一个低延迟、高吞吐、统一的大数据计算引擎。在阿里巴巴的生产环境中,Flink的计算平台可以实现毫秒级的延迟情况下,每秒钟处理上亿次的消息或者事件。同时Flink提供了一个Exactly-once的一致性语义。保证了数据的正确性。这样就使得Flink大数据引擎可以提供金融级的数据处理能力。
基于Apache Flink在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。目前阿里巴巴所有的业务,包括阿里巴巴所有子公司都采用了基于Flink搭建的实时计算平台。同时Flink计算平台运行在开源的Hadoop集群之上。采用Hadoop的YARN做为资源管理调度,以 HDFS作为数据存储。因此,Flink可以和开源大数据软件Hadoop无缝对接。
目前,这套基于Flink搭建的实时计算平台不仅服务于阿里巴巴集团内部,而且通过阿里云的云产品API向整个开发者生态提供基于Flink的云产品支持。
阿里巴巴自2015 年开始改进Flink,并创建了内部分支Blink,目前服务于阿里集团内部搜索、推荐、广告和蚂蚁等大量核心实时业务。12 月20 日,由阿里巴巴承办的Flink Forward China 峰会在北京国家会议中心召开,来自阿里、华为、腾讯、美团点评、滴滴、字节跳动等公司的技术专家与参会者分享了各公司基于Flink 的应用和实践经验。在大会的主题演讲上,阿里巴巴集团副总裁周靖人宣布,阿里巴巴内部Flink 版本Blink 将于2019 年1 月正式开源,之后会经过社区讨论合并回Flink。