『蚂蚁数字科技』马振雄:新一代云原生PaaS平台,为企业上云保驾护航丨Distributed Cloud

2021年,分布式云成为云计算领域关注的热点。经过一年时间的探索与沉淀,分布式云开始从理论走向实践,诸多云计算头部企业夯实分布式基础设施建设、优化分布式资源调度、开发分布式应用,为构建分布式云打下了坚实的基础。

12月15日,以“引领分布式云变革 助力湾区数字经济”为主题的全球分布式云大会在深圳隆重召开,本届大会由全球分布式云联盟、深圳科技交流服务中心、深圳市通信学会、众视Tech联合主办。组委会携手阿里云、腾讯云、Google Cloud、华为云、蚂蚁集团、浪潮云、金山云等海内外顶尖云计算团队和分布式云先锋企业,为粤港澳大湾区数字经济发展注入分布式云动力,更将中国分布式云计算发展推上全新高度!

在15日上午举办的领袖论坛上,蚂蚁集团数字科技事业部产品总监马振雄分享了在分布式云异构基础设施之上,蚂蚁集团构建分布式云PaaS平台背后的实践和思考。

『蚂蚁数字科技』马振雄:新一代云原生PaaS平台,为企业上云保驾护航丨Distributed Cloud-DVBCN

近几年云计算的发展如火箭般迅猛,异构变革日新月异,这是基础设施层明确的发展趋势。基础设施的复杂度越来越高,同时也为整个基础设施的统一资源调度带来了极大的挑战。

如果说IaaS层以统一资源调度以资源为视角和出发点,那么在上层PaaS则需要思考以应用为视角,整个分布式基础设施的复杂度到底会带来哪些更多的挑战。

异构的应用如何在异构的基础设施上进行统一管理,这是PaaS层需要思考的重点问题。随着云原生的发展,企业在技术升级的过程中伴随着大量的历史包袱,这些历史包袱是所有存量的异构功能,这些异构功能有以下几个特征:技术架构异构、通信协议异构、开发框架异构,这些存量的应用如何在异构的基础设施上统一纳管,背后就涉及到了应用的全生命周期,从研发时的应用改造成本到运行时如何对异构应用做统一服务治理,再到运维时如何对基础设施进行统一元数据管理,再到基础设施之上异构的统一变更、统一容灾、统一应急以及统一资金安全,这些都是存在于PaaS层的挑战。

随后,马振雄就三大核心挑战进行了展开。

第一,在越来越复杂的异构基础设施上,存量应用和增量应用应该如何上云?

马振雄用四个R总结了当前应用上云的概况:

第一个是Rehost平迁上云,平迁到云服务器,因为不涉及到应用本身的重构,只是把基础设施进行平迁,改造成本非常低,但它能获得的价值也仅仅局限在IaaS。

第二个Refactor重构,涉及到应用的重构,改造成本比平迁大,但它可以获得分布式应用的可靠性和可扩展性这样的红利。

第三个Rebuild,能够享受端到端的云原生红利。

第四个Replace,彻底替换成SaaS。

四个R,成本与价值逐步递增,同时成本和价值之间呈线性正相关,改造成本越高,获得的价值越高,企业存在大量的历史包袱,历史包袱五花八门,如果要把这些历史包袱全部改造成分布式应用或者云原生应用,背后需要的代价非常昂贵,很难有一家企业在短时间内愿意负担起这样的时间和成本,彻底将所有的历史包袱云原生化。

『蚂蚁数字科技』马振雄:新一代云原生PaaS平台,为企业上云保驾护航丨Distributed Cloud-DVBCN

在此基础上,马振雄引入第五个R——Revise服务网格。Service Mesh能够实现跨平台、跨协议,并且业务代码无侵入改造,从而快速地将应用植入sidecar完成mesh化,获得分布式红利、安全可观测,并且整个架构平滑演进。企业在架构升级过程中可以按部就班、循序渐进,并且实现端到端的安全可信以及端到端的链路可观测能力。

总结来说网格服务首先降低了传统应用改造成分布式、云原生应用的成本问题;其次是解决了所有企业新老系统的互联互通和统一纳管的问题;第三是让企业应用架构在升级过程变得更平滑;第四是让所有企业保留自己存量系统的技术栈,且保留了企业自身自主可控性要求。

Forrester长期以来对蚂蚁集团的创新技术保持极大的关注,在分布式云大会的现场, Principal Analyst首席分析师、Serving Technology Executives服务技术决策者戴鲲发布《蚂蚁集团服务网格总体经济影响》,并分享了他对于Mesh的看法:

“未来要实现开发的智能化,需要通过微服务来进行智能化进程,不再像以前一样零敲碎打。对传统应用进行定制化,要通过网格服务动态地组装,实现云上开发。我们特别推出了整体经济影响研究,希望帮助企业更好地把握不同产品解决方案的能力。

各家企业都在进行数字化转型,转型的基础是从稳态到敏态,这种混合架构下的治理是非常关键的。我们访谈了蚂蚁集团的客户,一家是传统金融机构,一家是互联网金融机构,它们有不同的开发环境,面临相同挑战,比如基础设施升级换代、应用开发升级、云上云下交互等方方面面都存在问题和挑战。我们将不同的问题和挑战融合在一起进行分析,最终发现,网格服务从单体应用改造成本节省到运维安全管理效率提升等方面都有明显的收益,我们通过研究三年数据发现,蚂蚁集团服务网格的总体投资回报率达到99%。大家对此有兴趣可以和蚂蚁集团联系获得详细的信息。

我们还从另外两个维度进行分析——灵活性和风险,灵活性就是在初始的投入和未来能得到额外的价值,我们看到技术团队有专业的分工,可以降低上云的门槛,真正实现全面上云。当然任何事情都有风险,我们也评估了这套解决方案相应的风险。总结来看,面对不确定性的时代,想适应未来的发展,必须借助云原生平台,帮助加速创新进展。”

第二,如果说Mesh解决了研发时改造成本,和运行时统一服务治理,那么在异构IaaS上,如何统一应用运维?

蚂蚁数字科技定义了六大能力,包括统一元数据管理、统一集群资源管理、统一变更能力、统一应急能力、统一容灾能力,和统一端到端从业务、应用到基础设施的可观测能力。

在定义的基础上,团队通过重新定义SRE,实现统一应用运维能力。行业解读SRE,一般认为R是可靠性,团队结合蚂蚁十几年来对业务的可用性和连续性的极致追求,经历了十几次双十一大规模验证,对SRE进行重新定义,蚂蚁的SRE从Reliability转变为Risk,蚂蚁自身的保障体系以风险为核心,结合十几年来的技术沉淀,打造了技术风险保障平台TRaaS。也正是因为十几年沉淀的精华,才能让蚂蚁做到业务、应用、基础设施运维无人值守,运维“自动驾驶”。

『蚂蚁数字科技』马振雄:新一代云原生PaaS平台,为企业上云保驾护航丨Distributed Cloud-DVBCN

蚂蚁的技术风险防控体系从上到下分别代表了三个目标:高可用、资金安全、低成本,三个组织保障:团队、文化、制度,再到需求、研发、发布以及监控的四条防线,最终沉淀出一套完整的技术风险保障体系的平台能力,整个平台由四个能力板块组成,包括了从应急、变更到容量、资金安全,应急平台建立起了以风险为核心的事前、事中、事后的故障风险保障体系,分别对应故障风险检测能力、故障定位能力、故障应急和自愈能力,以及故障的回溯能力。

同时,蚂蚁还建立起了对于全局数据中心和系统整体能力瓶颈的自动探测、容量规划和容量保鲜能力。最后的资金平台,蚂蚁通过对业务应用无侵入地建立起了资金核对第二道防线,帮助企业彻底规避资金安全风险,减少资损。

马振雄总结道,如果说第一个核心的挑战解决的是研发态和运行态的问题,第二个核心挑战解决运维态问题,第三个核心挑战,要解决的是从整体架构上解决容灾态的问题。

第三,如何在分布式云场景下,让架构原生具备弹性&容灾能力?

随着分布式云基础设施蓬勃发展,企业中心从集中化走向离散化,这意味着企业任何一个应用随时随地可以跑在全国的任何一家数据中心机房的任何一个节点上,这种变化背后,从应用视角来看,迫切需要整体的系统应用架构,支撑业务突破地域和城市级别的无限可扩展能力。基于蚂蚁对于业务连续性的极致追求,团队在支撑业务发展过程中,建立起了金融行业超大规模的全局数据架构,通过沉淀,推出异地多活单元化架构,解决企业在容灾、弹性、灰度方面的三大痛点。

容灾可以支撑企业的数据中心架构彻底从单活走向同城三活,再走向多地多活,一个业务单元发生故障不会影响到另外一个业务单元。

弹性,由于灵活部署和快速扩容机制,能够结合单元的灵活的流量调拨机制,真正支撑企业的数据中心突破城市和地域级别的扩展,做到真正意义上的无限可扩展。

灰度,结合跨单元的路由分发,可以轻易地做到蓝绿单元这样具有创新的业务灰度方式。

『蚂蚁数字科技』马振雄:新一代云原生PaaS平台,为企业上云保驾护航丨Distributed Cloud-DVBCN

多地多活的架构非常复杂,从上至下包含了四层,从接入层做路由规则和路由分发,到应用层的中间件路由,再到数据层的数据分片和数据路由,最后到运维层的统一容灾、统一监控、单元拓扑。

金融行业结合案例来看,主机下移过程中需要面临的重要课题就是如何将核心系统下沉到分布式集群,在分布式集群下移过程中如何匹配主机系统性能和稳定性,背后很重要的能力就是多地多活架构。

蚂蚁在面对核心挑战过程中,最终沉淀出新一代分布式云PaaS平台SOFAStack,平台在金融行业有非常多的头部客户案例,从原生能力就满足了金融行业远高于其他行业在容量、性能、规模、高可用、合规、降本提效方面的高标准要求。更重要的是SOFAStack来源于金融行业,但不止于金融行业,蚂蚁希望SOFAStack能赋能到更多的行业,完成各行业企业数字化转型。

构建起新一代分布式云PaaS平台,未来是什么?

马振雄认为,Mesh的未来会经历三个重要的发展阶段:第一个阶段,不止是Service Mesh,还有更多Mesh产品形态出现,在这个阶段,将会帮助企业越来越轻松自主掌控适配异构基础设施;第二个阶段,在金融异构运行基础设施上,尝试定义社群或者事实的API标准,这个标准能让企业拥有统一的编程界面,当企业开发完一个应用,底层的基础设施发生任何变更,对于应用来说都是无感的。在第二个阶段,Mesh的愿景为一旦应用开发完成,就不再需要做任何变更,只有到了这个愿景实现,才能真正做到让一个应用跑在全国任何一个机房虚拟中心节点,并且这个节点的向上承载基础设施可变;第三个阶段,前两个更多的是把基础服务、微服务、数据访问这些端到端下沉到基础设施外,在第三个阶段要看到的是横向的下沉,包括资源调用和系统调用,在这个阶段,将会尝试尽可能把业务应用里更多和业务本身不相关的逻辑下沉到Sidecar,彻底解放业务开发,让业务开发者关注能力编程,而不需要关注底层。

最后,马振雄表示,蚂蚁集团一直致力于技术架构前瞻性布局和持续创新,会继续在基础异构设施上打磨端到端的可信原生能力,未来,蚂蚁希望把SOFAStack打造成各行各业数字化转型的跨云操作系统。

相关文章
佳能正式发布“佳直播PRO”电影机讯道化直播解决方案
佳能正式发布“佳直播PRO”电影机讯道化直…
AI Agent 创新广电 数码视讯CCBN2025 大放光彩
AI Agent 创新广电 数码视讯CCBN2025 大…
宋起柱调研督导山东“一省一网”整合工作
宋起柱调研督导山东“一省一网”整合工作
吉视传媒董事长褚春彦辞任 总经理由志强代行职责
吉视传媒董事长褚春彦辞任 总经理由志强…
治愈系顶流!网友:长虹你做电视别太离谱!
治愈系顶流!网友:长虹你做电视别太离…
吉视传媒第一季度净亏损1.03亿元 同比减亏12.10%
吉视传媒第一季度净亏损1.03亿元 同比减…
我还没有学会写个人说明!