在现代分布式系统架构中,实时数据流和事件处理是至关重要的组成部分。Apache Kafka成为构建实时数据管道和实现微服务及应用程序间异步通信的领先平台。然而,规模化运行和管理 Kafka 集群存在挑战,需要专业的知识和显著的运维开销。
Amazon 管理流媒体服务 - Apache Kafka (Amazon MSK) 是一个完全托管的服务,允许您构建和运行生产使用的 Kafka 应用程序。借助 Amazon MSK,您可以依赖 AWS 来处理 Kafka集群的配置和管理工作,而您可以专注于构建创新应用和实时数据处理管道。
在这篇文章中,我们将探讨 Fitch Group 如何利用 Amazon MSK 和 实现其关键 Kafka基础设施的多区域韧性。
作为全球领先的金融信息服务提供商,Fitch Group 提供重要的信用与风险洞察、强大的数据和动态工具,以促进金融市场的高效和透明。Fitch Group在超过 30 个国家拥有员工,其文化贯穿于整个组织结构,包含 Fitch Ratings(全球三大信用评级机构之一)和 FitchSolutions(领先的洞察、数据和分析提供商)。
为了在快速变化的金融行业中保持竞争力和效率,Fitch Group 战略性地采用了事件驱动的微服务架构。在这一生态系统的核心是 Kafka,尤其是 Amazon MSK,为其数据集成系统提供支撑。
Fitch Group 使用 Kafka来使应用程序发送与评级相关的商业事件,促进其评级工作流系统内部的自动化,并提供实时或近实时的处理。这一架构选择显著缩短了面向最终用户系统(如 FitchRatings Pro 和 Fitch Group Ratings 网站)的市场时间。此外,Kafka的强大功能允许通过其数据平台,无缝聚合和分发来自众多异构系统的数据,增强了数据一致性、可靠性和可访问性。
考虑到 Kafka 在 Fitch Group 架构中的关键作用,提供强健的灾难恢复(DR)机制至关重要。任何对 Kafka基础设施的中断都可能对其评级工作流自动化、实时处理和最终用户系统产生严重影响,可能使 Fitch Group 面临合规性、财务和声誉风险。
为了实现所需的韧性,Fitch Group 设定了以下关键要求:
| 需求 | 描述 |
|---|---|
| 多区域部署 | 在多个 AWS 区域部署 MSK 集群,以在区域或服务事件期间提供业务连续性和维护服务可用性。 |
| 自动化复制 | 以近实时的方式跨区域复制 Kafka 数据,确保最小的延迟和数据丢失。 |
| 一致的主题命名空间 | 在源和目的集群之间保持相同的 Kafka 主题名称和结构,以尽量减少应用程序变更。 |
| 快速恢复 | 在故障发生时,使应用程序能够无缝切换到复制集群,以实现最小的恢复时间目标 (RTO) 和恢复点目标 (RPO)。 |
Fitch Group 选择利用 Amazon MSK 和 MSK Replicator 实现其多区域 Kafka 部署。MSK Replicator是一个完全托管的复制服务,支持在同一区域或不同区域之间实现持续、自动的数据复制。它支持在配置不同的集群之间进行数据复制,包括不同的代理数量、存储卷和 Kafka 版本。Fitch Group 如何使用 MSK Replicator 来实现其多区域韧性目标,请参见以下概述:
以下图示展示了该架构:

通过实施 Amazon MSK 和 MSK Replicator,Fitch Group 实现了多项关键收益:
通过使用 Amazon MSK 和 MSK Replicator,Fitch Group 成功实现了一个高度韧性和可扩展的 Kafka基础设施,满足其严格的业务连续性和灾难恢复要求。这种多区域部署使他们能够大规模处理关键金融数据,同时在发生服务事件或灾难时确保最小的停机时间和数据丢失。随着 Fitch Group 持续创新和扩大,其强大的 Kafka基础设施为未来的扩展和新数据驱动服务的开发奠定了坚实基础,最终增强了其向客户提供及时和准确的金融洞察的能力。

Chaitanya Shah 是 AWS 的首席技术客户经理,驻纽约。他热爱编程并积极参与 AWS 解决方案实验室,帮助客户解决复杂问题。他为 AWS 客户提供有关云迁移最佳实践的指导,并专注于 AWS 数据转移及数据与分析领域。

Oleg Chugaev 是 AWS 的首席解决方案架构师和无服务器技术传播者,拥有超过 20 年的 IT 经验,并拥有多个 AWS 认证。他在 AWS 帮助客户顺利进行云转型,将复杂挑战转化为可执行的路线图。
Leave a Reply