1. 云服务器>亚马逊 >

亚马逊云服务器全球网络的可靠性保障


在全球云计算市场中,亚马逊云服务器的全球网络以其卓越的可靠性保障脱颖而出,成为众多企业信赖的选择。
AWS 构建了冗余的基础设施来从容应对各类突发事件。在全球范围内,AWS 部署了 37 个区域,117 个可用区,并且还宣布计划在新西兰、沙特阿拉伯王国、智利和 AWS 欧盟主权云等地增加 13 个可用区和 4 个 AWS 区域 。每个区域都由多个在物理上相互隔离的可用区组成,且每个区域设计为拥有 3 个以上的可用区,每个可用区都具备独立的电力供应、冷却系统以及物理安全性。这种设计意味着即使某个可用区遭遇物理故障、自然灾害或者其他意外情况,其他可用区依然能够正常运行,确保服务的连续性。
例如,在网络连接方面,AWS 在每个可用区和传输节点之间采用全网状(FULL MESH)互联。从组成可用区的互联网数据中心(IDC)到可用区间的冗余网络连接,再到多可用区组成区域,从单个区域到全球互联的多个区域,逐层构建了具备强大韧性的全球架构。当受到物理网络中断等单一线路故障影响时,AWS 基础设施层能够在秒级完成路由收敛,凭借充足的网络自愈能力,避免因手工操作网络切换导致的长时间恢复,从而确保用户体验不受影响 。
AWS 还采用了多种故障隔离结构来实现服务的韧性。故障隔离边界将故障控制在已有故障域且可预测的范围内。AWS 服务的隔离边界包括可用区、区域、控制平面和数据平面。从故障隔离边界的维度看,AWS 运营三种不同类别的服务:可用区性、区域性和全球性。例如,每个区域级服务都部署了专用的基础设施和服务堆栈,且互相隔离,在跨区域调用时也具备足够的隔离机制。同时,每种服务的控制平面和数据平面都在不同的范围内进行隔离,即控制面的失效不影响数据面的运行,且不会扩散到相邻范围。就像控制台的失效不会影响现有云主机的运行,这样就将故障发生时的影响范围限制在可控范围内 。
此外,AWS 全球网络的可靠性还体现在其 “静态稳定性” 设计上。“静态稳定性” 意味着在依赖项发生故障或不可用期间,系统无需进行更改就可以依然保持继续正常运行。在数据平面对资源的访问一旦配置,就不依赖于控制平面,因此不会受到任何控制平面失效的影响。即使创建、修改或删除资源的能力受损,现有资源仍然可用。这种设计进一步增强了全球网络在面对各种故障时的可靠性,确保云服务器能够持续稳定地为用户提供服务 。


本文由不代表本站立场,转载联系作者并注明出处。