作者:Sanjay Ghemawat
          Howard Gobioff
          Shun-Tak Leung
翻译:tinyfool

4.2 副本布置

GFS集群是多层高度分布的。典型的来说有数百个块服务器安装在许多机架上。这些块服务器可能依次被数百个来自同一机架或者不同机架的客户机访问。来自不同机架的两台机器之间的通讯也许会跨越一个或多个网络交换机。另外,机架的出入带宽可能比机架内所有机器和在一起的带宽要小。多层分布带来伸缩性,可靠性以及可用性方面完全不同的挑战。

块副本布置策略服务于两个目标:最大化数据可靠性和可用性,最大化网络带宽利用率。为了这些,仅仅在机器间分布文件是不够的,这只能防止硬盘损坏或者机器失效带来的影响,以及最大化每台机器的网络带宽使用率。我们必须在机架间分布文件。这保证了即使某个机架完全被损坏或者离线,一些块的副本会幸存仍旧可以使用(例如,电源或者网络交换机故障造成的问题)。这还意味着网络通讯,尤其是读取,可以利用多个机架的整合带宽。另一面是,写操作的网络通讯必须通过多个机架,这是我们乐于付出的代价。


<< 4.1 名称空间管理和锁 | 4.3 创建,重新复制,负载均衡 >>