作者:Sanjay Ghemawat
          Howard Gobioff
          Shun-Tak Leung
翻译:tinyfool

6.2.5 恢复时间

一个块服务器失效后,有些块的副本数量可能过低,必须被克隆以恢复它们的复制水平。恢复所有这样的块需要的时间取决于资源的总量。在我们的实验中,我们杀死集群B里面的一台块服务器。这个块服务器有15000个块,包含600GB的数据。为了限制对正在运行的程序的干扰,为一些定期任务提供余地,我们的默认参数限制集群中最多有91个并行的克隆操作(块服务器数量的40%),每个克隆操作的速度可以是6.25MB(50Mbps)。所有的块会在23.2分钟内恢复,复制的速度是440MB/s。

在另外的实现中,我们杀死两个块服务器,每个大概有16000个块和660GB数据。这个双倍的失效,造成266个块只有一个副本。这266个块被优先复制,在2分钟内所有都恢复到至少两个副本,这样就把集群推到一个状态,可以容忍另外的块服务器失效,不会造成数据丢失。


<< 6.2.4 主服务器负载 | 6.3 负载故障 >>