我们面临的最大挑战之一就是设计一个系统处理频繁的组件失效。组件的数量和质量让这种问题变得比意外更常见:我们不能完全信任机器,也不能完全信任硬盘。组件的失效可能造成不可用的系统,坏的,不完整的数据。我们讨论我们如何面对这些挑战,讨论我们构建的用于诊断系统故障的工具。