文档

硬件故障后的恢复

分布式 MinIO 部署依赖于 擦除编码 提供对多个驱动器或节点故障的内置容错能力。根据部署拓扑结构和选定的擦除码奇偶校验,MinIO 可以容忍部署中最多一半的驱动器或节点丢失,同时仍保持对对象的读取访问权限(“读取仲裁”)。

下表列出了 MinIO 部署中常见的故障类型,并链接到从每种故障中恢复的步骤

故障类型

描述

驱动器故障

MinIO 支持将故障的驱动器热插拔到新的健康驱动器。

节点故障

MinIO 会检测到节点何时重新加入部署,并开始主动 修复 该节点,在它重新加入集群后不久,修复先前存储在该节点上的数据。

站点故障

MinIO 站点复制支持在站点完全丢失后完全重新同步存储桶、对象和可复制配置设置。

由于 MinIO 可以处于降级状态运行,而不会造成明显的性能损失,因此管理员可以根据硬件故障率安排硬件更换。对于“正常”故障率(单个驱动器或节点故障),可以允许更合理的更换时间范围,而对于“关键”故障率(多个驱动器或节点),则可能需要更快的响应。

对于一个或多个驱动器处于部分故障或降级状态(驱动器错误增加、SMART 警告、MinIO 日志中超时等)的节点,您可以安全地卸载驱动器,前提是 集群有足够的剩余健康驱动器来保持 读取和写入仲裁。与始终产生读取和写入错误的驱动器相比,丢失的驱动器对部署的破坏性较小。

对驱动器的独占访问权限

MinIO 要求 对用于对象存储的驱动器或卷进行独占 访问。任何其他进程、软件、脚本或人员都不应直接对提供给 MinIO 的驱动器或卷,或者 MinIO 在其上放置的对象或文件执行任何 操作。

除非 MinIO 工程指示,否则不要使用脚本或工具直接修改、删除或移动任何提供驱动器上的数据分片、奇偶校验分片或元数据文件,包括从一个驱动器或节点移动到另一个驱动器或节点。此类操作很可能导致广泛的损坏和数据丢失,超出 MinIO 的修复能力。

MinIO 专业支持

MinIO SUBNET 用户可以 登录 并创建一个与驱动器、节点或站点故障相关的新问题。与 MinIO 工程通过 SUBNET 协调可以确保生产 MinIO 部署的成功恢复操作,包括根本原因分析和健康状况诊断。

社区用户可以在 MinIO 社区 Slack 上寻求支持。社区支持仅按尽力而为的方式提供,并且没有关于响应能力的 SLA。