硬件故障后的恢复
分布式 MinIO 部署依赖于 擦除编码 来提供对多个驱动器或节点故障的内置容错能力。根据部署拓扑结构和选择的擦除编码奇偶校验,MinIO 可以容忍部署中最多一半的驱动器或节点丢失,同时保持对对象的读取访问权限(“读取仲裁”)。
下表列出了 MinIO 部署中典型的故障类型,以及针对每种故障的恢复步骤链接
故障类型 |
描述 |
---|---|
MinIO 支持使用新的健康驱动器热插拔故障驱动器。 |
|
MinIO 检测到节点何时重新加入部署并开始主动 修复 该节点,并在其重新加入群集后不久修复之前存储在该节点上的数据。 |
|
MinIO 站点复制支持在站点完全丢失后完全重新同步存储桶、对象和可复制配置设置。 |
由于 MinIO 可以在无显著性能损失的情况下以降级状态运行,因此管理员可以根据硬件故障率安排硬件更换。对于“正常”故障率(单个驱动器或节点故障),可能会允许更合理的更换时间范围,而对于“严重”故障率(多个驱动器或节点),则可能需要更快地响应。
对于具有一个或多个部分故障或以降级状态运行的驱动器的节点(驱动器错误增加、SMART 警告、MinIO 日志中的超时等),您可以安全地卸载驱动器,如果群集具有足够的剩余健康驱动器以保持 读写仲裁。丢失的驱动器对部署的干扰程度小于始终产生读写错误的驱动器。
对驱动器的独占访问
MinIO 要求 对用于对象存储的驱动器或卷进行独占访问。任何其他进程、软件、脚本或人员均不得对 MinIO 提供的驱动器或卷或 MinIO 在其上放置的对象或文件执行任何操作。
除非 MinIO 工程师指示,否则请勿使用脚本或工具直接修改、删除或移动提供的驱动器上的任何数据分片、奇偶校验分片或元数据文件,包括从一个驱动器或节点移动到另一个驱动器或节点。此类操作很可能会导致广泛的损坏和数据丢失,超出了 MinIO 的修复能力。
MinIO 专业支持
MinIO SUBNET 用户可以 登录 并创建与驱动器、节点或站点故障相关的新问题。通过 SUBNET 与 MinIO 工程师的协调可以确保生产 MinIO 部署的成功恢复操作,包括根本原因分析和健康状况诊断。
社区用户可以在 MinIO 社区 Slack 上寻求支持。社区支持仅以尽力而为的方式提供,没有关于响应能力的 SLA。