节点故障恢复
如果 MinIO 节点发生完全的硬件故障(例如丢失所有驱动器、数据等),则该节点在重新加入部署后会开始进行 修复操作。MinIO 修复仅在更换的硬件上进行,通常不会影响部署性能。
MinIO 修复可确保恢复到驱动器上的所有数据的完整性和正确性。
驱动器的独占访问权限
MinIO **需要** 对用于对象存储的驱动器或卷进行 *独占* 访问。其他任何进程、软件、脚本或人员不应对 MinIO 提供的驱动器或卷以及 MinIO 放置在驱动器上的对象或文件执行 *任何* 操作。
除非由 MinIO 工程指导,否则不要使用脚本或工具直接修改、删除或移动任何提供给驱动器的驱动器上的数据分片、奇偶校验分片或元数据文件,包括从一个驱动器或节点移动到另一个驱动器或节点。此类操作很可能导致广泛的损坏和数据丢失,超出了 MinIO 的修复能力。
替换节点硬件应与故障节点基本相似。使用改进的硬件不会产生负面的性能影响。
替换驱动器硬件应与故障驱动器基本相似。例如,用另一个相同容量的 SSD 驱动器替换故障的 SSD。虽然您可以使用容量更大的驱动器,但 MinIO 使用 *最小* 驱动器的容量作为 服务器池 中所有驱动器的上限。
以下步骤详细介绍了节点替换过程。这些步骤假设 MinIO 部署中每个节点都具有 DNS 主机名,如 文档中记录的先决条件 所示。
1) 启动替换节点
确保新节点已根据行业、监管或组织标准和要求接收所有必要的安全、固件和操作系统更新。
新节点的软件配置 *必须* 与部署中的其他节点的软件配置相匹配,包括但不限于操作系统和内核版本以及配置。异构软件配置可能会导致部署中出现意外或不希望有的行为。
2) 更新新节点的主机名
可选 此步骤仅在替换节点的 IP 地址与故障主机的 IP 地址不同时才需要。
确保与故障节点关联的主机名现在解析为新节点。
例如,如果 https://minio-1.example.net
以前解析为故障主机,那么它现在应该解析为新主机。
3) 下载并准备 MinIO 服务器
按照 部署过程 使用与部署中所有其他节点匹配的配置下载并运行 MinIO 服务器。
MinIO 服务器版本 *必须* 在所有节点上保持一致
MinIO 服务和环境文件配置 *必须* 在所有节点上保持一致。
4) 将节点重新加入部署
在节点上启动 MinIO 服务器进程,并使用 mc admin logs
或通过监控 MinIO 服务日志(对于 systemd
管理的安装使用 journalctl -u minio
)来监控进程输出。
服务器输出应表明它已检测到部署中的其他节点并开始进行 修复操作。
使用 mc admin heal
监控部署中的整体修复状态。MinIO 会积极地修复节点,以确保从降级状态快速恢复。
5) 下一步
继续监控部署,直到修复完成。具有持续且反复的节点故障的部署应安排专门的维护以确定根本原因。考虑使用 MinIO SUBNET 与 MinIO 工程师协调有关此类操作的指南。