文档

节点故障恢复

如果 MinIO 节点发生完全硬件故障(例如所有驱动器、数据等丢失),该节点在重新加入部署后将开始修复操作。MinIO 修复仅在替换的硬件上进行,通常不会影响部署性能。

MinIO 修复确保恢复到驱动器上的所有数据的完整性和一致性。

对驱动器的独占访问

MinIO 要求对提供用于对象存储的驱动器或卷进行独占访问。任何其他进程、软件、脚本或人员不应在提供给 MinIO 的驱动器或卷上执行任何操作,也不应在 MinIO 在这些驱动器或卷上放置的对象或文件上执行操作。

除非由 MinIO 工程指导,否则请勿使用脚本或工具直接修改、删除或移动提供的驱动器上的任何数据分片、奇偶校验分片或元数据文件,包括从一个驱动器或节点到另一个驱动器或节点。此类操作很可能会导致广泛的损坏和数据丢失,超出了 MinIO 的修复能力。

替换节点硬件应与故障节点大体相似。使用改进的硬件不会对性能造成负面影响。

替换驱动器硬件应与故障驱动器大体相似。例如,用另一个相同容量的 SSD 驱动器替换故障的 SSD。虽然您可以使用容量更大的驱动器,但 MinIO 将最小的驱动器容量用作服务器池中所有驱动器的上限。

以下步骤详细介绍了节点替换过程。这些步骤假设 MinIO 部署,其中每个节点都具有 DNS 主机名,符合记录的先决条件

1) 启动替换节点

确保新节点已根据行业、监管或组织标准和要求接收所有必要的安全、固件和操作系统更新。

新节点的软件配置必须与部署中其他节点的软件配置匹配,包括但不限于操作系统和内核版本和配置。异构软件配置可能会导致部署中出现意外或不希望有的行为。

2) 更新新节点的 hostname

可选 此步骤仅在替换节点的 IP 地址与故障主机不同时才需要。

确保与故障节点关联的主机名现在解析到新节点。

例如,如果 https://minio-1.example.net 以前解析到故障主机,现在它应该解析到新主机。

3) 下载和准备 MinIO 服务器

按照 部署流程 使用与部署中所有其他节点匹配的配置下载并运行 MinIO 服务器。

  • MinIO 服务器版本必须在所有节点上匹配。

  • MinIO 服务和环境文件配置必须在所有节点上匹配。

4) 将节点重新加入到部署

在节点上启动 MinIO 服务器进程,并使用 mc admin logs 监控进程输出,或者对于 systemd 管理的安装,通过 journalctl -u minio 监控 MinIO 服务日志。

服务器输出应表明它已检测到部署中的其他节点,并已开始 修复操作

使用 mc admin heal 监控部署的整体修复状态。MinIO 会积极修复节点,以确保快速从降级状态恢复。

5) 下一步

继续监控部署,直到修复完成。具有持久性和重复节点故障的部署应安排专门的维护以识别根本原因。考虑使用 MinIO SUBNET 与 MinIO 工程团队协调,获取任何此类操作的指导。