使用 InfluxDB 进行监控和告警
MinIO 使用 Prometheus 数据模型 发布集群和节点指标。 InfluxDB 支持抓取 MinIO 指标数据以进行监控和告警。
此页面上的过程记录了以下内容
配置 InfluxDB 服务以抓取和显示来自 MinIO 部署的指标
为 MinIO 指标配置告警
先决条件
此过程需要以下内容
配置 InfluxDB 以使用 MinIO 指标进行收集和告警
重要
此过程专门使用 InfluxDB UI 创建抓取端点。
InfluxDB UI 未提供与使用 Telegraf 和相应的 Prometheus 插件 相同级别的配置。具体来说
无法通过 InfluxDB UI 启用对 MinIO 指标端点的身份验证访问
无法为收集的指标设置标签(例如
url_tag
)以唯一地标识给定 MinIO 部署的指标
配置 Telegraf 超出了此过程的范围。您可以将此过程作为配置 Telegraf 以抓取 MinIO 指标的通用指南。
配置对 MinIO 指标的公共访问
将
MINIO_PROMETHEUS_AUTH_TYPE
环境变量设置为"public"
,用于 MinIO 部署中的所有节点。然后,您可以重新启动部署以允许对 MinIO 指标进行公共访问。您可以通过尝试
curl
指标端点来验证更改curl https://HOSTNAME/minio/v2/metrics/cluster
将
HOSTNAME
替换为负载均衡器或反向代理的 URL,您通过该 URL 访问 MinIO 部署。或者,您可以指定任何单个节点作为HOSTNAME:PORT
,除了节点主机名之外,还指定 MinIO 服务器 API 端口。响应正文应包含收集到的 MinIO 指标列表。
登录 InfluxDB UI 并创建存储桶
选择您想要存储 MinIO 指标的 组织。
创建一个 新的存储桶,用于存储 MinIO 部署的指标。
创建一个新的抓取源
创建一个 新的 InfluxDB 抓取器。
指定 MinIO 部署的完整 URL,包括指标端点
https://HOSTNAME/minio/v2/metrics/cluster
将
HOSTNAME
替换为负载均衡器或反向代理的 URL,您通过该 URL 访问 MinIO 部署。或者,您可以指定任何单个节点作为HOSTNAME:PORT
,除了节点主机名之外,还指定 MinIO 服务器 API 端口。验证数据
使用 DataExplorer 可视化收集到的 MinIO 数据。
例如,您可以对
minio_cluster_capacity_usable_total_bytes
和minio_cluster_capacity_usable_free_bytes
设置过滤器,以比较 MinIO 部署上的可用总空间与可用空闲空间。配置检查
在 MinIO 指标上创建一个新的检查。
以下示例检查规则提供 MinIO 部署的警报基线。您可以修改或以其他方式使用这些示例作为构建您自己的检查的指南。
创建一个名为
MINIO_NODE_DOWN
的阈值检查。将过滤器设置为
minio_cluster_nodes_offline_total
键。当值大于 1 时,将阈值设置为 WARN。
创建一个名为
MINIO_QUORUM_WARNING
的阈值检查。将过滤器设置为
minio_cluster_drive_offline_total
键。当值比您配置的擦除编码奇偶校验设置小 1 时,将阈值设置为 CRITICAL。
例如,使用 EC:4 的部署应将此值设置为
3
。