使用 Prometheus 进行监控和告警

MinIO 使用 Prometheus 数据模型发布集群、节点、桶和资源指标。本页面的过程记录了以下内容

配置 Prometheus 服务以从 MinIO 部署中抓取和显示指标
在 MinIO 指标上配置告警规则以触发 AlertManager 操作

先决条件

此过程需要以下内容

具有支持 Alert Manager 的现有 Prometheus 部署
具有到 Prometheus 部署的网络访问权限的现有 MinIO 部署
在您的本地主机上配置为访问 MinIO 部署的 mc 安装

配置 Prometheus 以使用 MinIO 指标进行收集和告警

1) 生成抓取配置

使用 mc admin prometheus generate 命令生成抓取配置，供 Prometheus 用于发出抓取请求

MinIO 服务器

以下命令抓取 MinIO 集群的指标。

mc admin prometheus generate ALIAS

将 ALIAS 替换为 MinIO 部署的 alias。

该命令返回类似于以下内容的输出

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/cluster
     scheme: https
     static_configs:
     - targets: [minio.example.net]

节点

以下命令抓取 MinIO 服务器上节点的指标。

mc admin prometheus generate ALIAS node

将 ALIAS 替换为 MinIO 部署的 alias。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-node
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/node
     scheme: https
     static_configs:
     - targets: [minio-1.example.net, minio-2.example.net, minio-N.example.net]

存储桶

以下命令会抓取 MinIO 服务器上存储桶的指标。

mc admin prometheus generate ALIAS bucket

将 ALIAS 替换为 MinIO 部署的 alias。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-bucket
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/bucket
     scheme: https
     static_configs:
     - targets: [minio.example.net]

资源

RELEASE.2023-10-07T15-07-38Z 版本新增功能。

以下命令会抓取 MinIO 服务器上资源的指标。

mc admin prometheus generate ALIAS resource

将 ALIAS 替换为 MinIO 部署的 alias。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-resource
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/resource
     scheme: https
     static_configs:
     - targets: [minio.example.net]

设置一个合适的 scrape_interval 值，以确保每次抓取操作在下一轮操作开始前完成。建议值是 60 秒。

一些部署需要更长的抓取间隔，因为抓取的指标数量很多。为了减轻 MinIO 和 Prometheus 服务器的负载，请选择满足监控需求的最长间隔。
将 job_name 设置为与 MinIO 部署相关的值。

使用唯一的值来确保部署指标与该 Prometheus 服务收集的任何其他指标隔离。
使用 MINIO_PROMETHEUS_AUTH_TYPE 设置为 "public" 启动的 MinIO 部署可以省略 bearer_token 字段。
对于不使用 TLS 的 MinIO 部署，将 scheme 设置为 http。
使用解析到 MinIO 部署的主机名来设置 targets 数组。

这可以是任何单个节点，或处理连接到 MinIO 节点的负载均衡器/代理。

2) 使用更新的配置重新启动 Prometheus

将上一步生成的所需 scrape_configs 作业追加到配置文件。

集群

集群指标会聚合节点级指标，并在适当的情况下，将标签附加到来自源节点的指标。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/cluster
     scheme: https
     static_configs:
     - targets: [minio.example.net]

节点

节点指标特定于节点级监控。您需要在此配置中列出所有 MinIO 节点。

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-node
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/node
     scheme: https
     static_configs:
     - targets: [minio-1.example.net, minio-2.example.net, minio-N.example.net]

存储桶

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-bucket
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/bucket
     scheme: https
     static_configs:
     - targets: [minio.example.net]

资源

global:
   scrape_interval: 60s

scrape_configs:
   - job_name: minio-job-resource
     bearer_token: TOKEN
     metrics_path: /minio/v2/metrics/resource
     scheme: https
     static_configs:
     - targets: [minio.example.net]

使用配置文件启动 Prometheus 集群。

prometheus --config.file=prometheus.yaml

3) 分析收集的指标

Prometheus 包含一个表达式浏览器。您可以在此处执行查询以分析收集的指标。

示例

以下查询示例会返回 Prometheus 每五分钟为名为 minio-job 的抓取作业收集的指标

minio_node_drive_free_bytes{job-"minio-job"}[5m]
minio_node_drive_free_inodes{job-"minio-job"}[5m]

minio_node_drive_latency_us{job-"minio-job"}[5m]

minio_node_drive_offline_total{job-"minio-job"}[5m]
minio_node_drive_online_total{job-"minio-job"}[5m]

minio_node_drive_total{job-"minio-job"}[5m]

minio_node_drive_total_bytes{job-"minio-job"}[5m]
minio_node_drive_used_bytes{job-"minio-job"}[5m]

minio_node_drive_errors_timeout{job-"minio-job"}[5m]
minio_node_drive_errors_availability{job-"minio-job"}[5m]

minio_node_drive_io_waiting{job-"minio-job"}[5m]

推荐指标

MinIO 建议以下指标作为监控的基本集。

有关所有可用指标的信息，请参阅指标和警报。

指标	描述
`minio_node_drive_free_bytes`	驱动器上可用的总存储空间。
`minio_node_drive_free_inodes`	总空闲 inode。
`minio_node_drive_latency_us`	驱动器 API 存储操作的平均最近一分钟延迟（以 µs 为单位）。
`minio_node_drive_offline_total`	此节点中脱机的驱动器总数。
`minio_node_drive_online_total`	此节点中在线的驱动器总数。
`minio_node_drive_total`	此节点中驱动器的总数。
`minio_node_drive_total_bytes`	驱动器上的总存储空间。
`minio_node_drive_used_bytes`	驱动器上使用的总存储空间。
`minio_node_drive_errors_timeout`	服务器启动后发生的驱动器超时错误总数。
`minio_node_drive_errors_availability`	服务器启动后发生的驱动器 I/O 错误、权限被拒绝和超时总数。
`minio_node_drive_io_waiting`	等待驱动器 I/O 操作的总数。

4) 使用 MinIO 指标配置警报规则

您必须在 Prometheus 部署上配置警报规则，以根据收集的 MinIO 指标触发警报。

以下警报规则文件示例提供了 MinIO 部署的警报基线。您可以修改或以其他方式使用这些示例作为构建自己的警报的指导。

groups:
- name: minio-alerts
  rules:
  - alert: NodesOffline
    expr: avg_over_time(minio_cluster_nodes_offline_total{job="minio-job"}[5m]) > 0
    for: 10m
    labels:
      severity: warn
    annotations:
      summary: "Node down in MinIO deployment"
      description: "Node(s) in cluster {{ $labels.instance }} offline for more than 5 minutes"

  - alert: DisksOffline
    expr: avg_over_time(minio_cluster_drive_offline_total{job="minio-job"}[5m]) > 0
    for: 10m
    labels:
      severity: warn
    annotations:
      summary: "Disks down in MinIO deployment"
      description: "Disks(s) in cluster {{ $labels.instance }} offline for more than 5 minutes"

在 Prometheus 配置中，在 rule_files 键中指定警报文件的路径。

rule_files:
- minio-alerting.yml

一旦触发，Prometheus 会将警报发送到配置的 AlertManager 服务。

仪表盘

MinIO 提供 Grafana 仪表盘来显示 Prometheus 收集的指标。有关更多信息，请参阅使用 Grafana 监控 MinIO 服务器