指标和告警
指标版本 2 已弃用
从 MinIO 服务器 RELEASE.2024-07-15T19-02-30Z 和 MinIO 客户端 RELEASE.2024-07-11T18-01-28Z 开始,指标版本 3 替换了已弃用的 指标版本 2。
MinIO 使用 Prometheus 数据模型 发布集群和节点指标。您可以使用任何抓取工具从 MinIO 中提取指标数据以进行进一步分析和告警。
对于指标版本 3,所有指标都可以在基本 /minio/metrics/v3 端点下获得,方法是为每个类别附加额外的路径。
例如,以下端点返回审计指标
http://HOSTNAME:PORT/minio/metrics/v3/audit
将 HOSTNAME:PORT 替换为 MinIO 部署的 FQDN 和端口。对于由负载均衡器管理 MinIO 节点之间连接的部署,请指定负载均衡器的地址。
默认情况下,MinIO 需要身份验证才能抓取指标端点。要生成所需的承载令牌,请使用 mc admin prometheus generate。您还可以通过将 MINIO_PROMETHEUS_AUTH_TYPE 设置为 public 来禁用指标端点身份验证。
MinIO 提供以下抓取端点,相对于基本 URL
| 类别 | 路径 | 
|---|---|
| API | 
 
 | 
| 审计 | 
 | 
| 集群 | 
 
 
 
 
 
 | 
| 调试 | 
 | 
| ILM | 
 | 
| 日志记录 Webhook | 
 | 
| 通知 | 
 | 
| 复制 | 
 
 | 
| 扫描程序 | 
 | 
| 系统 | 
 
 
 
 
 | 
有关每个端点的指标完整列表,请参阅 可用指标。
要在 MinIO 控制台中启用历史数据可视化,请在 MinIO 部署中的每个节点上设置以下环境变量
- 将 - MINIO_PROMETHEUS_URL设置为 Prometheus 服务的 URL
- 将 - MINIO_PROMETHEUS_JOB_ID设置为分配给收集的指标的唯一作业 ID
MinIO Grafana 仪表板
MinIO 还发布了两个 Grafana 仪表板 用于可视化收集的指标。有关为 Grafana 配置与 Prometheus 兼容的数据源的更完整文档,请参阅 Prometheus 关于 Grafana 支持的文档。
可用指标
MinIO 在集群、节点或存储桶级别发布了许多指标。每个指标都包含生成该指标的 MinIO 服务器的标签。
API 指标
有关当前节点提供的请求的指标。
| 路径 | 描述 | 
|---|---|
| 
 | 所有请求的指标。 | 
| 
 | 给定存储桶的所有请求的指标。 | 
/api/requests
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 因身份验证失败而拒绝的请求总数。 | 
 | 
| 
 | 因无效标头而拒绝的请求总数。 | 
 | 
| 
 | 因无效时间戳而拒绝的请求总数。 | 
 | 
| 
 | 无效请求总数。 | 
 | 
| 
 | 等待队列中的请求总数。 | 
 | 
| 
 | 传入请求总数。 | 
 | 
| 
 | 当前正在处理的请求总数。 | 
 | 
| 
 | 请求总数。 | 
 | 
| 
 | 出现 4xx 或 5xx 错误的请求总数。 | 
 | 
| 
 | 出现 5xx 错误的请求总数。 | 
 | 
| 
 | 出现 4xx 错误的请求总数。 | 
 | 
| 
 | 客户端取消的请求总数。 | 
 | 
| 
 | API 调用中第一个字节时间分布。 | 
 | 
| 
 | 发送的字节总数。 | 
 | 
| 
 | 接收的字节总数。 | 
 | 
/bucket/api
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 为存储桶发送的字节总数。 | 
 | 
| 
 | 为存储桶接收的字节总数。 | 
 | 
| 
 | 当前为存储桶正在处理的请求总数。 | 
 | 
| 
 | 存储桶的请求总数。 | 
 | 
| 
 | 客户端为存储桶取消的请求总数。 | 
 | 
| 
 | 存储桶出现 4xx 错误的请求总数。 | 
 | 
| 
 | 存储桶出现 5xx 错误的请求总数。 | 
 | 
| 
 | 存储桶API调用中第一个字节时间分布。 | 
 | 
审计指标
有关 MinIO 审计功能的指标。
| 路径 | 描述 | 
|---|---|
| 
 | 与审计功能相关的指标。 | 
/audit
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 自启动以来无法发送的消息总数。 | 
 | 
| 
 | 目标队列中未发送的消息数。 | 
 | 
| 
 | 自启动以来发送的消息总数。 | 
 | 
集群指标
有关整个 MinIO 集群的指标。
| 路径 | 描述 | 
|---|---|
| 
 | 集群配置指标。 | 
| 
 | 擦除集指标。 | 
| 
 | 集群健康指标。 | 
| 
 | 集群 IAM 指标。 | 
| 
 | 按存储桶划分的对象统计信息。 | 
| 
 | 对象统计信息。 | 
/cluster/config
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 缩减冗余存储类奇偶校验。 | |
| 
 | 标准存储类奇偶校验。 | 
/cluster/erasure-set
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 跨池和集的整体写入仲裁。 | |
| 
 | 跨池和集的整体健康状况(1=健康,0=不健康)。 | |
| 
 | 池中擦除集的读取仲裁。 | 
 | 
| 
 | 池中擦除集的写入仲裁。 | 
 | 
| 
 | 池中擦除集中联机驱动器的数量。 | 
 | 
| 
 | 池中擦除集中正在修复的驱动器的数量。 | 
 | 
| 
 | 池中擦除集的健康状况(1=健康,0=不健康)。 | 
 | 
| 
 | 在不影响读取操作的情况下可以容忍的驱动器故障数。 | 
 | 
| 
 | 在不影响写入操作的情况下可以容忍的驱动器故障数。 | 
 | 
| 
 | 池中擦除集读取操作的健康状况(1=健康,0=不健康)。 | 
 | 
| 
 | 池中擦除集写入操作的健康状况(1=健康,0=不健康)。 | 
 | 
/cluster/health
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 集群中脱机驱动器的数量。 | |
| 
 | 集群中联机驱动器的数量。 | |
| 
 | 集群中所有驱动器的数量。 | |
| 
 | 集群中脱机节点的数量。 | |
| 
 | 集群中联机节点的数量。 | |
| 
 | 集群总原始存储容量(以字节为单位)。 | |
| 
 | 集群总原始存储可用空间(以字节为单位)。 | |
| 
 | 集群总可用存储容量(以字节为单位)。 | |
| 
 | 集群总可用存储可用空间(以字节为单位)。 | 
/cluster/iam
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 上次成功的 IAM 数据同步持续时间(以毫秒为单位)。 | |
| 
 | 配置插件身份验证时,返回过去整整一分钟内失败的请求次数。 | |
| 
 | 配置插件身份验证时,返回自上次服务请求失败以来的时间(以秒为单位)。 | |
| 
 | 配置插件身份验证时,返回自上次服务请求成功以来的时间(以秒为单位)。 | |
| 
 | 配置插件身份验证时,返回过去整整一分钟内成功请求的平均往返时间。 | |
| 
 | 配置插件身份验证时,返回过去整整一分钟内成功请求的最大往返时间。 | |
| 
 | 配置插件身份验证时,返回过去整整一分钟内的总请求次数。 | |
| 
 | 自上次成功的 IAM 数据同步以来的时间(以毫秒为单位)。 | |
| 
 | 自服务器启动以来 IAM 数据同步失败的次数。 | |
| 
 | 自服务器启动以来 IAM 数据同步成功的次数。 | 
/cluster/usage/buckets
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 自上次更新使用情况指标以来的时间(以秒为单位)。 | |
| 
 | 存储桶总大小(以字节为单位)。 | 
 | 
| 
 | 存储桶中的对象总数。 | 
 | 
| 
 | 存储桶中对象版本总数,包括删除标记。 | 
 | 
| 
 | 存储桶中删除标记总数。 | 
 | 
| 
 | 存储桶配额总字节数。 | 
 | 
| 
 | 存储桶对象大小分布。 | 
 | 
| 
 | 存储桶对象版本计数分布。 | 
 | 
/cluster/usage/objects
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 自上次更新使用情况指标以来的时间(以秒为单位)。 | |
| 
 | 集群总使用量(字节)。 | |
| 
 | 集群对象总数。 | |
| 
 | 集群对象版本总数,包括删除标记。 | |
| 
 | 集群删除标记总数。 | |
| 
 | 集群存储桶总数。 | |
| 
 | 集群对象大小分布。 | 
 | 
| 
 | 集群对象版本计数分布。 | 
 | 
调试指标
来自Prometheus Go Client 基本收集器的标准 Go 运行时指标。
| 路径 | 描述 | 
|---|---|
| 
 | Go 运行时指标。 | 
ILM 指标
关于 MinIO ILM 功能的指标。
| 路径 | 描述 | 
|---|---|
| 
 | 与 ILM 功能相关的指标。 | 
/ilm
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 队列中待处理的 ILM 过期任务数。 | 
 | 
| 
 | 正在执行的 ILM 过渡任务数。 | 
 | 
| 
 | 队列中待处理的 ILM 过渡任务数。 | 
 | 
| 
 | 错过的立即 ILM 过渡任务数。 | 
 | 
| 
 | 自服务器启动以来,检查 ILM 操作的对象版本总数。 | 
 | 
日志记录 Webhook 指标
关于 MinIO 日志记录 Webhook 的指标。
| 路径 | 描述 | 
|---|---|
| 
 | 与日志记录 Webhook 相关的指标。 | 
/logger/webhook
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 发送失败的消息数。 | 
 | 
| 
 | Webhook 队列长度。 | 
 | 
| 
 | 发送到此目标的消息总数。 | 
 | 
通知指标
关于 MinIO 通知功能的指标。
| 路径 | 描述 | 
|---|---|
| 
 | 与通知功能相关的指标。 | 
/notification
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 所有目标当前活动的异步发送调用数。 | 
 | 
| 
 | 无法发送到目标的事件总数。 | 
 | 
| 
 | 发送到目标的事件总数。 | 
 | 
| 
 | 由于内存队列已满而未发送到目标的事件数。 | 
 | 
复制指标
关于 MinIO 站点和存储桶复制的指标。
| 路径 | 描述 | 
|---|---|
| 
 | 与存储桶复制相关的指标。 | 
| 
 | 与站点复制相关的指标。 | 
/replication
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 活动复制工作程序的平均数量。 | 
 | 
| 
 | 自服务器启动以来,排队等待复制的字节数的平均值。 | 
 | 
| 
 | 自服务器启动以来,排队等待复制的对象数的平均值。 | 
 | 
| 
 | 平均复制数据传输速率(字节/秒)。 | 
 | 
| 
 | 活动复制工作程序的总数。 | 
 | 
| 
 | 当前复制数据传输速率(字节/秒)。 | 
 | 
| 
 | 过去整整一分钟内排队等待复制的字节数。 | 
 | 
| 
 | 过去整整一分钟内排队等待复制的对象数。 | 
 | 
| 
 | 自服务器启动以来观察到的活动复制工作程序的最大数量。 | 
 | 
| 
 | 自服务器启动以来排队等待复制的字节数的最大值。 | 
 | 
| 
 | 自服务器启动以来排队等待复制的对象数的最大值。 | 
 | 
| 
 | 自服务器启动以来复制数据传输速率的最大值(字节/秒)。 | 
 | 
| 
 | 过去 5 分钟内在复制积压中观察到的对象总数 | 
 | 
/bucket/replication
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 过去一小时内至少失败复制一次的存储桶上的字节总数。 | 
 | 
| 
 | 过去一小时内失败复制的存储桶上的对象总数。 | 
 | 
| 
 | 过去整整一分钟内至少失败一次的存储桶上的字节总数。 | 
 | 
| 
 | 过去整整一分钟内失败复制的存储桶上的对象总数。 | 
 | 
| 
 | 存储桶上的复制延迟(毫秒)。 | 
 | 
| 
 | 代理到复制目标的 DELETE 标记请求数。 | 
 | 
| 
 | 代理到复制目标的 GET 请求失败次数。 | 
 | 
| 
 | 代理到复制目标的 GET 请求总数。 | 
 | 
| 
 | 代理到复制目标的 GET 标记请求失败次数。 | 
 | 
| 
 | 代理到复制目标的 GET 标记请求总数。 | 
 | 
| 
 | 代理到复制目标的 HEAD 请求失败次数。 | 
 | 
| 
 | 代理到复制目标的 HEAD 请求总数。 | 
 | 
| 
 | 代理到复制目标的 PUT 标记请求失败次数。 | 
 | 
| 
 | 代理到复制目标的 PUT 标记请求总数。 | 
 | 
| 
 | 复制到目标的字节总数。 | 
 | 
| 
 | 复制到目标的对象总数。 | 
 | 
| 
 | 自服务器启动以来至少失败复制一次的字节总数。 | 
 | 
| 
 | 自服务器启动以来失败复制的对象总数。 | 
 | 
| 
 | 代理到复制目标的 DELETE 标记请求失败次数。 | 
 | 
扫描程序指标
关于 MinIO 扫描程序的指标。
| 路径 | 描述 | 
|---|---|
| 
 | 与 MinIO 扫描程序相关的指标。 | 
/scanner
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 自服务器启动以来完成的存储桶扫描总数。 | 
 | 
| 
 | 自服务器启动以来开始的存储桶扫描总数。 | 
 | 
| 
 | 自服务器启动以来扫描的目录总数。 | 
 | 
| 
 | 自上次扫描活动以来的时间(秒)。 | 
 | 
| 
 | 自服务器启动以来扫描的唯一对象总数。 | 
 | 
| 
 | 自服务器启动以来扫描的对象版本总数。 | 
 | 
系统指标
关于 MinIO 进程和节点的指标。
| 路径 | 描述 | 
|---|---|
| 
 | 关于系统上 CPU 的指标。 | 
| 
 | 关于系统上驱动器的指标。 | 
| 
 | 关于节点发起的节点间请求的指标。 | 
| 
 | 关于系统上内存的指标。 | 
| 
 | 标准进程指标。 | 
/system/drive
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 驱动器上使用的总存储空间(字节)。 | 
 | 
| 
 | 驱动器上空闲的总存储空间(字节)。 | 
 | 
| 
 | 驱动器上可用的总存储空间(字节)。 | 
 | 
| 
 | 驱动器上使用的 inode 总数。 | 
 | 
| 
 | 驱动器上空闲的 inode 总数。 | 
 | 
| 
 | 驱动器上可用的 inode 总数。 | 
 | 
| 
 | 驱动器上的超时错误总数。 | 
 | 
| 
 | 驱动器上的 I/O 错误总数。 | 
 | 
| 
 | 驱动器上的可用性错误总数(I/O 错误、超时)。 | 
 | 
| 
 | 驱动器上等待的 I/O 操作总数。 | 
 | 
| 
 | 驱动器 API 存储操作的过去一分钟平均延迟(微秒)。 | 
 | 
| 
 | 脱机驱动器数量。 | 
 | 
| 
 | 联机驱动器数量。 | 
 | 
| 
 | 所有驱动器数量。 | 
 | 
| 
 | 驱动器健康状况(0 = 脱机,1 = 健康,2 = 恢复中)。 | 
 | 
| 
 | 驱动器上的每秒读取次数。 | 
 | 
| 
 | 驱动器上的每秒读取千字节数。 | 
 | 
| 
 | 驱动器上读取请求的平均服务时间。 | 
 | 
| 
 | 驱动器上的每秒写入次数。 | 
 | 
| 
 | 驱动器每秒写入的千字节数。 | 
 | 
| 
 | 驱动器上写入请求的平均服务时间。 | 
 | 
| 
 | 磁盘繁忙时间的百分比。 | 
 | 
/system/memory
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 节点上已使用的内存。 | 
 | 
| 
 | 节点上已使用内存的百分比。 | 
 | 
| 
 | 节点上空闲的内存。 | 
 | 
| 
 | 节点上的总内存。 | 
 | 
| 
 | 节点上的缓冲区内存。 | 
 | 
| 
 | 节点上的缓存内存。 | 
 | 
| 
 | 节点上的共享内存。 | 
 | 
| 
 | 节点上可用的内存。 | 
 | 
/system/cpu
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | CPU平均空闲时间。 | 
 | 
| 
 | CPU平均IOWait时间。 | 
 | 
| 
 | CPU负载平均值(1分钟)。 | 
 | 
| 
 | CPU负载平均值(1分钟,百分比)。 | 
 | 
| 
 | CPU nice时间。 | 
 | 
| 
 | CPU窃取时间。 | 
 | 
| 
 | CPU系统时间。 | 
 | 
| 
 | CPU用户时间。 | 
 | 
/system/network/internode
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 节点间调用失败的总数。 | 
 | 
| 
 | 节点间TCP拨号超时和错误的总数。 | 
 | 
| 
 | 节点间TCP调用的平均拨号时间(纳秒)。 | 
 | 
| 
 | 发送到其他对等节点的字节总数。 | 
 | 
| 
 | 从其他对等节点接收到的字节总数。 | 
 | 
/system/process
| 名称 | 描述 | 标签 | 
|---|---|---|
| 
 | 此对等方上当前读取锁的数量。 | 
 | 
| 
 | 此对等方上当前写入锁的数量。 | 
 | 
| 
 | 用户和系统CPU总共花费的时间(秒)。 | 
 | 
| 
 | 正在运行的Goroutine总数。 | 
 | 
| 
 | 进程从底层存储系统(包括缓存)读取的总字节数,/proc/[pid]/io rchar。 | 
 | 
| 
 | 进程从底层存储系统读取的总字节数,/proc/[pid]/io read_bytes。 | 
 | 
| 
 | 进程写入底层存储系统(包括页面缓存)的总字节数,/proc/[pid]/io wchar。 | 
 | 
| 
 | 进程写入底层存储系统的总字节数,/proc/[pid]/io write_bytes。 | 
 | 
| 
 | MinIO进程的启动时间(自Unix纪元以来的秒数)。 | 
 | 
| 
 | MinIO进程的运行时间(秒)。 | 
 | 
| 
 | MinIO服务器进程打开的文件描述符总数的限制。 | 
 | 
| 
 | MinIO服务器进程打开的文件描述符总数。 | 
 | 
| 
 | 对内核的总读取系统调用。/proc/[pid]/io syscr。 | 
 | 
| 
 | 对内核的总写入系统调用。/proc/[pid]/io syscw。 | 
 | 
| 
 | 驻留内存大小(字节)。 | 
 | 
| 
 | 虚拟内存大小(字节)。 | 
 | 
| 
 | 最大虚拟内存大小(字节)。 | 
 | 
