指标和告警
指标版本 2 已弃用
从 MinIO 服务器 RELEASE.2024-07-15T19-02-30Z 和 MinIO 客户端 RELEASE.2024-07-11T18-01-28Z 开始,指标版本 3 替换了已弃用的 指标版本 2。
MinIO 使用 Prometheus 数据模型 发布集群和节点指标。您可以使用任何抓取工具从 MinIO 中提取指标数据以进行进一步分析和告警。
对于指标版本 3,所有指标都可以在基本 /minio/metrics/v3
端点下获得,方法是为每个类别追加附加路径。
例如,以下端点返回审核指标
http://HOSTNAME:PORT/minio/metrics/v3/audit
将 HOSTNAME:PORT
替换为 MinIO 部署的 FQDN 和端口。对于使用负载均衡器管理 MinIO 节点之间连接的部署,请指定负载均衡器的地址。
默认情况下,MinIO 需要身份验证才能抓取指标端点。要生成所需的承载令牌,请使用 mc admin prometheus generate
。您也可以通过将 MINIO_PROMETHEUS_AUTH_TYPE
设置为 public
来禁用指标端点身份验证。
MinIO 提供以下抓取端点,相对于基本 URL
类别 |
路径 |
---|---|
API |
|
审核 |
|
集群 |
|
调试 |
|
ILM |
|
日志记录 Webhook |
|
通知 |
|
复制 |
|
扫描仪 |
|
系统 |
|
有关每个端点的完整指标列表,请参阅 可用指标。
MinIO 运算符支持部署每个租户的 Prometheus 实例,该实例配置为支持指标和可视化。
如果您部署了禁用此功能的租户,但仍然需要历史指标视图,则可以改为配置外部 Prometheus 服务来抓取租户指标。配置完成后,您可以更新租户以查询该 Prometheus 服务以检索指标数据
将
MINIO_PROMETHEUS_URL
设置为 Prometheus 服务的 URL将
MINIO_PROMETHEUS_JOB_ID
设置为分配给收集指标的唯一作业 ID
MinIO Grafana 仪表板
MinIO 还发布了两个 Grafana 仪表板 用于可视化收集的指标。有关为 Grafana 配置与 Prometheus 兼容的数据源的更完整文档,请参阅 Prometheus 文档中的 Grafana 支持.
可用指标
MinIO 在集群、节点或存储桶级别发布了许多指标。每个指标都包含生成该指标的 MinIO 服务器的标签。
API 指标
有关当前节点提供的请求的指标。
路径 |
说明 |
---|---|
|
所有请求的指标。 |
|
针对给定存储桶的所有请求的指标。 |
/api/requests
名称 |
说明 |
标签 |
---|---|---|
|
由于身份验证失败而被拒绝的请求总数。 |
|
|
由于无效标头而被拒绝的请求总数。 |
|
|
由于无效时间戳而被拒绝的请求总数。 |
|
|
无效请求总数。 |
|
|
等待队列中的请求总数。 |
|
|
传入请求总数。 |
|
|
当前正在处理的请求总数。 |
|
|
请求总数。 |
|
|
出现 4xx 或 5xx 错误的请求总数。 |
|
|
出现 5xx 错误的请求总数。 |
|
|
出现 4xx 错误的请求总数。 |
|
|
客户端取消的请求总数。 |
|
|
跨 API 调用的首字节时间的分布。 |
|
|
发送的字节总数。 |
|
|
接收的字节总数。 |
|
/bucket/api
名称 |
说明 |
标签 |
---|---|---|
|
针对存储桶发送的字节总数。 |
|
|
针对存储桶接收的字节总数。 |
|
|
当前正在处理的针对存储桶的请求总数。 |
|
|
针对存储桶的请求总数。 |
|
|
客户端取消的针对存储桶的请求总数。 |
|
|
针对存储桶的出现 4xx 错误的请求总数。 |
|
|
针对存储桶的出现 5xx 错误的请求总数。 |
|
|
针对存储桶的跨 API 调用的首字节时间的分布。 |
|
审计指标
有关 MinIO 审计功能的指标。
路径 |
说明 |
---|---|
|
与审计功能相关的指标。 |
/audit
名称 |
说明 |
标签 |
---|---|---|
|
自启动以来无法发送的消息总数。 |
|
|
目标队列中未发送的消息数量。 |
|
|
自启动以来发送的消息总数。 |
|
集群指标
有关整个 MinIO 集群的指标。
路径 |
说明 |
---|---|
|
集群配置指标。 |
|
擦除集指标。 |
|
集群运行状况指标。 |
|
集群 IAM 指标。 |
|
按存储桶划分的对象统计信息。 |
|
对象统计信息。 |
/cluster/config
名称 |
说明 |
标签 |
---|---|---|
|
简化冗余存储类奇偶校验。 |
|
|
标准存储类奇偶校验。 |
/cluster/erasure-set
名称 |
说明 |
标签 |
---|---|---|
|
跨池和集的总体写入仲裁。 |
|
|
跨池和集的总体运行状况 (1=健康,0=不健康)。 |
|
|
池中擦除集的读取仲裁。 |
|
|
池中擦除集的写入仲裁。 |
|
|
池中擦除集中联机驱动器的数量。 |
|
|
池中擦除集中正在修复的驱动器的数量。 |
|
|
池中擦除集的运行状况 (1=健康,0=不健康)。 |
|
|
在不影响读取操作的情况下可以容忍的驱动器故障数量。 |
|
|
在不影响写入操作的情况下可以容忍的驱动器故障数量。 |
|
|
池中擦除集针对读取操作的运行状况 (1=健康,0=不健康)。 |
|
|
池中擦除集针对写入操作的运行状况 (1=健康,0=不健康)。 |
|
/cluster/health
名称 |
说明 |
标签 |
---|---|---|
|
集群中脱机驱动器的数量。 |
|
|
集群中联机驱动器的数量。 |
|
|
集群中所有驱动器的数量。 |
|
|
集群中脱机节点的数量。 |
|
|
集群中联机节点的数量。 |
|
|
集群总的原始存储容量(以字节为单位)。 |
|
|
集群总的原始存储剩余空间(以字节为单位)。 |
|
|
集群总的可使用存储容量(以字节为单位)。 |
|
|
集群总的可使用存储剩余空间(以字节为单位)。 |
/cluster/iam
名称 |
说明 |
标签 |
---|---|---|
|
上次成功的 IAM 数据同步持续时间(以毫秒为单位)。 |
|
|
如果配置了插件身份验证,则返回过去整整一分钟内的失败请求计数。 |
|
|
如果配置了插件身份验证,则返回自上次向服务发送失败请求以来的时间(以秒为单位)。 |
|
|
如果配置了插件身份验证,则返回自上次向服务发送成功请求以来的时间(以秒为单位)。 |
|
|
如果配置了插件身份验证,则返回过去整整一分钟内的成功请求的平均往返时间。 |
|
|
如果配置了插件身份验证,则返回过去整整一分钟内的成功请求的最大往返时间。 |
|
|
如果配置了插件身份验证,则返回过去整整一分钟内的总请求计数。 |
|
|
自上次成功的 IAM 数据同步以来的时间(以毫秒为单位)。 |
|
|
自服务器启动以来 IAM 数据同步失败的次数。 |
|
|
自服务器启动以来 IAM 数据同步成功的次数。 |
/cluster/usage/buckets
名称 |
说明 |
标签 |
---|---|---|
|
自上次更新使用情况指标以来的时间(以秒为单位)。 |
|
|
总存储桶大小(以字节为单位)。 |
|
|
存储桶中的总对象计数。 |
|
|
存储桶中的总对象版本计数,包括删除标记。 |
|
|
存储桶中的总删除标记计数。 |
|
|
总存储桶配额(以字节为单位)。 |
|
|
存储桶对象大小分布。 |
|
|
存储桶对象版本计数分布。 |
|
/cluster/usage/objects
名称 |
说明 |
标签 |
---|---|---|
|
自上次更新使用情况指标以来的时间(以秒为单位)。 |
|
|
总集群使用量(以字节为单位)。 |
|
|
总集群对象计数。 |
|
|
总集群对象版本计数,包括删除标记。 |
|
|
总集群删除标记计数。 |
|
|
总集群存储桶计数。 |
|
|
集群对象大小分布。 |
|
|
集群对象版本计数分布。 |
|
调试指标
来自 Prometheus Go 客户端基础收集器 的标准 Go 运行时指标。
路径 |
说明 |
---|---|
|
Go 运行时指标。 |
ILM 指标
关于 MinIO ILM 功能的指标。
路径 |
说明 |
---|---|
|
与 ILM 功能相关的指标。 |
/ilm
名称 |
说明 |
标签 |
---|---|---|
|
队列中待处理的 ILM 过期任务数量。 |
|
|
正在进行的 ILM 过渡任务数量。 |
|
|
队列中待处理的 ILM 过渡任务数量。 |
|
|
错过的立即 ILM 过渡任务数量。 |
|
|
自服务器启动以来,检查 ILM 操作的对象版本总数。 |
|
日志记录 Webhook 指标
关于 MinIO 日志记录 Webhook 的指标。
路径 |
说明 |
---|---|
|
与日志记录 Webhook 相关的指标。 |
/logger/webhook
名称 |
说明 |
标签 |
---|---|---|
|
无法发送的消息数量。 |
|
|
Webhook 队列长度。 |
|
|
发送到此目标的消息总数。 |
|
通知指标
关于 MinIO 通知功能的指标。
路径 |
说明 |
---|---|
|
与通知功能相关的指标。 |
/notification
名称 |
说明 |
标签 |
---|---|---|
|
对所有目标激活的并发异步发送调用数量。 |
|
|
无法发送到目标的事件总数。 |
|
|
发送到目标的事件总数。 |
|
|
由于内存中队列已满而未发送到目标的事件数量。 |
|
复制指标
关于 MinIO 站点和存储桶复制的指标。
路径 |
说明 |
---|---|
|
与存储桶复制相关的指标。 |
|
与站点复制相关的指标。 |
/replication
名称 |
说明 |
标签 |
---|---|---|
|
活动复制工作程序的平均数量。 |
|
|
自服务器启动以来,排队用于复制的字节数的平均值。 |
|
|
自服务器启动以来,排队用于复制的对象数的平均值。 |
|
|
复制数据传输速率的平均值,以字节/秒为单位。 |
|
|
活动复制工作程序的总数。 |
|
|
当前复制数据传输速率,以字节/秒为单位。 |
|
|
在过去的完整分钟内,排队用于复制的字节数。 |
|
|
在过去的完整分钟内,排队用于复制的对象数。 |
|
|
自服务器启动以来,看到的活动复制工作程序的最大数量。 |
|
|
自服务器启动以来,排队用于复制的字节数的最大值。 |
|
|
自服务器启动以来,排队用于复制的对象数的最大值。 |
|
|
自服务器启动以来,复制数据传输速率的最大值,以字节/秒为单位。 |
|
|
在过去的 5 分钟内,在复制积压中看到的所有对象数。 |
|
/bucket/replication
名称 |
说明 |
标签 |
---|---|---|
|
在过去的一个小时内,至少失败一次复制的存储桶上的字节总数。 |
|
|
在过去的一个小时内,至少失败一次复制的存储桶上的对象总数。 |
|
|
在过去的完整分钟内,至少失败一次的存储桶上的字节总数。 |
|
|
在过去的完整分钟内,至少失败一次复制的存储桶上的对象总数。 |
|
|
存储桶上的复制延迟,以毫秒为单位。 |
|
|
代理到复制目标的 DELETE 标记请求的数量。 |
|
|
代理到复制目标的 GET 请求失败的数量。 |
|
|
代理到复制目标的 GET 请求的数量。 |
|
|
代理到复制目标的 GET 标记请求失败的数量。 |
|
|
代理到复制目标的 GET 标记请求的数量。 |
|
|
代理到复制目标的 HEAD 请求失败的数量。 |
|
|
代理到复制目标的 HEAD 请求的数量。 |
|
|
代理到复制目标的 PUT 标记请求失败的数量。 |
|
|
代理到复制目标的 PUT 标记请求的数量。 |
|
|
复制到目标的字节总数。 |
|
|
复制到目标的对象总数。 |
|
|
自服务器启动以来,至少失败一次复制的字节总数。 |
|
|
自服务器启动以来,失败复制的对象总数。 |
|
|
代理到复制目标的 DELETE 标记请求失败的数量。 |
|
扫描器指标
关于 MinIO 扫描器的指标。
路径 |
说明 |
---|---|
|
与 MinIO 扫描器相关的指标。 |
/scanner
名称 |
说明 |
标签 |
---|---|---|
|
自服务器启动以来,完成的存储桶扫描总数。 |
|
|
自服务器启动以来,启动的存储桶扫描总数。 |
|
|
自服务器启动以来,扫描的目录总数。 |
|
|
自上次扫描活动以来的时间(以秒为单位)。 |
|
|
自服务器启动以来,扫描的唯一对象总数。 |
|
|
自服务器启动以来,扫描的对象版本总数。 |
|
系统指标
关于 MinIO 进程和节点的指标。
路径 |
说明 |
---|---|
|
关于系统上 CPU 的指标。 |
|
关于系统上驱动器的指标。 |
|
关于节点发出的节点间请求的指标。 |
|
关于系统上内存的指标。 |
|
标准进程指标。 |
/system/drive
名称 |
说明 |
标签 |
---|---|---|
|
驱动器上使用的总存储量,以字节为单位。 |
|
|
驱动器上剩余的总存储量,以字节为单位。 |
|
|
驱动器上可用的总存储量,以字节为单位。 |
|
|
驱动器上使用的 inode总数。 |
|
|
驱动器上剩余的 inode 总数。 |
|
|
驱动器上可用的 inode 总数。 |
|
|
驱动器上的总超时错误数。 |
|
|
驱动器上的总 I/O 错误数。 |
|
|
驱动器上的总可用性错误数(I/O 错误、超时)。 |
|
|
驱动器上的总等待 I/O 操作数。 |
|
|
驱动器 API 存储操作的平均最后分钟延迟,以 µs 为单位。 |
|
|
离线驱动器计数。 |
|
|
在线驱动器计数。 |
|
|
所有驱动器计数。 |
|
|
驱动器健康状况 (0 = 离线,1 = 健康,2 = 恢复中)。 |
|
|
驱动器每秒读取次数。 |
|
|
驱动器每秒读取千字节。 |
|
|
驱动器上读取请求的平均服务时间。 |
|
|
驱动器每秒写入次数。 |
|
|
驱动器每秒写入千字节。 |
|
|
驱动器上写入请求的平均服务时间。 |
|
|
磁盘繁忙时间的百分比。 |
|
/system/memory
名称 |
说明 |
标签 |
---|---|---|
|
节点上已使用的内存。 |
|
|
节点上已使用内存的百分比。 |
|
|
节点上空闲的内存。 |
|
|
节点上的总内存。 |
|
|
节点上的缓冲区内存。 |
|
|
节点上的缓存内存。 |
|
|
节点上的共享内存。 |
|
|
节点上可用的内存。 |
|
/system/cpu
名称 |
说明 |
标签 |
---|---|---|
|
CPU 平均空闲时间。 |
|
|
CPU 平均 IOWait 时间。 |
|
|
CPU 负载平均值 1 分钟。 |
|
|
CPU 负载平均值 1 分钟 (百分比)。 |
|
|
CPU 优先级时间。 |
|
|
CPU 窃取时间。 |
|
|
CPU 系统时间。 |
|
|
CPU 用户时间。 |
|
/system/network/internode
名称 |
说明 |
标签 |
---|---|---|
|
失败的节点间调用总数。 |
|
|
节点间 TCP 连接超时和错误总数。 |
|
|
节点间 TCP 调用的平均连接时间,单位为纳秒。 |
|
|
发送到其他对等节点的字节总数。 |
|
|
从其他对等节点接收的字节总数。 |
|
/system/process
名称 |
说明 |
标签 |
---|---|---|
|
此对等方上的当前 READ 锁数量。 |
|
|
此对等方上的当前 WRITE 锁数量。 |
|
|
总的用户和系统 CPU 时间,单位为秒。 |
|
|
运行的 Go 协程总数。 |
|
|
进程从底层存储系统(包括缓存)读取的总字节数,/proc/[pid]/io rchar。 |
|
|
进程从底层存储系统读取的总字节数,/proc/[pid]/io read_bytes。 |
|
|
进程写入底层存储系统(包括页缓存)的总字节数,/proc/[pid]/io wchar。 |
|
|
进程写入底层存储系统的总字节数,/proc/[pid]/io write_bytes。 |
|
|
MinIO 进程的启动时间,单位为自 Unix 纪元以来的秒数。 |
|
|
MinIO 进程的运行时间,单位为秒。 |
|
|
MinIO 服务器进程打开的文件描述符总数限制。 |
|
|
MinIO 服务器进程打开的文件描述符总数。 |
|
|
对内核的总读取系统调用数。/proc/[pid]/io syscr。 |
|
|
对内核的总写入系统调用数。/proc/[pid]/io syscw。 |
|
|
驻留内存大小,单位为字节。 |
|
|
虚拟内存大小,单位为字节。 |
|
|
最大虚拟内存大小,单位为字节。 |
|