跳转至

GPU 监控指标

本页列出一些常用的 GPU 监控指标。

集群维度

指标名称 英文 描述 指标 表格样式
GPU 卡数 Total GPU 集群下所有的 GPU 卡数量,切分的 MIG 实例也将会被统计成的单张的物理卡 count(DCGM_FI_DEV_COUNT{cluster="$cluster",node=~"${node}"}) 数值
GPU 平均使用率(整卡) GPU Avg Utilization 集群下所有 GPU 卡的平均使用率 avg(max_over_time(DCGM_FI_DEV_GPU_UTIL{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"}[29s])) 数值
GPU 平均使用率(MIG) GPU Avg Utilization
(Only MIG Enably)
当启用 MIG 特性后,集群下所有 GPU 卡的平均使用率 avg(max_over_time(DCGM_FI_DEV_GPU_UTIL{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"}[29s])) 数值
GPU 卡平均显存使用率 GPU Avg Memory Utilization 集群下所有 GPU 卡的平均显存使用率 sum(max_over_time(DCGM_FI_DEV_FB_USED{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"}[29s])) / sum(max_over_time(DCGM_FI_DEV_FB_USED{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} + DCGM_FI_DEV_FB_FREE{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} [29s])) * 100 数值
GPU 卡功率 GPU Power Usage 集群下所有 GPU 卡的功率 DCGM_FI_DEV_POWER_USAGE{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} 柱状图
GPU 卡温度 GPU Temperature 集群下所有 GPU 卡的温度 DCGM_FI_DEV_GPU_TEMP{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} 柱状图
GPU 使用率细节(整卡) GPU Utilization Details 24 小时内,集群下所有 GPU 卡的使用率细节(包含 max、avg、current) DCGM_FI_DEV_GPU_UTIL{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} 折线图
GPU使用率细节(mig) GPU Utilization Details(Only MIG Enably) 24 小时内,当启用 MIG 特性后,集群下所有 GPU 卡的使用率细节。
(包含 max、avg、current)
DCGM_FI_PROF_GR_ENGINE_ACTIVE{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} * 100 折线图
GPU 显存使用量 GPU Memory Used Details 24 小时内,集群下所有 GPU 卡的显存使用量细节
(包含min
、max、avg、current)
DCGM_FI_DEV_FB_USED{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} 折线图
GPU 显存复制使用率 GPU Memory Copy Utilization 集群下所有 GPU 卡的显存复制使用率 DCGM_FI_DEV_MEM_COPY_UTIL{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} 折线图

节点维度

指标名称 英文 描述 指标 表格样式
GPU 卡数 Total GPU 节点上所有的 GPU 卡数量,切分的 MIG 实例也将会被统计成的单张的物理卡 count(DCGM_FI_DEV_COUNT{cluster="$cluster",node=~"${node}"}) 数值
GPU 模式 GPU Mode 节点上 GPU 卡的模式使用模式,包含 整卡模式、MIG 模式、vGPU 模式 topk(1,DCGM_FI_DEV_MIG_MODE{cluster="$cluster",node=~"$node"}) 文本
GPU 平均使用率(整卡) GPU Avg Utilization 节点上所有 GPU 卡的平均使用率 avg(max_over_time(DCGM_FI_DEV_GPU_UTIL{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"}[29s])) 数值
GPU 平均使用率(MIG) GPU Avg Utilization
(Only MIG Enably)
当启用 MIG 特性后,节点上所有 GPU 卡的平均使用率 avg(max_over_time(DCGM_FI_PROF_GR_ENGINE_ACTIVE{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"}[29s] * 100)) 数值
GPU 卡平均显存使用率 GPU Avg Memory Utilization 节点上所有 GPU 卡的平均显存使用率 sum(max_over_time(DCGM_FI_DEV_FB_USED{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"}[29s])) / sum(max_over_time(DCGM_FI_DEV_FB_USED{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} + DCGM_FI_DEV_FB_FREE{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} [29s])) * 100 数值
GPU 驱动版本 GPU Driver Version 节点上 GPU 卡驱动的版本信息 DCGM_FI_DEV_MIG_MODE{cluster="$cluster",node=~"$node",gpu=~"$gpu"} {{modelName}} 文本
GPU 卡型号/规格 GPU Specifications 节点上 GPU 卡规格信息 DCGM_FI_DEV_MIG_MODE{cluster="$cluster",node=~"$node",gpu=~"$gpu"} 表格
GPU 使用率细节(整卡) GPU Utilization Details 24 小时内,节点上所有 GPU 卡的使用率细节(包含 max、avg、current) DCGM_FI_DEV_GPU_UTIL{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} 折线图
GPU 使用率细节(MIG) GPU Utilization Details(Only MIG Enably) 24 小时内,当启用 MIG 特性后,节点上所有 GPU 卡的使用率细节。
(包含 max、avg、current)
DCGM_FI_PROF_GR_ENGINE_ACTIVE{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} * 100 折线图
GPU 显存使用量 GPU Memory Used Details 24 小时内,节点上所有 GPU 卡的显存使用量细节
(包含min
、max、avg、current)
DCGM_FI_DEV_FB_USED{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} 折线图

工作负载维度

维度 指标名称 英文 描述 指标 表格样式
应用概览 Pod GPU 使用率(整卡) Pod GPU Utilization 当前 Pod 所使用到的 GPU 卡的比率 DCGM_FI_DEV_GPU_UTIL{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} 折线图
应用概览 Pod GPU 使用率(MIG) Pod GPU Utilization
(Only MIG Enably)
当启用 MIG 特性后,当前 Pod 所使用到的 GPU 卡的比率 DCGM_FI_PROF_GR_ENGINE_ACTIVE{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} * 100 折线图
应用概览 Pod GPU 使用率(vGPU) Pod GPU Utilization
(vGPU)
当启用 vGPU 特性后,当前 Pod 所使用到的 GPU 卡的比率 vGPUCorePercentage{cluster="$cluster",exported_namespace="$namespace",podname="$pod"} 折线图
应用概览 Pod GPU 显存使用率 Pod GPU Memory Utilization 当前 Pod 所使用到的 GPU 卡的显存比率 DCGM_FI_DEV_FB_USED{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} 折线图
应用概览 Pod GPU 显存使用率(vGPU) Pod GPU Memory Utilization(vGPU) 当前 Pod 所使用到的 GPU 卡的显存比率(vGPU 模式) vGPUMemoryPercentage{cluster="$cluster",exported_namespace="$namespace",podname="$pod"} 折线图
应用概览 Pod 显存使用量 Pod 显存使用量 当前 Pod 所使用到的 GPU 卡的显存量 DCGM_FI_DEV_FB_USED{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} 折线图
应用概览 Pod 显存使用量(vGPU) Pod 显存使用量
(vGPU)
当前 Pod 所使用到的 GPU 卡的显存比率(vGPU 模式) sum(GPUDeviceMemoryLimit{cluster="$cluster"}) * vGPUMemoryPercentage{cluster="$cluster",exported_namespace="$namespace",podname="$pod"} 折线图
应用概览 Pod GPU 显存复制使用率 Pod GPU Memory Copy Utilization 当前 Pod 所使用到的 GPU 卡的显存显存复制比率 DCGM_FI_DEV_MEM_COPY_UTIL{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} 折线
应用概览 Pod 解码使用率 Pod Decode Utilization 当前 Pod 所使用到的 GPU 卡解码引擎比率 DCGM_FI_DEV_DEC_UTIL{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} -
应用概览 Pod 编码使用率 Pod Encode Utilization 当前 Pod 所使用到的 GPU 卡编码引擎比率 DCGM_FI_DEV_ENC_UTIL{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} -
GPU 卡-算力&显存 GPU 使用率细节(整卡) GPU Utilization Details 24 小时内,Pod 关联的 GPU 卡的使用率细节(包含 max、avg、current) DCGM_FI_DEV_GPU_UTIL{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} 折线图
GPU 卡-算力&显存 GPU使用率细节(MIG) GPU Utilization Details(Only MIG Enably) 24 小时内,当启用 MIG 特性后,Pod 关联的 GPU 卡的使用率细节。
(包含 max、avg、current)
DCGM_FI_PROF_GR_ENGINE_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 折线图
GPU 卡-算力&显存 GPU 显存使用量 GPU Memory Used Details 24 小时内,Pod 关联的 GPU 卡的显存使用量细节
(包含min
、max、avg、current)
DCGM_FI_DEV_FB_USED{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} 时间维度折线图
GPU 卡-算力&显存 GPU 显存复制使用率 GPU Memory Copy Utilization Pod 关联的 GPU 卡的显存复制使用率 DCGM_FI_DEV_MEM_COPY_UTIL{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} 折线图
GPU 卡-引擎概览 GPU 图形引擎活动百分比 GPU Graphics Engine Active 表示在一个监控周期内,Graphics 或 Compute 引擎处于 Active 的时间占总的时间的比例。 DCGM_FI_PROF_GR_ENGINE_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 折线图
GPU 卡-引擎概览 GPU DRAM 活动百分比 GPU DRAM Active 表示内存带宽利用率(Memory BW Utilization) DCGM_FI_PROF_DRAM_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 折线图
GPU 卡-引擎概览 Tensor 核心引擎使用率 GPU Tensor Core Engine Active 表示在一个监控周期内,Tensor Core管道(Pipe)处于Active时间占总时间的比例。 DCGM_FI_PROF_PIPE_TENSOR_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 折线图
GPU 卡-引擎概览 FP16 引擎使用率 GPU FP16 Engine Active 表示在一个监控周期内,FP16 管道处于 Active 的时间占总的时间的比例。 DCGM_FI_PROF_PIPE_FP16_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 折线图
GPU 卡-引擎概览 FP32 引擎使用率 GPU FP32 Engine Active 表示在一个监控周期内,FP32 管道处于 Active 的时间占总的时间的比例。 DCGM_FI_PROF_PIPE_FP32_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 折线图
GPU 卡-引擎概览 FP32 引擎使用率 GPU FP64 Engine Active 表示在一个监控周期内,FP64 管道处于 Active 的时间占总的时间的比例。 DCGM_FI_PROF_PIPE_FP64_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 折线图
GPU 卡-引擎概览 GPU 解码使用率 GPU Decode Utilization GPU 卡解码引擎比率 DCGM_FI_DEV_DEC_UTIL{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} 折线图
GPU 卡-引擎概览 GPU 编码使用率 GPU Encode Utilization GPU 卡编码引擎比率 DCGM_FI_DEV_ENC_UTIL{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} 折线图
GPU 卡-温度&功耗 GPU 卡温度 GPU Temperature 集群下所有 GPU 卡的温度 DCGM_FI_DEV_GPU_TEMP{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} 柱状图
GPU 卡-温度&功耗 GPU 卡功率 GPU Power Usage 集群下所有 GPU 卡的功率 DCGM_FI_DEV_POWER_USAGE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} 柱状图
GPU 卡-温度&功耗 GPU 卡-总耗能 GPU Total Energy Consumption GPU 卡总共消耗的能量 sum(DCGM_FI_DEV_POWER_USAGE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"}) 折线图
GPU 卡-温度&功耗 GPU 卡内存频率 GPU Memory Clock 内存频率 DCGM_FI_DEV_MEM_CLOCK{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 1000 * 1000 折线图
GPU 卡-温度&功耗 GPU 卡应用SM 时钟频率 GPU APP SM Clock 应用的SM 时钟频率 DCGM_FI_DEV_APP_SM_CLOCK{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 1000 * 1000 折线图
GPU 卡-温度&功耗 GPU 卡应用内存频率 GPU APP Memory Clock 应用内存频率 DCGM_FI_DEV_APP_MEM_CLOCK{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 1000 * 1000 折线图
GPU 卡-温度&功耗 GPU 卡视频引擎频率 GPU Video Clock 视频引擎频率。 DCGM_FI_DEV_VIDEO_CLOCK{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 1000 * 1000 折线图
GPU 卡-温度&功耗 GPU 卡降频原因 GPU-Clock Throttle Reasons 降频原因 DCGM_FI_DEV_CLOCK_THROTTLE_REASONS{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} 文本
GPU 卡-Other details PCLe 传输速率 PCIE TX BYTES 节点 GPU 卡通过 PCIe 总线传输的数据速率。 rate(DCGM_FI_PROF_PCIE_RX_BYTES{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"}[1m]) 折线图
GPU 卡-Other details PCLe 接收速率 PCIE RX BYTES 节点 GPU 卡通过 PCIe 总线接收的数据速率。 rate(DCGM_FI_PROF_PCIE_TX_BYTES{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"}[1m]) 折线图