GPU 监控指标¶
本页列出一些常用的 GPU 监控指标。
集群维度¶
指标名称 | 英文 | 描述 | 指标 | 表格样式 |
---|---|---|---|---|
GPU 卡数 | Total GPU | 集群下所有的 GPU 卡数量,切分的 MIG 实例也将会被统计成的单张的物理卡 | count(DCGM_FI_DEV_COUNT{cluster="$cluster",node=~"${node}"}) | 数值 |
GPU 平均使用率(整卡) | GPU Avg Utilization | 集群下所有 GPU 卡的平均使用率 | avg(max_over_time(DCGM_FI_DEV_GPU_UTIL{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"}[29s])) | 数值 |
GPU 平均使用率(MIG) | GPU Avg Utilization (Only MIG Enably) | 当启用 MIG 特性后,集群下所有 GPU 卡的平均使用率 | avg(max_over_time(DCGM_FI_DEV_GPU_UTIL{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"}[29s])) | 数值 |
GPU 卡平均显存使用率 | GPU Avg Memory Utilization | 集群下所有 GPU 卡的平均显存使用率 | sum(max_over_time(DCGM_FI_DEV_FB_USED{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"}[29s])) / sum(max_over_time(DCGM_FI_DEV_FB_USED{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} + DCGM_FI_DEV_FB_FREE{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} [29s])) * 100 | 数值 |
GPU 卡功率 | GPU Power Usage | 集群下所有 GPU 卡的功率 | DCGM_FI_DEV_POWER_USAGE{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} | 柱状图 |
GPU 卡温度 | GPU Temperature | 集群下所有 GPU 卡的温度 | DCGM_FI_DEV_GPU_TEMP{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} | 柱状图 |
GPU 使用率细节(整卡) | GPU Utilization Details | 24 小时内,集群下所有 GPU 卡的使用率细节(包含 max、avg、current) | DCGM_FI_DEV_GPU_UTIL{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} | 折线图 |
GPU使用率细节(mig) | GPU Utilization Details(Only MIG Enably) | 24 小时内,当启用 MIG 特性后,集群下所有 GPU 卡的使用率细节。 (包含 max、avg、current) | DCGM_FI_PROF_GR_ENGINE_ACTIVE{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} * 100 | 折线图 |
GPU 显存使用量 | GPU Memory Used Details | 24 小时内,集群下所有 GPU 卡的显存使用量细节 (包含min 、max、avg、current) | DCGM_FI_DEV_FB_USED{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} | 折线图 |
GPU 显存复制使用率 | GPU Memory Copy Utilization | 集群下所有 GPU 卡的显存复制使用率 | DCGM_FI_DEV_MEM_COPY_UTIL{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} | 折线图 |
节点维度¶
指标名称 | 英文 | 描述 | 指标 | 表格样式 |
---|---|---|---|---|
GPU 卡数 | Total GPU | 节点上所有的 GPU 卡数量,切分的 MIG 实例也将会被统计成的单张的物理卡 | count(DCGM_FI_DEV_COUNT{cluster="$cluster",node=~"${node}"}) | 数值 |
GPU 模式 | GPU Mode | 节点上 GPU 卡的模式使用模式,包含 整卡模式、MIG 模式、vGPU 模式 | topk(1,DCGM_FI_DEV_MIG_MODE{cluster="$cluster",node=~"$node"}) | 文本 |
GPU 平均使用率(整卡) | GPU Avg Utilization | 节点上所有 GPU 卡的平均使用率 | avg(max_over_time(DCGM_FI_DEV_GPU_UTIL{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"}[29s])) | 数值 |
GPU 平均使用率(MIG) | GPU Avg Utilization (Only MIG Enably) | 当启用 MIG 特性后,节点上所有 GPU 卡的平均使用率 | avg(max_over_time(DCGM_FI_PROF_GR_ENGINE_ACTIVE{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"}[29s] * 100)) | 数值 |
GPU 卡平均显存使用率 | GPU Avg Memory Utilization | 节点上所有 GPU 卡的平均显存使用率 | sum(max_over_time(DCGM_FI_DEV_FB_USED{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"}[29s])) / sum(max_over_time(DCGM_FI_DEV_FB_USED{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} + DCGM_FI_DEV_FB_FREE{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} [29s])) * 100 | 数值 |
GPU 驱动版本 | GPU Driver Version | 节点上 GPU 卡驱动的版本信息 | DCGM_FI_DEV_MIG_MODE{cluster="$cluster",node=~"$node",gpu=~"$gpu"} {{modelName}} | 文本 |
GPU 卡型号/规格 | GPU Specifications | 节点上 GPU 卡规格信息 | DCGM_FI_DEV_MIG_MODE{cluster="$cluster",node=~"$node",gpu=~"$gpu"} | 表格 |
GPU 使用率细节(整卡) | GPU Utilization Details | 24 小时内,节点上所有 GPU 卡的使用率细节(包含 max、avg、current) | DCGM_FI_DEV_GPU_UTIL{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} | 折线图 |
GPU 使用率细节(MIG) | GPU Utilization Details(Only MIG Enably) | 24 小时内,当启用 MIG 特性后,节点上所有 GPU 卡的使用率细节。 (包含 max、avg、current) | DCGM_FI_PROF_GR_ENGINE_ACTIVE{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} * 100 | 折线图 |
GPU 显存使用量 | GPU Memory Used Details | 24 小时内,节点上所有 GPU 卡的显存使用量细节 (包含min 、max、avg、current) | DCGM_FI_DEV_FB_USED{cluster="$cluster",node=~"${node}", gpu=~"${gpu}"} | 折线图 |
工作负载维度¶
维度 | 指标名称 | 英文 | 描述 | 指标 | 表格样式 |
---|---|---|---|---|---|
应用概览 | Pod GPU 使用率(整卡) | Pod GPU Utilization | 当前 Pod 所使用到的 GPU 卡的比率 | DCGM_FI_DEV_GPU_UTIL{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} | 折线图 |
应用概览 | Pod GPU 使用率(MIG) | Pod GPU Utilization (Only MIG Enably) | 当启用 MIG 特性后,当前 Pod 所使用到的 GPU 卡的比率 | DCGM_FI_PROF_GR_ENGINE_ACTIVE{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} * 100 | 折线图 |
应用概览 | Pod GPU 使用率(vGPU) | Pod GPU Utilization (vGPU) | 当启用 vGPU 特性后,当前 Pod 所使用到的 GPU 卡的比率 | vGPUCorePercentage{cluster="$cluster",exported_namespace="$namespace",podname="$pod"} | 折线图 |
应用概览 | Pod GPU 显存使用率 | Pod GPU Memory Utilization | 当前 Pod 所使用到的 GPU 卡的显存比率 | DCGM_FI_DEV_FB_USED{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} | 折线图 |
应用概览 | Pod GPU 显存使用率(vGPU) | Pod GPU Memory Utilization(vGPU) | 当前 Pod 所使用到的 GPU 卡的显存比率(vGPU 模式) | vGPUMemoryPercentage{cluster="$cluster",exported_namespace="$namespace",podname="$pod"} | 折线图 |
应用概览 | Pod 显存使用量 | Pod 显存使用量 | 当前 Pod 所使用到的 GPU 卡的显存量 | DCGM_FI_DEV_FB_USED{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} | 折线图 |
应用概览 | Pod 显存使用量(vGPU) | Pod 显存使用量 (vGPU) | 当前 Pod 所使用到的 GPU 卡的显存比率(vGPU 模式) | sum(GPUDeviceMemoryLimit{cluster="$cluster"}) * vGPUMemoryPercentage{cluster="$cluster",exported_namespace="$namespace",podname="$pod"} | 折线图 |
应用概览 | Pod GPU 显存复制使用率 | Pod GPU Memory Copy Utilization | 当前 Pod 所使用到的 GPU 卡的显存显存复制比率 | DCGM_FI_DEV_MEM_COPY_UTIL{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} | 折线 |
应用概览 | Pod 解码使用率 | Pod Decode Utilization | 当前 Pod 所使用到的 GPU 卡解码引擎比率 | DCGM_FI_DEV_DEC_UTIL{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} | - |
应用概览 | Pod 编码使用率 | Pod Encode Utilization | 当前 Pod 所使用到的 GPU 卡编码引擎比率 | DCGM_FI_DEV_ENC_UTIL{cluster="$cluster",exported_namespace="$namespace",exported_pod="$pod"} | - |
GPU 卡-算力&显存 | GPU 使用率细节(整卡) | GPU Utilization Details | 24 小时内,Pod 关联的 GPU 卡的使用率细节(包含 max、avg、current) | DCGM_FI_DEV_GPU_UTIL{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} | 折线图 |
GPU 卡-算力&显存 | GPU使用率细节(MIG) | GPU Utilization Details(Only MIG Enably) | 24 小时内,当启用 MIG 特性后,Pod 关联的 GPU 卡的使用率细节。 (包含 max、avg、current) | DCGM_FI_PROF_GR_ENGINE_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 | 折线图 |
GPU 卡-算力&显存 | GPU 显存使用量 | GPU Memory Used Details | 24 小时内,Pod 关联的 GPU 卡的显存使用量细节 (包含min 、max、avg、current) | DCGM_FI_DEV_FB_USED{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} | 时间维度折线图 |
GPU 卡-算力&显存 | GPU 显存复制使用率 | GPU Memory Copy Utilization | Pod 关联的 GPU 卡的显存复制使用率 | DCGM_FI_DEV_MEM_COPY_UTIL{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} | 折线图 |
GPU 卡-引擎概览 | GPU 图形引擎活动百分比 | GPU Graphics Engine Active | 表示在一个监控周期内,Graphics 或 Compute 引擎处于 Active 的时间占总的时间的比例。 | DCGM_FI_PROF_GR_ENGINE_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 | 折线图 |
GPU 卡-引擎概览 | GPU DRAM 活动百分比 | GPU DRAM Active | 表示内存带宽利用率(Memory BW Utilization) | DCGM_FI_PROF_DRAM_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 | 折线图 |
GPU 卡-引擎概览 | Tensor 核心引擎使用率 | GPU Tensor Core Engine Active | 表示在一个监控周期内,Tensor Core管道(Pipe)处于Active时间占总时间的比例。 | DCGM_FI_PROF_PIPE_TENSOR_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 | 折线图 |
GPU 卡-引擎概览 | FP16 引擎使用率 | GPU FP16 Engine Active | 表示在一个监控周期内,FP16 管道处于 Active 的时间占总的时间的比例。 | DCGM_FI_PROF_PIPE_FP16_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 | 折线图 |
GPU 卡-引擎概览 | FP32 引擎使用率 | GPU FP32 Engine Active | 表示在一个监控周期内,FP32 管道处于 Active 的时间占总的时间的比例。 | DCGM_FI_PROF_PIPE_FP32_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 | 折线图 |
GPU 卡-引擎概览 | FP32 引擎使用率 | GPU FP64 Engine Active | 表示在一个监控周期内,FP64 管道处于 Active 的时间占总的时间的比例。 | DCGM_FI_PROF_PIPE_FP64_ACTIVE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 100 | 折线图 |
GPU 卡-引擎概览 | GPU 解码使用率 | GPU Decode Utilization | GPU 卡解码引擎比率 | DCGM_FI_DEV_DEC_UTIL{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} | 折线图 |
GPU 卡-引擎概览 | GPU 编码使用率 | GPU Encode Utilization | GPU 卡编码引擎比率 | DCGM_FI_DEV_ENC_UTIL{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} | 折线图 |
GPU 卡-温度&功耗 | GPU 卡温度 | GPU Temperature | 集群下所有 GPU 卡的温度 | DCGM_FI_DEV_GPU_TEMP{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} | 柱状图 |
GPU 卡-温度&功耗 | GPU 卡功率 | GPU Power Usage | 集群下所有 GPU 卡的功率 | DCGM_FI_DEV_POWER_USAGE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} | 柱状图 |
GPU 卡-温度&功耗 | GPU 卡-总耗能 | GPU Total Energy Consumption | GPU 卡总共消耗的能量 | sum(DCGM_FI_DEV_POWER_USAGE{cluster="$cluster", UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"}) | 折线图 |
GPU 卡-温度&功耗 | GPU 卡内存频率 | GPU Memory Clock | 内存频率 | DCGM_FI_DEV_MEM_CLOCK{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 1000 * 1000 | 折线图 |
GPU 卡-温度&功耗 | GPU 卡应用SM 时钟频率 | GPU APP SM Clock | 应用的SM 时钟频率 | DCGM_FI_DEV_APP_SM_CLOCK{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 1000 * 1000 | 折线图 |
GPU 卡-温度&功耗 | GPU 卡应用内存频率 | GPU APP Memory Clock | 应用内存频率 | DCGM_FI_DEV_APP_MEM_CLOCK{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 1000 * 1000 | 折线图 |
GPU 卡-温度&功耗 | GPU 卡视频引擎频率 | GPU Video Clock | 视频引擎频率。 | DCGM_FI_DEV_VIDEO_CLOCK{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} * 1000 * 1000 | 折线图 |
GPU 卡-温度&功耗 | GPU 卡降频原因 | GPU-Clock Throttle Reasons | 降频原因 | DCGM_FI_DEV_CLOCK_THROTTLE_REASONS{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"} | 文本 |
GPU 卡-Other details | PCLe 传输速率 | PCIE TX BYTES | 节点 GPU 卡通过 PCIe 总线传输的数据速率。 | rate(DCGM_FI_PROF_PCIE_RX_BYTES{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"}[1m]) | 折线图 |
GPU 卡-Other details | PCLe 接收速率 | PCIE RX BYTES | 节点 GPU 卡通过 PCIe 总线接收的数据速率。 | rate(DCGM_FI_PROF_PCIE_TX_BYTES{cluster="$cluster",UUID="${gpu}",GPU_I_ID=~"${gpu_i_id}"}[1m]) | 折线图 |