如何在云监控控制台查询监控数据
购买ECS的GPU计算型实例后,安装GPU驱动和云监控插件的1.2.28版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表,
在主机监控中查看监控图表:
在Dashboard中自定义监控大盘
如何设置报警规则
新增的GPU监控项添加报警规则方式同ECS的其他指标一样。推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践。
监控项说明
GPU相关监控指标提供3个维度的数据
GPU维度监控项
GPU维度的指标,采集每个GPU层面的监控数据。
MetricName | 单位 | 名称 | dimensions |
---|---|---|---|
gpu_memory_freespace | Bytes | GPU维度显存空闲量 | instanceId,gpuId |
gpu_memory_totalspace | Bytes | GPU维度显存总量 | instanceId,gpuId |
gpu_memory_usedspace | Bytes | GPU维度显存使用量 | instanceId,gpuId |
gpu_gpu_usedutilization | % | GPU维度GPU使用率 | instanceId,gpuId |
gpu_encoder_utilization | % | GPU维度编码器使用率 | instanceId,gpuId |
gpu_decoder_utilization | % | GPU维度解码器使用率 | instanceId,gpuId |
gpu_gpu_temperature | ℃ | GPU维度GPU温度 | instanceId,gpuId |
gpu_power_readings_power_draw | W | GPU维度GPU功率 | instanceId,gpuId |
gpu_memory_freeutilization | % | GPU维度显存空闲率 | instanceId,gpuId |
gpu_memory_useutilization | % | GPU维度显存使用率 | instanceId,gpuId |
实例维度监控项
实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。
MetricName | 单位 | 名称 | dimensions |
---|---|---|---|
instance_gpu_decoder_utilization | % | 实例维度GPU解码器使用率 | instanceId |
instance_gpu_encoder_utilization | % | 实例维度GPU编码器使用率 | instanceId |
instance_gpu_gpu_temperature | ℃ | 实例维度GPU温度 | instanceId |
instance_gpu_gpu_usedutilization | % | 实例维度GPU使用率 | instanceId |
instance_gpu_memory_freespace | Bytes | 实例维度GPU显存空闲量 | instanceId |
instance_gpu_memory_freeutilization | % | 实例维度GPU显存空闲率 | instanceId |
instance_gpu_memory_totalspace | Bytes | 实例维度GPU显存总量 | instanceId |
instance_gpu_memory_usedspace | Bytes | 实例维度GPU显存使用量 | instanceId |
instance_gpu_memory_usedutilization | % | 实例维度GPU显存使用率 | instanceId |
instance_gpu_power_readings_power_draw | W | 实例维度GPU功率 | instanceId |
分组维度监控项
分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。
MetricName | 单位 | 名称 | dimensions |
---|---|---|---|
group_gpu_decoder_utilization | % | 分组维度GPU解码器使用率 | groupId |
group_gpu_encoder_utilization | % | 分组维度GPU编码器使用率 | groupId |
group_gpu_gpu_temperature | ℃ | 分组维度GPU温度 | groupId |
group_gpu_gpu_usedutilization | % | 分组维度GPU使用率 | groupId |
group_gpu_memory_freespace | Bytes | 分组维度GPU显存空闲量 | groupId |
group_gpu_memory_freeutilization | % | 分组维度GPU显存空闲率 | groupId |
group_gpu_memory_totalspace | Bytes | 分组维度GPU显存总量 | groupId |
group_gpu_memory_usedspace | Bytes | 分组维度GPU显存使用量 | groupId |
group_gpu_memory_usedutilization | % | 分组维度GPU显存使用率 | groupId |
group_gpu_power_readings_power_draw | W | 分组维度GPU功率 | groupId |
如何通过API查询GPU监控数据?
- 查询监控数据文档:https://help.aliyun.com/document_detail/51936.html
- 参数说明:Project=acs_ecs_dashboard,Metric及Dimensions参考上述表格中的GPU指标。