IoT物联网平台运行监控最佳实践

产品推荐:阿里云物联网开发者工具(IoT Studio),立刻免费体验吧!  
  

IoT云产品运行监控

1.监控告警功能介绍[](#i0bcvd)

IoT物联网平台对接云监控的监控指标分为两大类:系统事件报警阈值报警。系统事件报警以IoT物联网平台的性能指标为主;阈值报警以客户业务指标数值变化为主。

云监控控制台:https://cloudmonitor.console.aliyun.com/#/alarmservice/product=&searchValue=&searchType=&searchProduct=

2.IoT物联网平台监控配置实战

2.1 系统事件报警

阿里云IoT物联网平台作为一款公有云产品,对设备连接频率,数据上报频率,下行指令频率,消息流转频率等指标都有使用限制约定。比如下图所展示部分使用限制:
IoT物联网平台运行监控最佳实践
完整产品使用限制文档,请参阅:https://help.aliyun.com/document_detail/30527.html

当我们使用IoT物联网平台时,一旦触发了使用限制条件,就会被限流,影响我们业务正常运行。结合云监控产品我们就可以第一时间感知到异常,以便做相应业务调整。

云监控中对接的IoT物联网平台的系统事件有如下几种:

  • 当前账号每秒最大连接请求数达到上限
  • 当前账号每秒发布请求数达到上限
  • 当前账号每秒到达规则引擎的请求数达到上限
  • 当前账号每秒发给设备的请求数达到上限
  • 任一设备上行消息QPS达到上限
  • 任一设备下行消息QPS达到上限

我们进入云监控控制台,左侧导航栏找到事件监控,然后点击报警规则标签,在系统事件下,点击创建事件报警按钮。详细配置如下:
IoT物联网平台运行监控最佳实践

点击确定,我们就创建了一条监控告警规则。
IoT物联网平台运行监控最佳实践

2.2 阈值报警

IoT物联网平台和云监控对接的阈值报警指标如下:
设备在线相关:

  • 实时在线设备数(MQTT)

物模型通信相关:

  • 设备事件上报失败数
  • 设备属性上报失败数
  • 设备属性设置失败数
  • 设备服务调用失败数

规则引擎流转相关:

  • 规则引擎消息流转次数(DATAHUB)
  • 规则引擎消息流转次数(FC)
  • 规则引擎消息流转次数(MNS)
  • 规则引擎消息流转次数(MQ)
  • 规则引擎消息流转次数(OTS)
  • 规则引擎消息流转次数(RDS)
  • 规则引擎消息流转次数(REPUBLISH)
  • 规则引擎消息流转次数(TSDB)

上行消息相关:

  • 发送到平台的消息量(MQTT)
  • 发送到平台的消息量(CoAP)
  • 发送到平台的消息量(HTTP)
  • 发送到平台的消息量(HTTP/2)
  • 发送到平台的消息量(LoRa)

下行消息相关:

  • 平台发出的消息量(MQTT)
  • 平台发出的消息量(HTTP/2)
  • 平台发出的消息量(LoRa)

我们进入云监控控制台,左侧导航栏找到报警服务,然后点击报警规则,在阈值报警下,点击创建报警规则按钮。参考如下:
IoT物联网平台运行监控最佳实践

首先,选择产品物联网平台,根据业务选择资源范围和具体监控的产品实例。
IoT物联网平台运行监控最佳实践

其次,我们需要配置报警规则触发条件。比如下图:以1分钟为维度,统计在线设备数量。当连续3次统计设备数量都小于15000时,就触发业务告警。
IoT物联网平台运行监控最佳实践

最后,我们配置告警接收人和通知方式。云监控默认可以支持电话,短信,邮件,钉钉群机器人等多种通知方式。也可以通过配置webhook的方式,触发客户业务回调函数。
IoT物联网平台运行监控最佳实践

阈值告警配置成功后,我们就可以在列表里看到已经生效的告警规则,查看告警历史。
IoT物联网平台运行监控最佳实践

IoT物联网平台运行监控最佳实践

上一篇:干货解析 |为什么要将快照引入Kubernetes?


下一篇:《Windows 8 权威指南》——2.9 轻松为Windows 8 Metro开始屏幕增加关机/重启等应用