文章目录
系统硬件版本检查
命令 | 解释 |
---|---|
cat /proc/version | cat /etc/issue | unmae -a | 查看系统内核 |
cat /etc/redhat-release | 查看系统版本(redhat) |
lsb_release -a | 查看系统版本(ubunbu) |
lsblk | 查看系统硬盘 |
lspci -vv | grep -i eth | 查看网卡 |
lspci | grep -i vga | GPU卡品牌 |
ethtool eth0 | 查询eth0网口基本设置 |
dmidecode |grep -i “system information” -A9 |grep -i -E “Man|pro|ser” | 查看厂商,版本,序列号 |
cat /proc/cpuinfo | grep “model name”| uniq | 查看CPU型号 |
cat /proc/cpuinfo | grep “physical id” | sort | uniq | wc-l | 查看CPU数量 |
cat /proc/cpuinfo |grep “processor” |sort |uniq |wc-l | 查看逻辑CPU数量 |
sudo ipmitoolsel list | 查看ipmi日志 |
cat /usr/local/cuda/version.txt | cuda版本检查() |
GPU检查
命令 | 解释 |
---|---|
nvidia-smi | 查看GPU状态 |
nvidia-smi -L | wc -l | GPU卡数检查 |
nvidia-smi -q | grep “Persistence Mode” | GPU常驻模式检查 |
nvidia-smi -q | grep " Applications Clocks$" -A 2 | GPU boost 检查 |
nvidia-smi -q | grep -i “product name”|awk -F “:” ‘{print $2}’|uniq | GPU版本型号(P4/T4) |
内存检查
命令 | 解释 |
---|---|
free -mh | 内存检查 |
htop | 实时内存 |
sudo dmidecode |grep -P -A5 “Memory\s+Device”|grep Size|grep -Eiv “no|range”|uniq|awk -F “:” ‘{print $2 }’ | 查看初始内存大小 |
dmidecode |grep -P -A5 “Memory\s+Device”|grep Size|grep -Eiv “no|range”|wc -l | 内存条个数 |
RAID卡磁盘检查
命令 | 解释 |
---|---|
sudo megaclisas-status | 查看raid及硬盘状态 |
sudo megacli -AdpBbuCmd -GetBbuStatus -aALL|grep -i ‘battery state’ | BatteryType 与Battery State 信息 |
sudo megacli -AdpBbuCmd -GetBbuStatus -aALL | RAID卡电池/超级电容配置(RAID 卡建议找供应商提供查询方法) |
巡检常用命令
巡检项 | 巡检方法 | 巡检结果 |
---|---|---|
CPU占用率 | top | 100-92.6 |
MEM占用率 | htop | 218347/515594 |
GPU显存占用率 | nvidia-smi | 32W/75W |
磁盘占用率 | df -h | 25% |