linux系统硬件版本

文章目录

系统硬件版本检查

命令 解释
cat /proc/version | cat /etc/issue | unmae -a 查看系统内核
cat /etc/redhat-release 查看系统版本(redhat)
lsb_release -a 查看系统版本(ubunbu)
lsblk 查看系统硬盘
lspci -vv | grep -i eth 查看网卡
lspci | grep -i vga GPU卡品牌
ethtool eth0 查询eth0网口基本设置
dmidecode |grep -i “system information” -A9 |grep -i -E “Man|pro|ser” 查看厂商,版本,序列号
cat /proc/cpuinfo | grep “model name”| uniq 查看CPU型号
cat /proc/cpuinfo | grep “physical id” | sort | uniq | wc-l 查看CPU数量
cat /proc/cpuinfo |grep “processor” |sort |uniq |wc-l 查看逻辑CPU数量
sudo ipmitoolsel list 查看ipmi日志
cat /usr/local/cuda/version.txt cuda版本检查()

GPU检查

命令 解释
nvidia-smi 查看GPU状态
nvidia-smi -L | wc -l GPU卡数检查
nvidia-smi -q | grep “Persistence Mode” GPU常驻模式检查
nvidia-smi -q | grep " Applications Clocks$" -A 2 GPU boost 检查
nvidia-smi -q | grep -i “product name”|awk -F “:” ‘{print $2}’|uniq GPU版本型号(P4/T4)

内存检查

命令 解释
free -mh 内存检查
htop 实时内存
sudo dmidecode |grep -P -A5 “Memory\s+Device”|grep Size|grep -Eiv “no|range”|uniq|awk -F “:” ‘{print $2 }’ 查看初始内存大小
dmidecode |grep -P -A5 “Memory\s+Device”|grep Size|grep -Eiv “no|range”|wc -l 内存条个数

RAID卡磁盘检查

命令 解释
sudo megaclisas-status 查看raid及硬盘状态
sudo megacli -AdpBbuCmd -GetBbuStatus -aALL|grep -i ‘battery state’ BatteryType 与Battery State 信息
sudo megacli -AdpBbuCmd -GetBbuStatus -aALL RAID卡电池/超级电容配置(RAID 卡建议找供应商提供查询方法)

巡检常用命令

巡检项 巡检方法 巡检结果
CPU占用率 top 100-92.6
MEM占用率 htop 218347/515594
GPU显存占用率 nvidia-smi 32W/75W
磁盘占用率 df -h 25%
上一篇:nvidia-docker安装教程


下一篇:有时候用nvidia-smi看不到进程但是内存都满了,可能是有些进程没有kill