今天用GPU跑模型的时候,发现训练速度奇慢无比…
第一反应是检查GPU的利用率,输入:
nvidia-smi
检查风扇利用率,GPU温度以及GPU利用率(框出来的地方)。可以看到风扇正常在转,温度也不高,利用率甚至为0。那么这个时候就比较疑惑了,如果是上述这三个问题倒比较好去针对性的解决。
这个时候去检查了下CPU利用率,输入:
top
可以发现CPU占用率到了99.3%…这就导致实际上只要涉及到CPU运算,就基本上卡死,导致整体模型训练不动,造成"GPU可能有问题"的假象。