Windbg 分析CPU上涨

2023-12-18 22:00:09

症状：

下班前，收到报警邮件。一个应用的两台服务器CPU 过高。打开监控一看CPU都100了。没找到原因之前，先抓好DUMP 然后重启应用程序池。

!threadpool 可以看到CPU 利用率

!runaway 查看运行的线程和运行时间

解决CPU 高的问题，应该从运行的线程上分析。分析它们都在干什么，哪个线程一直占用CPU运行时间

~threadid s 切换到运行时间最长的几个线程

k 显示当前线程的call stack

发现都是在GC线程（SVR::gc_heap::gc_thread_stub），难道是它们造成了CPU 高？

但已经运行了十几个小时，CPU是突然升高的。应该不是这几个线程的问题。

然后，我把所有线程都切换一下，查看线程的调用堆栈

发现很多线程都是再等待GC 完成（SVR::GCHeap::WaitUntilGCComplete）

应该是某个线程，正在触发GC函数——从网上找到的方法。

~* kb 得到所有的本地调用堆栈寻找线程中触发GC的函数

（mscorwks!SVR::GCHeap::GarbageCollectGeneration）

搜索后找到是102这个线程正在触发GC，调用System.String.InternalSubString(Int32, Int32, Boolean) 字符串截取的时候。需要收集大对象（clr!SVR::gc_heap::allocate_large_object，clr!SVR::gc_heap::allocate_more_space），分配更多的空间。显然因为字符串很大才会造成GC大对象。

!dumpstackobjects 打印当前线程保存的托管对象。

通过这个找到一些线索。如下图