当前位置：首页 > 科技 > 软件

记一次 .NET某设备监控自动化系统 CPU爆高分析

来源：责编：时间：2024-03-18 09:39:16 97观看

导读一：背景1. 讲故事先说一下题外话，一个监控别人系统运行状态的程序，结果自己出问题了，有时候想一想还是挺讽刺的，哈哈，开个玩笑，我们回到正题，前些天有位朋友找到我，说他们的系统会偶发性CPU爆高，CPU上去了就下不来了，让我帮忙看

一：背景

1. 讲故事

先说一下题外话，一个监控别人系统运行状态的程序，结果自己出问题了，有时候想一想还是挺讽刺的，哈哈，开个玩笑，我们回到正题，前些天有位朋友找到我，说他们的系统会偶发性CPU爆高，CPU上去了就下不来了，让我帮忙看一下怎么回事，而且自己也分析过了，没找到哪里有问题，写监控的都是高手，给我的第一感觉就是这个dump可能解决起来不容易，不管怎么说，有了dump就开干吧！

二：WinDbg 分析

1. CPU真的爆高吗

作为调试人，第一准则就是不要轻信任何人透露给你的信息，因为人家在这块是一个小白，往往他的信息会把你带偏，我们只相信数据即可，切记!!! 所以我们先用 !tp 观察下CPU使用率。

0:198> !tpCPU utilization: 100%Worker Thread: Total: 197 Running: 42 Idle: 154 MaxLimit: 32767 MinLimit: 8Work Request in Queue: 0--------------------------------------Number of Timers: 0--------------------------------------Completion Port Thread:Total: 10 Free: 5 MaxFree: 16 CurrentLimit: 10 MaxLimit: 1000 MinLimit: 8

从卦中信息看当前 CPU=100%，还是蛮惨的，那到底谁在吃CPU资源呢？根据经验先查一下是不是触发了2代GC，接下来用 !t 观察下是否有GC标记。

0:198> !tThreadCount:      214UnstartedThread:  0BackgroundThread: 211PendingThread:    0DeadThread:       1Hosted Runtime:   no                                                                                                        Lock         ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception   0    1 276f0 000002789526b5f0    2a020 Preemptive  0000000000000000:0000000000000000 000002789525e840 0     MTA    2    2 25e5c 0000027895296d00    2b220 Preemptive  0000000000000000:0000000000000000 000002789525e840 0     MTA (Finalizer)    3    3 260e8 00000278ae35f0c0  202b020 Preemptive  0000000000000000:0000000000000000 000002789525e840 0     MTA    ... 169 2113 10c20 00000278c26766c0  1029220 Preemptive  00000278B5D7D188:00000278B5D7D188 000002789525e840 1     MTA (GC) (Threadpool Worker) xxxException 00000278b5d46ce0 ...

尼玛从卦中的 (GC) 来看，还真的触发了GC，接下来的研究方向就是洞察下是不是CPU爆高的祸首。

2. GC触发导致的吗

要寻找这个问题的答案，首先就是看下这次GC是不是 FullGC 即可，可以切到 169 号线程，观察下线程栈。

0:169> k 10 # Child-SP          RetAddr               Call Site00 000000c4`36ffb798 00007ffc`d5f14313     ntdll!NtWaitForSingleObject+0x1401 000000c4`36ffb7a0 00007ffc`c927cb27     KERNELBASE!WaitForSingleObjectEx+0x9302 000000c4`36ffb840 00007ffc`c927cadf     clr!CLREventWaitHelper2+0x3c03 000000c4`36ffb880 00007ffc`c927ca5c     clr!CLREventWaitHelper+0x1f04 000000c4`36ffb8e0 00007ffc`c926bd32     clr!CLREventBase::WaitEx+0x7c05 000000c4`36ffb970 00007ffc`c9269bc4     clr!ThreadSuspend::SuspendRuntime+0x32c06 000000c4`36ffba60 00007ffc`c91814e3     clr!ThreadSuspend::SuspendEE+0x12807 000000c4`36ffbb60 00007ffc`c9185f51     clr!WKS::GCHeap::GarbageCollectGeneration+0xb708 000000c4`36ffbbc0 00007ffc`c9260f56     clr!WKS::gc_heap::trigger_gc_for_alloc+0x2d09 000000c4`36ffbc00 00007ffc`c6b0f7e7     clr!JIT_NewArr1+0xa970a 000000c4`36ffc030 00007ffc`6a388270     mscorlib_ni!System.String.ToCharArray+0x27 [f:/dd/ndp/clr/src/BCL/system/string.cs @ 758] 0b 000000c4`36ffc080 00007ffc`6a3880ed     0x00007ffc`6a3882700c 000000c4`36ffc100 00007ffc`6a56056d     0x00007ffc`6a3880ed0d 000000c4`36ffc150 00007ffc`6a3cd749     0x00007ffc`6a56056d0e 000000c4`36ffc1b0 00007ffc`c911989d     0x00007ffc`6a3cd7490f 000000c4`36ffc220 00007ffc`c9119764     clr!ExceptionTracker::CallHandler+0xfd

从卦中看此时的GC还处于早期的 SuspendEE 阶段，无法获取内部的 settings 结构，这就比较麻烦了，那怎么办呢？只能看看 GarbageCollectGeneration 的第一个参数有没有保存在栈中，要是没有就惨了。。。方法签名如下：

size_tGCHeap::GarbageCollectGeneration (unsigned int gen, gc_reason reason){}

根据 x64调用协定，gen是保存在 rdx 寄存器里，接下来观察汇编代码。

0:000> uf 00007ffc`c91814e3clr!WKS::GCHeap::GarbageCollectGeneration:00007ffc`c918142c 48895c2418      mov     qword ptr [rsp+18h],rbx00007ffc`c9181431 89542410        mov     dword ptr [rsp+10h],edx00007ffc`c9181435 48894c2408      mov     qword ptr [rsp+8],rcx00007ffc`c918143a 55              push    rbp00007ffc`c918143b 56              push    rsi00007ffc`c918143c 57              push    rdi00007ffc`c918143d 4154            push    r1200007ffc`c918143f 4155            push    r1300007ffc`c9181441 4156            push    r1400007ffc`c9181443 4157            push    r15...0:169> dd 000000c4`36ffbbc0-0x8+0x10 L1000000c4`36ffbbc8  00000000

从卦中看，谢天谢地，edx保存在 rsp+10h 的位置，通过dp观察内存地址的值发现是0，也就表示当前是 0 代GC，这种smallgc 经常触发是很正常的，并不是我们CPU爆高的诱因，接下来就陷入迷茫了。。。

3. 路在何方

撞了南墙之后得要看看其他路子，其实刚才用 !t 观察线程列表的时候我就注意到一个特征，那就是很多线程上挂了异常，截图如下：

图片

从卦中看此时有19个线程在抛 xxxResultException 异常，做过开发的朋友都知道，如果频繁的抛异常是很耗CPU资源的，因为它要设计到用户态到内核态的切换，如果有 19 个线程一起抛异常，那绝对是一个灾难。。。

有些朋友说我cpu猛一点是不是就可以了，哈哈，理论上是可以的，可以用 !cpuid 观察下这台机器的cpu核心数。

0:169> !cpuidCP  F/M/S  Manufacturer     MHz 0  6,167,1  <unavailable>   3408 1  6,167,1  <unavailable>   3408 2  6,167,1  <unavailable>   3408 3  6,167,1  <unavailable>   3408 4  6,167,1  <unavailable>   3408 5  6,167,1  <unavailable>   3408 6  6,167,1  <unavailable>   3408 7  6,167,1  <unavailable>   3408

从证据链的完整性上来说，其实这里还需要再做一个验证，就是19个线程抛异常不代表他们的并发性，言外之意就是能不能再找一些其他证据，怎么找其他证据呢？

做C#开发的朋友应该知道，Exception 属于引用类型，如果密集抛了很多异常，那托管堆上自然就有很多，直到GC回收，所以我们观察下这个时间差即可，使用 !wdae 命令，这里为了隐私性我就模糊了哈。

0:169> !wdae     384 of Type: xxxResultException 000002789fdb6478 000002789fdb69b0 000002789fdb9848Message: xxxFailedInner Exception: (none)Stack:IP               Function00007ffc6a269861 xxx.ChannelAsyncOperation`1[[System.Int32, mscorlib]].End(Int32, Boolean)...     411 of Type: xxxResultException 000002789fdb6e90 000002789fdb7090 000002789fdb72a8Message: xxxClosedInner Exception: (none)Stack:IP               Function00007ffc6a269861 xxx.ChannelAsyncOperation`1[[System.Int32, mscorlib]].End(Int32, Boolean)...808 Exceptions in 12 unique type/stack combinations (duplicate types in similar stacks may be rethrows)

从卦中看当前抛了808个异常，大多是和channel通信有关，结合16个线程并发抛，这就稳了，看样子cpu爆高期间就是由于高频的抛异常所致，分析出这些信息之后，就是告诉朋友把这些异常给解决掉即可。

三：总结

CPU爆高的诱因非常多，高频的抛异常就属于其中一例，其实这种通信时发生了突发异常正是 Polly 这种弹性和瞬态故障处理库大显身手的地方。

本文链接：//www.dmpip.com//www.dmpip.com/showinfo-26-76498-0.html记一次 .NET某设备监控自动化系统 CPU爆高分析

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：如何实现一个支持海量大并发的服务？

下一篇： Synchronized关键字的底层原理？

标签：

热门焦点

7月安卓手机性价比榜：努比亚+红魔两款新机入榜

7月登场的新机有努比亚Z50S Pro和红魔8S Pro，除了三星之外目前唯二的两款搭载超频版骁龙8Gen2处理器的产品，而且努比亚和红魔也一贯有着不错的性价比，所以在本次的性价比榜单
5月iOS设备性能榜：M1 M2依旧是榜单前五

和上个月一样，没有新品发布的iOS设备性能榜的上榜设备并没有什么更替，仅仅只有跑分变化而产生的排名变动，刚刚开始的苹果WWDC2023，推出的产品也依旧是新款Mac Pro、新款Mac Stu
Automa-通过连接块来自动化你的浏览器

1、前言通过浏览器插件可实现自动化脚本的录制与编写，具有代表性的工具就是：Selenium IDE、Katalon Recorder，对于简单的业务来说可快速实现自动化的上手工作。Selenium IDEKat
三言两语说透柯里化和反柯里化

JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是两种很有用的技术，可以帮助我们写出更加优雅、泛用的函数。本文将首先介绍柯里化和反柯里化的概念、实现原理和应用
多线程开发带来的问题与解决方法

使用多线程主要会带来以下几个问题：（一）线程安全问题　　线程安全问题指的是在某一线程从开始访问到结束访问某一数据期间，该数据被其他的线程所修改，那么对于当前线程而言，该线程
使用Webdriver-manager解决浏览器与驱动不匹配所带来自动化无法执行的问题

1、前言在我们使用 Selenium 进行 UI 自动化测试时，常常会因为浏览器驱动与浏览器版本不匹配，而导致自动化测试无法执行，需要手动去下载对应的驱动版本，并替换原有的驱动，可能还
共享单车的故事讲到哪了？

来源丨海克财经与共享充电宝相差不多，共享单车已很久没有被国内热点新闻关照到了。除了一再涨价和用户直呼用不起了。近日多家媒体再发报道称，成都、天津、郑州等地多个共享单
当家的盒马，加速谋生

来源 | 价值星球Planet作者 | 归去来自己“当家”的盒马，开始加速谋生了。据盒马官微消息，盒马计划今年开放生鲜供应链，将其生鲜商品送往食堂。目前，盒马在上海已经与
iQOO 11S评测：行业唯一的200W标准版旗舰

【Techweb评测】去年底，iQOO推出了“电竞旗舰”iQOO 11系列，作为一款性能强机，该机不仅全球首发2K 144Hz E6全感屏，搭载了第二代骁龙8平台及144Hz电竞