記一次 .NET某設備監控自動化系統 CPU爆高分析
當前位置:點晴教程→知識管理交流
→『 技術文檔交流 』
一:背景1. 講故事先說一下題外話,一個監控別人系統運行狀態的程序,結果自己出問題了,有時候想一想還是挺諷刺的,哈哈,開個玩笑,我們回到正題,前些天有位朋友找到我,說他們的系統會偶發性CPU爆高,CPU上去了就下不來了,讓我幫忙看一下怎么回事,而且自己也分析過了,沒找到哪里有問題,寫監控的都是高手,給我的第一感覺就是這個dump可能解決起來不容易,不管怎么說,有了dump就開干吧! 二:WinDbg 分析1. CPU真的爆高嗎作為調試人,第一準則就是不要輕信任何人透露給你的信息,因為人家在這塊是一個小白,往往他的信息會把你帶偏,我們只相信數據即可,切記!!! 所以我們先用 0:198> !tp CPU utilization: 100% Worker Thread: Total: 197 Running: 42 Idle: 154 MaxLimit: 32767 MinLimit: 8 Work Request in Queue: 0 -------------------------------------- Number of Timers: 0 -------------------------------------- Completion Port Thread:Total: 10 Free: 5 MaxFree: 16 CurrentLimit: 10 MaxLimit: 1000 MinLimit: 8 從卦中信息看當前 0:198> !t ThreadCount: 214 UnstartedThread: 0 BackgroundThread: 211 PendingThread: 0 DeadThread: 1 Hosted Runtime: no Lock ID OSID ThreadOBJ State GC Mode GC Alloc Context Domain Count Apt Exception 0 1 276f0 000002789526b5f0 2a020 Preemptive 0000000000000000:0000000000000000 000002789525e840 0 MTA 2 2 25e5c 0000027895296d00 2b220 Preemptive 0000000000000000:0000000000000000 000002789525e840 0 MTA (Finalizer) 3 3 260e8 00000278ae35f0c0 202b020 Preemptive 0000000000000000:0000000000000000 000002789525e840 0 MTA ... 169 2113 10c20 00000278c26766c0 1029220 Preemptive 00000278B5D7D188:00000278B5D7D188 000002789525e840 1 MTA (GC) (Threadpool Worker) xxxException 00000278b5d46ce0 ... 尼瑪從卦中的 2. GC觸發導致的嗎要尋找這個問題的答案,首先就是看下這次GC是不是 0:169> k 10 # Child-SP RetAddr Call Site 00 000000c4`36ffb798 00007ffc`d5f14313 ntdll!NtWaitForSingleObject+0x14 01 000000c4`36ffb7a0 00007ffc`c927cb27 KERNELBASE!WaitForSingleObjectEx+0x93 02 000000c4`36ffb840 00007ffc`c927cadf clr!CLREventWaitHelper2+0x3c 03 000000c4`36ffb880 00007ffc`c927ca5c clr!CLREventWaitHelper+0x1f 04 000000c4`36ffb8e0 00007ffc`c926bd32 clr!CLREventBase::WaitEx+0x7c 05 000000c4`36ffb970 00007ffc`c9269bc4 clr!ThreadSuspend::SuspendRuntime+0x32c 06 000000c4`36ffba60 00007ffc`c91814e3 clr!ThreadSuspend::SuspendEE+0x128 07 000000c4`36ffbb60 00007ffc`c9185f51 clr!WKS::GCHeap::GarbageCollectGeneration+0xb7 08 000000c4`36ffbbc0 00007ffc`c9260f56 clr!WKS::gc_heap::trigger_gc_for_alloc+0x2d 09 000000c4`36ffbc00 00007ffc`c6b0f7e7 clr!JIT_NewArr1+0xa97 0a 000000c4`36ffc030 00007ffc`6a388270 mscorlib_ni!System.String.ToCharArray+0x27 [f:\dd\ndp\clr\src\BCL\system\string.cs @ 758] 0b 000000c4`36ffc080 00007ffc`6a3880ed 0x00007ffc`6a388270 0c 000000c4`36ffc100 00007ffc`6a56056d 0x00007ffc`6a3880ed 0d 000000c4`36ffc150 00007ffc`6a3cd749 0x00007ffc`6a56056d 0e 000000c4`36ffc1b0 00007ffc`c911989d 0x00007ffc`6a3cd749 0f 000000c4`36ffc220 00007ffc`c9119764 clr!ExceptionTracker::CallHandler+0xfd 從卦中看此時的GC還處于早期的 size_t GCHeap::GarbageCollectGeneration (unsigned int gen, gc_reason reason) { } 根據 x64調用協定,gen是保存在 rdx 寄存器里,接下來觀察匯編代碼。 0:000> uf 00007ffc`c91814e3 clr!WKS::GCHeap::GarbageCollectGeneration: 00007ffc`c918142c 48895c2418 mov qword ptr [rsp+18h],rbx 00007ffc`c9181431 89542410 mov dword ptr [rsp+10h],edx 00007ffc`c9181435 48894c2408 mov qword ptr [rsp+8],rcx 00007ffc`c918143a 55 push rbp 00007ffc`c918143b 56 push rsi 00007ffc`c918143c 57 push rdi 00007ffc`c918143d 4154 push r12 00007ffc`c918143f 4155 push r13 00007ffc`c9181441 4156 push r14 00007ffc`c9181443 4157 push r15 ... 0:169> dd 000000c4`36ffbbc0-0x8+0x10 L1 000000c4`36ffbbc8 00000000 從卦中看,謝天謝地,edx保存在 3. 路在何方撞了南墻之后得要看看其他路子,其實剛才用 從卦中看此時有19個線程在拋 有些朋友說我cpu猛一點是不是就可以了,哈哈,理論上是可以的,可以用 0:169> !cpuid CP F/M/S Manufacturer MHz 0 6,167,1 <unavailable> 3408 1 6,167,1 <unavailable> 3408 2 6,167,1 <unavailable> 3408 3 6,167,1 <unavailable> 3408 4 6,167,1 <unavailable> 3408 5 6,167,1 <unavailable> 3408 6 6,167,1 <unavailable> 3408 7 6,167,1 <unavailable> 3408 從證據鏈的完整性上來說,其實這里還需要再做一個驗證,就是19個線程拋異常不代表他們的并發性,言外之意就是能不能再找一些其他證據,怎么找其他證據呢? 做C#開發的朋友應該知道,Exception 屬于引用類型,如果密集拋了很多異常,那托管堆上自然就有很多,直到GC回收,所以我們觀察下這個時間差即可,使用 0:169> !wdae 384 of Type: xxxResultException 000002789fdb6478 000002789fdb69b0 000002789fdb9848 Message: xxxFailed Inner Exception: (none) Stack: IP Function 00007ffc6a269861 xxx.ChannelAsyncOperation`1[[System.Int32, mscorlib]].End(Int32, Boolean) ... 411 of Type: xxxResultException 000002789fdb6e90 000002789fdb7090 000002789fdb72a8 Message: xxxClosed Inner Exception: (none) Stack: IP Function 00007ffc6a269861 xxx.ChannelAsyncOperation`1[[System.Int32, mscorlib]].End(Int32, Boolean) ... 808 Exceptions in 12 unique type/stack combinations (duplicate types in similar stacks may be rethrows) 從卦中看當前拋了808個異常,大多是和channel通信有關,結合16個線程并發拋,這就穩了,看樣子cpu爆高期間就是由于高頻的拋異常所致,分析出這些信息之后,就是告訴朋友把這些異常給解決掉即可。 三:總結CPU爆高的誘因非常多,高頻的拋異常就屬于其中一例,其實這種通信時發生了突發異常正是 Polly 這種 來源博客園https://www.cnblogs.com/huangxincheng/p/18056337 作者一線碼農 該文章在 2024/3/6 16:01:04 編輯過 |
關鍵字查詢
相關文章
正在查詢... |