linux内核死机2-smp

问题：程序跑一段时间之后会报告：
INFO: rcu_sched_state detected stalls on CPUs/tasks: { 1} (detected by 0, t=15002 jiffies)。意思是CORE0检测到CORE1挂了。

1.cpu执行的指令和数据是从L1高速缓存的指令缓存和数据缓存中获取，一旦cpu要执行的指令或数据无法从高速缓存中获取，就会产生cpu stall。你这种情况是程序要求的cpu性能要高于你现在使用的cpu，你得考虑升级设备才能运行此庞大程序。

2.再补充一点，当cpu无法从高速缓存中获取指令或数据，那么只有从内存中获取，而这种会浪费很长时间的，所以你的程序会hang住，考虑玩个小程序吧，或者非要玩这个大程序，换个牛逼手机吧。

http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=3658441如题，求指点

Dec 30 15:12:14 T206 kernel: [ 1196.284001] INFO: rcu_sched_state detected stall on CPU 0 (t=15000 jiffies)
Dec 30 15:12:14 T206 kernel: [ 1196.284001] sending NMI to all CPUs:

提示这个错误是什么原因引起的？

1.某个核调度出了问题，跟softlockup有点像。可能是spinlock关抢占。或者fifo死循环。
如果是前者，得查死锁回溯；
我们的业务模型会在某几个cpu上fifo死循环，没办法，目前的临时解决方法是配置了CONFIG_NO_HZ_FULL 。
CONFIG_NO_HZ_FULL的好处是，如果运行的进程只有一个，RCU也会认为该cpu经过了一个grace period，不会出死锁。

2.一般是死锁了，由于提示是cpu0死了，看下“sending nmi”下一行开始的cpu0的栈，一般最后能看到某个spin lock irqsave类似的锁操作，然后看下这个锁哪里用到。另一个常用的检测方式是把内核的lockdep检测打开，这样错误基本是无所遁形的(O_O)。

3. 触发NMI，一般是cpu卡死，如死锁，也有如系统异常时，巨量的prinrk（打印全开）。

I have disabled the Frequency scaling and this issue is not reproduce.

mozun1

发布了34 篇原创文章 · 获赞 4 · 访问量 4万+

私信关注

linux内核死机2-smp

MySQL 核心模块揭秘 | 18 期 | 锁在内存里长什么样*

使用perf工具生成火焰图

HttpSecurity 是如何组装过滤器链的

数说海南——近6年海南各市县人口简单看

长序列中Transformers的高级注意力机制总结

大龄程序员思考

响应式界面控件DevExtreme * 更强的数据分析和可视化功能

CC_STACKPROTECTOR防止內核stack溢出補丁分析

linux內核調試2

shell腳本學習一

linux信號處理機制2

linux的條件變量和時間編程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結