c – 为在群集上运行的多线程程序定位分段错误

在交互模式下运行简单程序时,使用gdb来定位分段错误非常简单.但是请考虑我们有一个多线程程序 – 由pthread编写 – 提交给集群节点(通过qsub命令).所以我们没有互动操作.

我们如何定位分段错误?我正在寻找一般方法,程序或测试工具.我不能提供一个可重现的例子,因为程序非常大并且在某些未知情况下会在群集上崩溃.

我需要在如此困难的情况下找到问题,因为程序在具有任意数量线程的本地机器上正确运行.

解决方法

“正常”方法是让环境生成核心文件获取它们.如果这不是一个选项,您可能想尝试为SIGSEGV安装信号处理程序,该处理程序至少获取某处转储的堆栈跟踪.当然,这会立即导致问题 “how to get a stack trace”,但这在其他地方得到了回答.

最简单的方法可能是获取核心文件.假设你有一个可以读取核心文件的类似机器,你可以使用gdb program corefile来调试生成核心文件corefile的程序程序:你应该能够查看不同的线程,它们的数据(在某种程度上)如果您没有合适的机器,可能需要交叉编译与运行它的机器的硬件匹配的gdb.

我对核心文件为空的说法有点困惑:你可以在shell上使用ulimit设置核心文件的限制.如果核心的大小设置为零,则不应生成任何核心文件.制作一个空的似乎很奇怪.但是,如果您无法更改程序的限制,则可能需要安装信号处理程序并从违规线程中转出堆栈跟踪.

考虑到它,您可以将程序置于信号处理程序中并使用调试器连接到它,假设您可以在相应的计算机上运行调试器.您将确定进程ID(使用,例如,ps -elf | grep程序),然后使用附加到它

gdb program pid

我不知道如何让程序从程序内部进入睡眠状态(可能为SIGSEGV安装SIGSTOP的处理程序……).

那就是说,我假设您尝试在本地计算机上运行程序……?有些问题比需要在每个节点上运行的许多线程的分布式系统更为基础.显然,这不是上述方法的替代品.

相关文章

本程序的编译和运行环境如下(如果有运行方面的问题欢迎在评...
水了一学期的院选修,万万没想到期末考试还有比较硬核的编程...
补充一下,先前文章末尾给出的下载链接的完整代码含有部分C&...
思路如标题所说采用模N取余法,难点是这个除法过程如何实现。...
本篇博客有更新!!!更新后效果图如下: 文章末尾的完整代码...
刚开始学习模块化程序设计时,估计大家都被形参和实参搞迷糊...