深巴甫洛夫内存使用情况

问题描述

我们目前正在使用 deeppavlov 的框架来提取自定义命名实体。我们已经在标记数据集上训练了一个模型,但遇到了意外的内存使用问题。这些问题导致培训/评估过程终止。

由于某种原因,在训练和评估阶段内存使用量猛增:

内存峰值示例

内存和 cpu 峰值示例

可用的最大内存为 8GB。我们有可用的 GPU,并且在训练和预测/评估脚本中都有一行:os.environ[‘CUDA_VISIBLE_DEVICES’] = ‘0’。训练数据集只有 700 个句子。 最初它在训练期间崩溃,但我将批量大小从 16 减少到 4,并且它设法经历了几个时期(最后仍然崩溃)。

使用evaluate_model 函数或python -m deeppavlov 评估命令更奇怪。从训练有素的 NER 模型加载词汇后,该过程被终止(我假设是由于内存限制)。也就是第 115 行的“deeppavlov.core.data.simple_vocab”最后一次信息登录

请您指出可能的高内存使用率的来源以及如何补救?似乎即使我指定 os.environ[‘CUDA_VISIBLE_DEVICES’] = ‘0’,pod 仍在使用 cpu

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)