rocsy记录一次 Docker 容器 "Failed to initialize NVML: Unknown Error" 问题的排查与解决 中发帖

问题现象
最近在使用 Docker 容器跑 GPU 训练时,遇到一个诡异的问题:

容器运行一段时间后(几小时到几天不等),执行 nvidia-smi 报错:Failed to initialize NVML: Unknown Error
重启容器后恢复正常
过段时间问题又会复现(这个间隔时间很random)

排查过程
1. 初步定位
通过搜索发现这是一个已知问题,GitHub 上有大量讨论:

NVIDIA/nvidia-docker #1730
问题似乎与 systemctl daemon-reload 有关

2. 复现测试
在我的环境中测试:
# 容器正常运行时
docker exec container_name nvidia-smi # 正常

# 执行 daemon-reload
sudo systemctl daemon-reload

# 再次测试
docker...