toxicsoda佬友们,多卡4090NCCL通信超时应该怎么排查 中发帖

我是小白,麻烦各位佬友指教一下orz 


服务器是8卡4090,CUDA驱动版本520.61.05,CUDA版本11.8,cuDNN版本9.2.0,操作系统是Ubuntu20.04


这台服务器多卡使用NCCL,GPU占用就会立刻到100%,但是训练进度一直都是0,我写了一个测试脚本,在本地两张1080上面用nccl正常,在服务器用nccl出现了这个问题,报错如下
‘’‘bash
Watchdog caught collective operation timeout: WorkNCCL(SeqNum=1, OpType=ALLGATHER, NumelIn=1, NumelOut=8, Timeout(ms)=600000) ran for 600021 milliseconds before timing out.
‘’’


切换成gloo仍然是正常的


GPU...