WSL2,NCCL报错RuntimeError: NCCL Error 2: unhandled system error

在WSL2上使用pytorch1.7.1,无法进行多显卡分布式训练,提示“RuntimeError: NCCL Error 2: unhandled system error”,一直不知道什么意思,后来上网搜索,发现可以打印nccl的日志

链接) ,以获得更为详细的出错提示。随即在环境变量里添加了

export NCCL_DEBUG=info

export NCCL_SOCKET_IFNAME=eth0

export NCCL_IB_DISABLE=1

再次训练,这次打印出了更为详细的错误信息。如下:

DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO Bootstrap : Using [0]eth0:172.24.6.154<0>
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO NCCL_IB_DISABLE set by environment to 1.
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO NET/Socket : Using [0]eth0:172.24.6.154<0>
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO Using network Socket
NCCL version 2.7.8+cuda11.0

DESKTOP-SVB4DC0:26340:26714 [0] graph/xml.cc:332 NCCL WARN Could not find real path of /sys/class/pci_bus/0000:02/../../0000:02:00.0
DESKTOP-SVB4DC0:26340:26714 [0] NCCL INFO graph/xml.cc:469 -> 2

DESKTOP-SVB4DC0:26340:26715 [1] graph/xml.cc:332 NCCL WARN Could not find real path of /sys/class/pci_bus/0000:02/../../0000:02:00.0
DESKTOP-SVB4DC0:26340:26715 [1] NCCL INFO graph/xml.cc:469 -> 2
DESKTOP-SVB4DC0:26340:26715 [1] NCCL INFO graph/xml.cc:660 -> 2
DESKTOP-SVB4DC0:26340:26715 [1] NCCL INFO graph/topo.cc:523 -> 2
DESKTOP-SVB4DC0:26340:26715 [1] NCCL INFO init.cc:581 -> 2
DESKTOP-SVB4DC0:26340:26715 [1] NCCL INFO init.cc:840 -> 2
DESKTOP-SVB4DC0:26340:26714 [0] NCCL INFO graph/xml.cc:660 -> 2
DESKTOP-SVB4DC0:26340:26714 [0] NCCL INFO graph/topo.cc:523 -> 2
DESKTOP-SVB4DC0:26340:26714 [0] NCCL INFO init.cc:581 -> 2
DESKTOP-SVB4DC0:26340:26714 [0] NCCL INFO init.cc:840 -> 2
DESKTOP-SVB4DC0:26340:26715 [1] NCCL INFO group.cc:73 -> 2 [Async thread]
DESKTOP-SVB4DC0:26340:26714 [0] NCCL INFO group.cc:73 -> 2 [Async thread]
DESKTOP-SVB4DC0:26340:26340 [0] NCCL INFO init.cc:906 -> 2

从错误信息的提示来看,主要出问题在: NCCL WARN Could not find real path of /sys/class/pci_bus/0000:02/../../0000:02:00.0,上网搜了一下,没有找到相关解决办法,后来自己琢磨解决了。

这个问题的主要原因是在WSL2中文件的结构和普通的linux系统稍有不同,导致NCCL无法找到相关信息,pytorch1.7.1使用的是NCCL version 2.7.8+cuda11.0,NCCL版本不够高,这个问题在NCCL2.11.4中解决了,但从网站下载安装的pytorch是事先编译好的,即使系统中安装了2.11.4版本的NCCL,pytorch调用的仍然是编译时的版本2.7.8,因此,需要使用下载源码在本地编译安装的方式安装pytorch,在编译时,配置环境参数:

export USE_SYSTEM_NCCL =1

然后再执行python3 setup.py install即可。

转自:WSL2,NCCL报错RuntimeError: NCCL Error 2: unhandled system error-CSDN博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回顶部