摘要:如果遇到IB网络不通,可以试着从高层往底层逐步分析看看。
本文分享自华为云社区《常见IB网络不通问题记录》,作者: tsjsdbd 。
如果遇到IB网络不通,可以试着从高层往底层逐步分析看看。仅记录下,供难友参考:
(资料图)
一、NCCL不通报错:
machine-19: [0] transport/net_ib.cc:839 NCCL WARN NET/IB : Got completion with error 12, opcode 0, len 0, vendor err 129
原因:错误12,说明RDMA网络不通。
需要分析底层网络为什么不通。
比如:
是否单纯网络不通pfc流控不对导致丢包。如果是(2)这种偶现不通的话,可以参考pfc设置规则:《为什么华为云上AI训练必须设置NCCL_IB_TC=128》
二、ib_write_bw不通报错1:
root@tsjsdbd:~# ib_write_bw---------------------------------------------------------- RDMA_Write BW Test Dual-port : OFFDevice : mlx4_0 Number of qps : 1Transport type : IB Connection type : RCUsing SRQ : OFF CQ Moderation : 100 Mtu : 2048[B] Link type : IB Max inline data : 0[B] rdma_cm QPs : OFF Data ex. method : Ethernet-------------------------------------------------------- local address: LID 0x81 QPN 0x160b3 PSN 0xa072 RKey 0x68010802 VAddr 0x007f184171a000 remote address: LID 0x35 QPN 0xc5a0b PSN 0xaa465a RKey 0x20010802 VAddr 0x007f3ca2b9c000--------------------------------------------------------------------------------------- #bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]ethernet_read_keys: Couldn"t read remote address Unable to read to socket/rdam_cm Failed to exchange data between server and clients
报错2:
root@tsjsdbd:~# ib_write_bw -F 29.26.130.185 -d mlx5_5---------------------------------------------------------- RDMA_Write BW Test Dual-port : OFF Device : mlx5_5 Number of qps : 1 Transport type : IB Connection type : RC Using SRQ : OFF PCIe relax order: ON ibv_wr* API : ON TX depth : 128 CQ Moderation : 1 Mtu : 2048[B] Link type : Ethernet GID index : 3 Max inline data : 0[B] rdma_cm QPs : OFF Data ex. method : Ethernet-------------------------------------------------------- local address: LID 0x81 QPN 0x160b3 PSN 0xa072 RKey 0x68010802 VAddr 0x007f184171a000 GID: 00:00:00:00:00:00:00:00:00:00:255:255:29:26:130:235 remote address: LID 0x35 QPN 0xc5a0b PSN 0xaa465a RKey 0x20010802 VAddr 0x007f3ca2b9c000 GID: 00:00:00:00:00:00:00:00:00:00:255:255:29:26:130:185--------------------------------------------------------------------------------------- #bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps] Completion with error at client Failed status 12: wr_id 0 Syndrom 0x81scnt=128, ccnt=0 Failed to complete run_iter_bw function successfully
说明网络不通,需要继续分析RDMA链路。
三、ibv_rc_pingpong不通报错:
ibv_rc_pingpong -d mlx5_bond_0 -g 3 29.28.195.228 local address: LID 0x0000, QPN 0x01417f, PSN 0x63d7fa, GID ::ffff:29.28.201.21 remote address: LID 0x0000, QPN 0x00132d, PSN 0x8c0a5b, GID ::ffff:29.28.195.228Failed status transport retry counter exceeded (12) for wr_id 2parse WC failed 1
说明网络不通,需要分析IP网络为什么不通。
四、rping不通报错1:
rping -c -a 29.28.195.228 -v -C 10cma event RDMA_CM_EVENT_ADDR_ERROR, error -110waiting for addr/route resolution state 1
说明地址连不上,需要继续判断IP链路是否通。
报错2:
rping -c -a 29.28.197.165 -C 10 -vcma event RDMA_CM_EVENT_REJECTED, error 8wait for CONNECTED state 4connect error -1
这个Reject表示连接被拒绝了。只是单纯的因为 rping 工作时需首先启动一个 server side 进程,然后从 client side 试图向 server side 发起连接。
所以要先启动Server端。
rping -s 29.28.201.211 -v五、ping不通
报错:
ping 29.28.195.228PING 29.28.195.228 (29.28.195.228) 56(84) bytes of data.From 29.28.204.80 icmp_seq=1 Destination Host UnreachableFrom 29.28.204.80 icmp_seq=2 Destination Host UnreachableFrom 29.28.204.80 icmp_seq=3 Destination Host UnreachableFrom 29.28.204.80 icmp_seq=4 Destination Host Unreachable^C--- 29.28.195.228 ping statistics ---5 packets transmitted, 0 received, +4 errors, 100% packet loss, time 4045ms
这个估计就快到根错误了,假设交换机连接都是OK的。那基本就是路由设置问题:
可以用
# ip route get 29.28.204.80 from 29.28.201.21129.28.204.80 from 29.28.201.211 dev enp137s0f0 uid 0
来确认发送报文的网卡是否选择正确。
如果是「同网段多IB网卡」的情况,如A100 或者 A800服务,带8个IB网卡,并都在同一个网段。则需要通过策略路由设置「源地址路由」规则来解决各个IP互通的问题。见:《RoCE多网卡时,报文可以过去,但是回不来》
六、ARP表不对如果ping是通的,但是rping又不通。 那就还要再底层看一看了(你也算天选之子了,跑这么底层定位错误)。
正常情况,学习到的arp表,一个IP地址对应一个网卡的MAC地址。
如下:
/home/tsj # arp -n | grep 29.28.201.21129.28.201.211 ether 08:c0:eb:8c:10:6d C enp137s0f1
两端同时查看,如果发现一个IP地址,学习到的arp记录有多条不一样的,说明arp设置不对。
需要
先清空arp表设置arp应答规则其中,
(1)清空arp表有2种方式:
指定某个IP清空:arp -d 192.168.1.1清空所有arp:(咱们直接执行这个就行)
ip -s -s neigh flush all
(2)设置arp应答规则:
sysctl -w net.ipv4.conf.all.arp_ignore=1sysctl -w net.ipv4.conf.all.arp_announce=2
意思是只答复对应网卡的arp响应。
设置完后,再ping一次后,确认两边学习到的arp表是正确的。
点击关注,第一时间了解华为云新鲜技术~
下一篇:最后一页
X 关闭
-
6个常见的IB网络不通问题-全球播资讯
摘要:如果遇到IB网络不通,可以试着从高层往底层逐步分析看看。本文分
-
现场达成20余项合作!市北“赋能行”畅通“供需桥”
QMG青岛广电6月26日讯为进一步提升制造业产业链重点企业竞争力,推动企
-
暗黑4支线任务代价攻略-世界简讯
有许多玩家在暗黑破环神4中遇到了一些问题,导致游戏进度被落下了很多
-
开阳县紫兴街道大坪子(易安)小区“四抓四强”激活基层治理新动能
今年以来,开阳县紫兴街道大坪子(易安)小区发挥党员的先锋模范作用,全
-
今日讯!2023浙江湖州市长兴县煤山镇专职社区工作者笔试成绩和进入面试人员公示
根据《煤山镇2023年公开招聘专职社区工作者公告》,经报名、资格初审、
- 1世界速读:菏泽市医学会小儿骨科专业委员会成立大会暨学术会议召开
- 2除湿机哪个牌子好_thenorthface是什么牌子-全球新要闻
- 3陈淮:中国式的现代化进程中,房地产仍将是国民经济支柱产业
- 4天津土拍:农垦、嘉宁分别斩获武清、宁河地块 总成交额约8.83亿_前沿热点
- 5全球热头条丨奥飞数据:深圳福保数据中心为公司目前在深运营的自建数据中心,可用机柜数量约五百个
- 6宋琰亭生活照片_宋琰亭|世界新视野
- 7环球热议:宠物营养 | 什么是营养素的“生物利用率”?
- 8亚洲高尔夫运动普及热潮或至,HONMA高尔夫释放价值可期
- 9有50万元的闲钱,怎么样能让自己每月赚3000元呢?|天天新视野
- 10赛尔计划商店兑换优先级以及竞技场、巅峰之战吃低保