| 24小時(shí)熱門(mén)版塊排行榜 |
| 1 | 1/1 | 返回列表 |
| 查看: 1325 | 回復(fù): 0 | |||
A寶祿計(jì)算銀蟲(chóng) (初入文壇)
|
[交流]
IB交換機(jī)配置
|
|
1、驅(qū)動(dòng)程序安裝 在操作系統(tǒng)安裝后,單獨(dú)安裝適用于您的操作系統(tǒng)的 IB 網(wǎng)卡驅(qū)動(dòng)程序。下載地址: NVIDIA InfiniBand Software | NVIDIA https://developer.nvidia.com/networking/infiniband-software 這里包含很多平臺(tái)的驅(qū)動(dòng),Linux用第一個(gè): Linux InfiniBand Drivers (nvidia.com) https://network.nvidia.com/produ ... rs/linux/mlnx_ofed/ 選擇Download: 圖片 根據(jù)版本去找適合的區(qū)別操作版本驅(qū)動(dòng): 圖片 下載完 ISO 文件后,先掛載 ISO 文件到 OFED_INSTALL 目錄下: $ mkdir OFED_INSTALL $ chmod +x MLNX_OFED_LINUX-5...-rhel7.5-x86_64.iso $ mount MLNX_OFED_LINUX-5...-rhel7.5-x86_64.iso OFED_INSTALL/ $ cd OFED_INSTALL 進(jìn)入 OFED_INSTALL 目錄,OFED_INSTALL 目錄下的文件內(nèi)容如下: $ ls -l total 381 -r-xr-xr-x 1 root root 2848 Apr 2 14:50 common_installers.pl -r-xr-xr-x 1 root root 7304 Apr 2 14:50 common.pl -r-xr-xr-x 1 root root 24861 Apr 2 14:50 create_mlnx_ofed_installers.pl -r--r--r-- 1 root root 8 Apr 2 14:50 distro dr-xr-xr-x 8 root root 2048 Apr 2 14:50 docs -r-xr-xr-x 1 root root 4838 Apr 2 14:50 is_kmp_compat.sh -r--r--r-- 1 root root 956 Apr 2 14:50 LICENSE -r-xr-xr-x 1 root root 27786 Apr 2 14:50 mlnx_add_kernel_support.sh -r-xr-xr-x 1 root root 285744 Apr 2 14:50 mlnxofedinstall -r--r--r-- 1 root root 2764 Apr 2 14:50 RPM-GPG-KEY-Mellanox dr-xr-xr-x 5 root root 2048 Apr 2 14:51 RPMS dr-xr-xr-x 3 root root 8192 Apr 2 14:53 RPMS_UPSTREAM_LIBS dr-xr-xr-x 2 root root 2048 Apr 2 14:50 src -r-xr-xr-x 1 root root 15096 Apr 2 14:50 uninstall.sh 這里面的文件作用如下: · mlnxofedinstall: Mallenox OFED 驅(qū)動(dòng)的默認(rèn)安裝腳本,大多數(shù)情況下用這個(gè)腳本安裝驅(qū)動(dòng)即可工作 · ofed_uninstall.sh: Mallenox OFED 驅(qū)動(dòng)的卸載腳本,可以卸載掉所有 OFED 驅(qū)動(dòng)相關(guān)的文件 · mlnx_add_kernel_support.sh: 對(duì)應(yīng)本機(jī)內(nèi)核的驅(qū)動(dòng)定制腳本,如果需要在 OFED 源代碼的基礎(chǔ)上編譯驅(qū)動(dòng)模塊,則需要先用這個(gè)腳本進(jìn)行驅(qū)動(dòng)定制 · RPMS: 生成 RPM 安裝包的目錄 · src: OFED 模塊的源碼目錄 · docs: 存放說(shuō)明文檔的目錄 我們輸入 mlnxofedinstall 命令來(lái)安裝 Mallenox OFED 驅(qū)動(dòng): $ ./mlnxofedinstall Logs dir: /tmp/MLNX_OFED_LINUX.20820.logs ... Do you want to continue?[y/N]:y Starting MLNX_OFED_LINUX-5... installation ... Installing mlnx-ofa_kernel RPM Preparing... ######################################## ... ... ... Installation finished successfully. Preparing... ################################# [100%] Updating / installing... 1:mlnx-fw-updater-5... ################################# [100%] Added 'RUN_FW_UPDATER_ONBOOT=no to /etc/infiniband/openib.conf Attempting to perform Firmware update... The firmware for this device is not distributed inside Mellanox driver: 05:00.0 (PSID: ) To obtain firmware for this device, please contact your HW vendor. Failed to update Firmware. See /tmp/MLNX_OFED_LINUX..logs/fw_update.log To load the new driver, run: /etc/init.d/openibd restart 使用 /etc/init.d/openibd restart 命令重啟 openibd 服務(wù): $ /etc/init.d/openibd restart Unloading HCA driver: [ OK ] Loading HCA driver and Access Layer: [ OK ] 此時(shí) openibd 服務(wù)會(huì)導(dǎo)入新的 HCA driver,之后開(kāi)啟 opensm 服務(wù)并設(shè)置為開(kāi)機(jī)啟動(dòng): $ /etc/init.d/opensmd start $ chkconfig opensmd on 此時(shí)用 ibv_devinfo 命令確認(rèn) IB 網(wǎng)卡正常工作,state 對(duì)應(yīng) PORT_ACTIVE 表示 IB 網(wǎng)卡已經(jīng)正常驅(qū)動(dòng),如下所示: $ ibv_devinfo hca_id: mlx5_0 transport: InfiniBand (0) fw_ver: 10.16.1038 node_guid: ... ... port: 1 state: PORT_ACTIVE (4) max_mtu: 4096 (5) active_mtu: 4096 (5) sm_lid: 1 port_lid: 1 port_lmc: 0x00 link_layer: InfiniBand port: 2 state: PORT_DOWN (1) ... 2、網(wǎng)絡(luò)配置 IB 設(shè)備的通信過(guò)程主要是基于 RDMA,數(shù)據(jù)交換并不需要 TCP/IP 來(lái)參與。但是很多應(yīng)用程序經(jīng)常需要先通過(guò)網(wǎng)絡(luò)層的 IP 地址來(lái)定位設(shè)備,所以 IB 網(wǎng)卡上也是支持IP設(shè)置的。 詳細(xì)參考:IP over InfiniBand (IPoIB) https://docs.nvidia.com/networki ... ion?pageId=12013510 網(wǎng)絡(luò)設(shè)置好了,都有哪些服務(wù)需要通過(guò)IB網(wǎng)絡(luò)通信呢? 在HPC集群中,以下服務(wù)通常需要通過(guò)IB(InfiniBand)網(wǎng)絡(luò)進(jìn)行高性能通信: MPI通信:MPI(Message Passing Interface)是一種常用的并行編程模型,在HPC中廣泛使用。MPI程序通過(guò)消息傳遞進(jìn)行節(jié)點(diǎn)間的通信和協(xié)調(diào)。由于IB網(wǎng)絡(luò)具有低延遲和高帶寬的特點(diǎn),它是執(zhí)行MPI通信的理想選擇。 文件系統(tǒng):在HPC集群中,通常會(huì)使用分布式文件系統(tǒng),如Lustre、GPFS等。這些文件系統(tǒng)利用IB網(wǎng)絡(luò)的高速數(shù)據(jù)傳輸能力來(lái)實(shí)現(xiàn)節(jié)點(diǎn)間的快速數(shù)據(jù)共享和訪問(wèn)。 NFS 也可以通過(guò)IB網(wǎng)絡(luò)通信,需要在安裝驅(qū)動(dòng)的時(shí)候加入支持參數(shù): ./mlnxofedinstall --with-nfsrdma |
| 1 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 材料與化工304求調(diào)劑 +7 | 邱gl 2026-03-05 | 10/500 |
|
|---|---|---|---|---|
|
[考研] A區(qū)一本交叉課題組,低分調(diào)劑,招收機(jī)械電子信息通信等交叉方向 +23 | lisimayy 2026-03-04 | 31/1550 |
|
|
[考研] 324求調(diào)劑 +5 | wxz2 2026-03-03 | 7/350 |
|
|
[考研] 一志愿211,0860總分286食品工程專(zhuān)業(yè)求調(diào)劑 +4 | 林林Winnie 2026-03-05 | 4/200 |
|
|
[考研] 江西師范大學(xué)王昆-盧章輝課題組招化學(xué)方向碩士研究生兩名 +3 | 哈哈大俠 2026-02-28 | 3/150 |
|
|
[考研] 沒(méi)上岸的看過(guò)來(lái) +3 | tangxiaotian 2026-03-01 | 5/250 |
|
|
[考研] 0703化學(xué) 學(xué)碩 理工科均可 不區(qū)分研究方向 總分279求調(diào)劑 +7 | 1一11 2026-03-03 | 7/350 |
|
|
[考研] 291求調(diào)劑 +3 | 咕嚕咕嚕123123 2026-03-02 | 4/200 |
|
|
[考研] 276求調(diào)劑 +8 | 路lyh123 2026-02-28 | 10/500 |
|
|
[考研] 292求調(diào)劑 +3 | sgbl 2026-03-03 | 3/150 |
|
|
[考研] 化學(xué)0703求調(diào)劑 學(xué)碩 理/工科均可 總分279 +3 | 1一11 2026-03-03 | 5/250 |
|
|
[考研] 化工335求調(diào)劑 +5 | 摸摸貓貓頭 2026-03-02 | 5/250 |
|
|
[考研] 化工京區(qū)271求調(diào)劑 +7 | 11ing 2026-03-02 | 7/350 |
|
|
[考研] 0856求調(diào)劑285 +11 | 呂仔龍 2026-02-28 | 11/550 |
|
|
[考研] 306分材料調(diào)劑 +5 | chuanzhu川燭 2026-03-01 | 6/300 |
|
|
[考研] 261求調(diào)劑 +3 | 陸lh 2026-03-01 | 3/150 |
|
|
[考研] 275求調(diào)劑 +7 | 明遠(yuǎn)求學(xué) 2026-03-01 | 7/350 |
|
|
[考研] 291 求調(diào)劑 +3 | 化工2026屆畢業(yè)?/a> 2026-03-02 | 3/150 |
|
|
[論文投稿]
求助coordination chemistry reviews 的寫(xiě)作模板
10+3
|
ljplijiapeng 2026-02-27 | 4/200 |
|
|
[考研] 304求調(diào)劑 +3 | 52hz~~ 2026-02-28 | 5/250 |
|