技術(shù)員聯(lián)盟提供win764位系統(tǒng)下載,win10,win7,xp,裝機純凈版,64位旗艦版,綠色軟件,免費軟件下載基地!

當前位置:主頁 > 教程 > 服務(wù)器類 >

Linux系統(tǒng)上安裝slurm來監(jiān)控網(wǎng)絡(luò)帶寬和控制節(jié)點

來源:技術(shù)員聯(lián)盟┆發(fā)布時間:2018-02-16 12:00┆點擊:

  SLURM 是一個類似 Sun Grid Engine (SGE) 的開源分布式資源管理軟件,用于超級計算機和大型計算節(jié)點集群,可高度伸縮和容錯。SUN 被賣給 Oracle 后,好用的 SGE 變成 Oracle Grid Engine 并且從 6.2u6 版本開始成為商業(yè)軟件了(可以免費使用90天),所以我們不得不另尋其他的開源替代方案,SLURM 是上次在德班高性能會議的時候一位陌生人介紹的,聽上去不錯。

  SLURM 通過一對冗余集群控制節(jié)點(冗余是可選的)來管理集群計算節(jié)點,是由一個名為 slurmctld 的管理守護程序?qū)崿F(xiàn)的,slurmctld 提供了對計算資源的監(jiān)視、分配和管理,并將進入的作業(yè)序列映射和分發(fā)到各個計算節(jié)點上。每個計算節(jié)點也有一個守護程序 slurmd,slurmd 管理在其上運行的節(jié)點,監(jiān)視節(jié)點上運行的任務(wù)、接受來自控制節(jié)點的請求和工作、將工作映射到節(jié)點內(nèi)部等等。圖示如下:

20151029115037919.jpg (580×297)

  監(jiān)控帶寬

  復(fù)制代碼

  代碼如下:

  $ apt-get install slurm

  它會用字符來顯示文本圖形。

  例如:

  復(fù)制代碼

  代碼如下:

  $ slurm -i

  $ slurm -i eth1

20151029115120152.png (835×422)

  選項

  按 l 顯示 lx/tx 指示燈.

  按 c 切換到經(jīng)典模式.

  按 r 刷新屏幕.

  按 q 退出.

  控制節(jié)點

  在控制節(jié)點和計算結(jié)點分別安裝 slurm 包,這個包里面既含有控制節(jié)點需要的 slurmctld 也含有計算結(jié)點需要的 slurmd:

  復(fù)制代碼

  代碼如下:

  # apt-get install slurm-llnl

  控制節(jié)點和計算結(jié)點之間需要通信,通信就需要認證,slurm 支持兩種認證方式:Brent Chun’s 的 authd 和 LLNL 的 MUNGE,MUNGE 是專為高性能集群計算打造的,這里我們選用 MUNGE,生成 key 后啟動 munge 認證服務(wù):

  復(fù)制代碼

  代碼如下:

  # /usr/sbin/create-munge-key

  Generating a pseudo-random key using /dev/urandom completed.

  # /etc/init.d/munge start

  使用 SLURM Version 2.3 Configuration Tool 在線配置工具生成配置文件,然后把配置文件拷貝控制節(jié)點以及各個計算結(jié)點的 /etc/slurm-llnl/slurm.conf(是的,控制節(jié)點和計算結(jié)點使用同一個配置文件)。

  有了配置文件和啟動了 munge 服務(wù)后就可以在控制節(jié)點啟動 slurmctld 服務(wù)了:

  復(fù)制代碼

  代碼如下:

  # /etc/init.d/slurm-llnl start

  * Starting slurm central management daemon slurmctld [ OK ]

  把控制節(jié)點生成的 munge.key 拷貝到各個計算結(jié)點:

  復(fù)制代碼

  代碼如下:

  # scp /etc/munge/munge.key ubuntu@slurm01:/etc/munge/

  登陸計算節(jié)點后啟動 munge 服務(wù)(注意需要改變 munge.key 的 owner 和 group 為 munge,否則會啟動失敗)和 slurmd 服務(wù):

  復(fù)制代碼

  代碼如下:

  # ssh ubuntu@slurm01

  # chown munge:munge munge.key

  # /etc/init.d/munge start

  * Starting MUNGE munged [ OK ]

  # slurmd

  在控制節(jié)點上(slurm00)測試一下是否順利連接到計算結(jié)點(slurm01),并且簡單運行一個程序 /bin/hostname 看看效果吧:

  復(fù)制代碼

  代碼如下:

  # sinfo

  PARTITION AVAIL TIMELIMIT NODES STATE NODELIST

  debug* up infinite 1 idle slurm01

  # srun -N1 /bin/hostname