/docs/MyDocs

To get this branch, use:
bzr branch http://darksoft.org/webbzr/docs/MyDocs

« back to all changes in this revision

Viewing changes to Administration/Server/Network/infiniband/openmpi.txt

  • Committer: Suren A. Chilingaryan
  • Date: 2017-04-03 02:45:17 UTC
  • Revision ID: csa@suren.me-20170403024517-dwzj0z0k1cmhxm7u
Restructuring, OpenShift, Ansible, Git

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
Intro
 
2
=====
 
3
 - OpenMPI shipped with OpenSUSE does not support Infiniband and seems to have
 
4
 other porblems preventing it from usage on standard networks. It is better to
 
5
 install newer version from OFED project:
 
6
    http://download.opensuse.org/repositories/OFED:/Factory/openSUSE_Factory/OFED:Factory.repo
 
7
    
 
8
 - There is a few interactivity problems to handle with ssh connection
 
9
    * Non-interactive host key checking
 
10
    * If ssh key is protected with password, the ssh-agent protocol forwarding should be enabled
 
11
 This can be achieved with the following options:
 
12
     mpirun --mca plm_rsh_agent "ssh -A -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null" 
 
13
 
 
14
 - OpenMPI will try to identify the best network protocol to use, but it can be configured
 
15
 manually as well. The 'self' module should be always present
 
16
    mpirun --mca btl openib,tcp,self ...
 
17
    
 
18
 - On OpenSUSE 13.1 there are communication problems if more than 4 nodes are communicating
 
19
 over Infiniband-over-IP network using tcp protocol. The MPI_Scatter (etc.) will just block 
 
20
 after serving few nodes. Using openib communication layer, everything works fine. I.e.
 
21
    mpirun --mca btl openib,self        - runs fine
 
22
    mpirun --mca btl tcp,self           - hangs
 
23
     
 
24
 - If slots are not configured in the hostfile, the scheduler may run multiple instance on a
 
25
 single cluster node despite availability of more nodes. The hostfile line should look like:
 
26
    192.168.11.61 slots=1
 
27