[Isis-fish-users] Simulation sur Cluster

Bastien Preuss Bastien.Preuss at noumea.ird.nc
Mar 20 Avr 07:34:33 CEST 2010


Bonjour Eric,

Donc pour que la simulation tourne bien, nous lançons à la main le script
"toto.pbs" suivant:

#############################################################
#PBS -S /bin/sh

### RAPPEL Lancement sur cluster Nea : "
###  qsub -q qLong toto.pbs

### JOB NAME
#PBS -N ISIS

###Number of nodes
#PBS -l nodes=1:ppn=1

#PBS -l walltime=240:00:00

### Merge output error and log files
#PBS -j oe

### Ressources

# This job's working directory :
echo Working Directory is $PBS_O_WORKDIR
cd $PBS_O_WORKDIR

echo Running on host `hostname`
echo Time is `date`
echo Directory is `pwd`
echo This job runs on the following processors :
echo `cat $PBS_NODEFILE`
NPROCS=`wc -l < $PBS_NODEFILE`
echo This job has allocated $NPROCS nodes

echo $HOME

cd "/home/bpreuss/isis-fish-3.3.0.2"
pwd

##source /usr/share/modules/init/csh
##module load java/1.6.0

/home/bpreuss/jre1.6.0_19/bin/java -Xmx2500M -jar isis-fish*.jar --option
launch.ui false --option perform.vcsupdate false --option perform.migration
false --option perform.cron false --simulateRemotelly "sim_sim_test\
1_2010-04-19-16-52_2010-04-20-15-25"
"/home/bpreuss/isis-tmp/simulation-sim_sim_test\
1_2010-04-19-16-52_2010-04-20-15-25-preparation.zip"
"/home/bpreuss/isis-tmp/simulation-sim_sim_test\
1_2010-04-19-16-52_2010-04-20-15-25-result.zip" >&
"/home/bpreuss/isis-tmp/simulation-sim_sim_test_1_2010-04-19-16-52_2010-04-2
0-15-25-output.txt"

rm -rf
"$HOME/isis-database-3/simulations/sim_sim_test_1_2010-04-19-16-52_2010-04-2
0-15-25"

##########################################################################


Comme tu peux le voir il y a la commande "qsub -q qLong toto.pbs"
Qui est peut être le soucis, car le pbs du cluster est paramétré de telle
façon qu'il faut obligatoirement spécifier la classe du job; ce que ne fait
peut être pas ISIS...?

Autre point il y a peut être un soucis avec Java... Est-il nécessaire
d'installer Java sur tous les nœuds du cluster? En fait, le JRE est installé
sur home/bpreuss  qui est partagé par nfs par l'ensemble des machines du
cluster, qui elle n'ont pas Java.
A l'exécution de Java à travers pbs (grâce au toto.pbs envoyé à la main), le
job apparait dans qstat, mais s'arrête tout de suite avec une erreur: 
" /var/spool/pbs/mom_priv/jobs/42244.editr.SC:
/home/bpreuss/jre1.6.0_19/bin/java: /lib/ld-linux.so.2: bad ELF interpreter:
No such file or directory" 
Qui se trouve dans le fichier:
simulation-sim_sim_test_1_2010-04-19-16-52_2010-04-20-15-25-output.txt
Donc Java ne semble pas reconnu par le cluster...


Voilà ou nous en sommes!
Pour le moment on continue par mail car il est difficile à Jérôme de trouver
un créneau avec ses enfants.

Bonne journée.

Bastien













 

-----Message d'origine-----
De : isis-fish-users-bounces at list.isis-fish.org
[mailto:isis-fish-users-bounces at list.isis-fish.org] De la part de Eric
Chatellier
Envoyé : lundi 19 avril 2010 19:49
À : isis-fish-users at list.isis-fish.org
Objet : Re: [Isis-fish-users] Simulation sur Cluster

Le 19/04/2010 09:13, Bastien Preuss a écrit :
>
> Bonjour,
>
Bonjour,

> Une question pour Eric je pense !
>
> Je peux maintenant faire tourner isis sur le cluster (à noter que isis
> est bcp plus fluide sur mon poste windows, que sur la machine d’entrée
> du cluster sous Linux).
>
> Mais il y a un petit soucis :
>
> En fait, on ouvre isis sur la machine d’entrée du cluster puis on
> envoie la simu à distance sur le cluster comme si c’était CAPARMOR, en
> modifiant la configuration. Après avoir appuyer sur « simuler » la
> fenêtre de progression s’ouvre, mais là la simu reste toujours sur «
> préparation du démarrage ». Pour que la simu se lance réellement il
> faut lancer en ligne de commande un fichier créé par isis… La simu
> semble alors se dérouler correctement.
>
> Mais ce qui est bizarre, c’est que l’on ne voit nulle part le Job sur
> le cluster, en fait il semble que isis ne passe pas par pbs qui gère
> les jobs du cluster. Isis créé un fichier .csh, mais ne semble pas le
> communiquer à pbs…
>
> Cela viendrait-il d’un problème dans les paramètres de configuration
> de la liaison avec le cluster (la connexion marche bien quand on fait
> le test)?
>
> Ou autre chose ?
>
C'est déjà pas mal. Je me doutais que cela ne fonctionnerais
pas du premier coup et qu'il y aurait une phase de
tâtonnement pour trouver la bonne configuration.

Voici ce que fait Isis (dans le cas d'une seule simulation) :

/usr/pbs/bin/qsub -m n
/home/<user>/isis-tmp/simulation-xyz-script.seq|tee
/home/user/isis-tmp/simulation-xyz-pbs.id

où :
/home/<user>/isis-tmp est le dossier temporaire où isis met toutes les
données
xyz est l'identifiant de la simulation
simulation-xyz-script.seq est le script pour psb
simulation-xyz-pbs.id est un fichier où est ecrit le numéro du job PSB

Donc:
l'executable /usr/pbs/bin/qsub doit exister (l'emplacement se configure
dans Isis)

Ensuite, la commande totale ne devrait renvoyer aucune erreur.

Sinon, comment lancez vous le job à la main ?

PS: tu peut téléphoner un matin si tu veux, ca sera moins long

-- 
Éric <chatellier at codelutin.com>
Tel: 02 40 50 29 28
http://www.codelutin.com 

_______________________________________________
Isis-fish-users mailing list
Isis-fish-users at list.isis-fish.org
http://list.isis-fish.org/cgi-bin/mailman/listinfo/isis-fish-users





Plus d'informations sur la liste de diffusion Isis-fish-users