[Isis-fish-users] Simulation sur Cluster
Bastien Preuss
Bastien.Preuss at noumea.ird.nc
Mar 20 Avr 07:34:33 CEST 2010
Bonjour Eric,
Donc pour que la simulation tourne bien, nous lançons à la main le script
"toto.pbs" suivant:
#############################################################
#PBS -S /bin/sh
### RAPPEL Lancement sur cluster Nea : "
### qsub -q qLong toto.pbs
### JOB NAME
#PBS -N ISIS
###Number of nodes
#PBS -l nodes=1:ppn=1
#PBS -l walltime=240:00:00
### Merge output error and log files
#PBS -j oe
### Ressources
# This job's working directory :
echo Working Directory is $PBS_O_WORKDIR
cd $PBS_O_WORKDIR
echo Running on host `hostname`
echo Time is `date`
echo Directory is `pwd`
echo This job runs on the following processors :
echo `cat $PBS_NODEFILE`
NPROCS=`wc -l < $PBS_NODEFILE`
echo This job has allocated $NPROCS nodes
echo $HOME
cd "/home/bpreuss/isis-fish-3.3.0.2"
pwd
##source /usr/share/modules/init/csh
##module load java/1.6.0
/home/bpreuss/jre1.6.0_19/bin/java -Xmx2500M -jar isis-fish*.jar --option
launch.ui false --option perform.vcsupdate false --option perform.migration
false --option perform.cron false --simulateRemotelly "sim_sim_test\
1_2010-04-19-16-52_2010-04-20-15-25"
"/home/bpreuss/isis-tmp/simulation-sim_sim_test\
1_2010-04-19-16-52_2010-04-20-15-25-preparation.zip"
"/home/bpreuss/isis-tmp/simulation-sim_sim_test\
1_2010-04-19-16-52_2010-04-20-15-25-result.zip" >&
"/home/bpreuss/isis-tmp/simulation-sim_sim_test_1_2010-04-19-16-52_2010-04-2
0-15-25-output.txt"
rm -rf
"$HOME/isis-database-3/simulations/sim_sim_test_1_2010-04-19-16-52_2010-04-2
0-15-25"
##########################################################################
Comme tu peux le voir il y a la commande "qsub -q qLong toto.pbs"
Qui est peut être le soucis, car le pbs du cluster est paramétré de telle
façon qu'il faut obligatoirement spécifier la classe du job; ce que ne fait
peut être pas ISIS...?
Autre point il y a peut être un soucis avec Java... Est-il nécessaire
d'installer Java sur tous les nœuds du cluster? En fait, le JRE est installé
sur home/bpreuss qui est partagé par nfs par l'ensemble des machines du
cluster, qui elle n'ont pas Java.
A l'exécution de Java à travers pbs (grâce au toto.pbs envoyé à la main), le
job apparait dans qstat, mais s'arrête tout de suite avec une erreur:
" /var/spool/pbs/mom_priv/jobs/42244.editr.SC:
/home/bpreuss/jre1.6.0_19/bin/java: /lib/ld-linux.so.2: bad ELF interpreter:
No such file or directory"
Qui se trouve dans le fichier:
simulation-sim_sim_test_1_2010-04-19-16-52_2010-04-20-15-25-output.txt
Donc Java ne semble pas reconnu par le cluster...
Voilà ou nous en sommes!
Pour le moment on continue par mail car il est difficile à Jérôme de trouver
un créneau avec ses enfants.
Bonne journée.
Bastien
-----Message d'origine-----
De : isis-fish-users-bounces at list.isis-fish.org
[mailto:isis-fish-users-bounces at list.isis-fish.org] De la part de Eric
Chatellier
Envoyé : lundi 19 avril 2010 19:49
À : isis-fish-users at list.isis-fish.org
Objet : Re: [Isis-fish-users] Simulation sur Cluster
Le 19/04/2010 09:13, Bastien Preuss a écrit :
>
> Bonjour,
>
Bonjour,
> Une question pour Eric je pense !
>
> Je peux maintenant faire tourner isis sur le cluster (à noter que isis
> est bcp plus fluide sur mon poste windows, que sur la machine d’entrée
> du cluster sous Linux).
>
> Mais il y a un petit soucis :
>
> En fait, on ouvre isis sur la machine d’entrée du cluster puis on
> envoie la simu à distance sur le cluster comme si c’était CAPARMOR, en
> modifiant la configuration. Après avoir appuyer sur « simuler » la
> fenêtre de progression s’ouvre, mais là la simu reste toujours sur «
> préparation du démarrage ». Pour que la simu se lance réellement il
> faut lancer en ligne de commande un fichier créé par isis… La simu
> semble alors se dérouler correctement.
>
> Mais ce qui est bizarre, c’est que l’on ne voit nulle part le Job sur
> le cluster, en fait il semble que isis ne passe pas par pbs qui gère
> les jobs du cluster. Isis créé un fichier .csh, mais ne semble pas le
> communiquer à pbs…
>
> Cela viendrait-il d’un problème dans les paramètres de configuration
> de la liaison avec le cluster (la connexion marche bien quand on fait
> le test)?
>
> Ou autre chose ?
>
C'est déjà pas mal. Je me doutais que cela ne fonctionnerais
pas du premier coup et qu'il y aurait une phase de
tâtonnement pour trouver la bonne configuration.
Voici ce que fait Isis (dans le cas d'une seule simulation) :
/usr/pbs/bin/qsub -m n
/home/<user>/isis-tmp/simulation-xyz-script.seq|tee
/home/user/isis-tmp/simulation-xyz-pbs.id
où :
/home/<user>/isis-tmp est le dossier temporaire où isis met toutes les
données
xyz est l'identifiant de la simulation
simulation-xyz-script.seq est le script pour psb
simulation-xyz-pbs.id est un fichier où est ecrit le numéro du job PSB
Donc:
l'executable /usr/pbs/bin/qsub doit exister (l'emplacement se configure
dans Isis)
Ensuite, la commande totale ne devrait renvoyer aucune erreur.
Sinon, comment lancez vous le job à la main ?
PS: tu peut téléphoner un matin si tu veux, ca sera moins long
--
Éric <chatellier at codelutin.com>
Tel: 02 40 50 29 28
http://www.codelutin.com
_______________________________________________
Isis-fish-users mailing list
Isis-fish-users at list.isis-fish.org
http://list.isis-fish.org/cgi-bin/mailman/listinfo/isis-fish-users
Plus d'informations sur la liste de diffusion Isis-fish-users