thanks, i'm following your job now. you are using r2i2n2 for your job (for array number 1) http://caparmor-admin2.ifremer.fr/ganglia/?m=load_one&r=hour&s=descending&c=Rack+2&h=r2i2n2&sh=1&hc=4&z=small if the developper from isis-fish want to follow how the job evolve, using top or strace, they need to connect caparmor with your account, then do ssh r2i2n2 with your account. tina Le 07/01/2014 10:30, Loic GASCHE a écrit :
Hi Tina,
I submitted the same job as yesterday using the option you told me to use.
Loïc
Le 07/01/2014 10:10, Tina ODAKA a écrit :
hi loic, can you try to submit same job you've submitted yesterday this morning? (plz use option -q parallel8 -l select=1:ncpus=8 ) i want to verify if you've really using 8 cores; thanks tina
Le 07/01/2014 09:55, Denis Croizé-Fillon a écrit :
-------- Original Message -------- Subject: Re: CAPARMOR - différence entre la réservation cpu et l'utilisation Date: Mon, 06 Jan 2014 17:12:27 +0100 From: Denis Croizé-Fillon <Denis.Croize.Fillon@ifremer.fr> To: Loic GASCHE <Loic.Gasche@ifremer.fr>, isis-fish-devel@list.isis-fish.org
Ok, merci de votre retour. Je verrai avec tina et l'équipe isis-fisch car les processus java utilisent plus d'un coeur et pénalisent les autres utilisateurs
Bonne fin de journée, Denis
On 01/06/14 16:58, Loic GASCHE wrote:
Bonjour,
Lorsque lancé dans la queue "sequentiel" ISIS-Fish utilise habituellement 8 coeurs.
Nous n'utilisons pas les files "parallel" car en fait ISIS fait tourner une simulation par coeur, l'utilisation de beaucoup de coeurs venant du fait que nous faisons de nombreuses simulations en même temps.
Il y a à priori une file spéciale pour ISIS mais elle limite les jobs à 10 minutes, ce qui est très insuffisant pour les simulations que nous faisons tourner actuellement.
Tina m'a donc dit d'utiliser la file "sequentiel", que nous utilisons par ailleurs depuis plusieurs années. J'ai d'ailleurs déjà fait tourner des dizaines de milliers de simulations de cette manière.
Je n'ai pas les compétences techniques pour faire évoluer ISIS afin de pouvoir utiliser les queues "parallel", mais je transmets votre mail à la liste des développeurs afin de voir quelles seraient les solutions.
Loïc
Le 06/01/2014 16:36, Denis Croizé-Fillon a écrit :
Bonjour,
j'observe pour vos jobs 6019446[0] et 6019446[1] une différence entre la réservation CPU et l'utilisation qui est faite.
Vous lancez ces processus sur sequentiel correspondant à un unique coeur utilisé. La commande qstat -f 6019446\[0\] montre alors ce que PBS réserve : exec_vnode = (r5i2n8:mem=2867200kb:ncpus=1)
Pourtant, localement, le processus utilise plus qu'un coeur (% cpu supérieur à 100): PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1990 lgasche 20 0 2562m 1.6g 406m S 255 6.7 213:43.96 java
1994 lgasche 20 0 2603m 2.3g 1.1g S 164 9.8 219:46.86 java
Votre processus java apparait faire du multithreading, donc utilisant plus d'un coeur. Toutefois, le noeud de calcul est également utilisé par d'autres processus ayant fait la demande des coeurs disponibles. Ces processus n'ont toutefois pas accès à toutes les ressources demandées puisque utilisées par vos processus.
Il vous faut donc, soit limiter votre utilisation en nombre de coeur à 1 comme ce qui est réservé ou, demander plus de coeurs et soumettre sur une file comme parallel8 parallel16 ...
Merci de faire évoluer vos scripts en ce sens et de relancer vos jobs pour libérer les ressources des autres utilisateurs. Merci
Denis
-- =================================================== Tina Odaka RIC - IDM - IMN - IFREMER Pôle de Calcul Intensif pour la Mer (PCIM) Tel: +33 (0)2 98 22 41 85 Fax: +33 (0)2 98 22 45 46 email: Tina.Odaka@ifremer.fr http://www.ifremer.fr/pcim ==================================================