Ok, merci de votre retour. Je verrai avec tina et l'équipe isis-fisch car les processus java utilisent plus d'un coeur et pénalisent les autres utilisateurs Bonne fin de journée, Denis On 01/06/14 16:58, Loic GASCHE wrote:
Bonjour,
Lorsque lancé dans la queue "sequentiel" ISIS-Fish utilise habituellement 8 coeurs.
Nous n'utilisons pas les files "parallel" car en fait ISIS fait tourner une simulation par coeur, l'utilisation de beaucoup de coeurs venant du fait que nous faisons de nombreuses simulations en même temps.
Il y a à priori une file spéciale pour ISIS mais elle limite les jobs à 10 minutes, ce qui est très insuffisant pour les simulations que nous faisons tourner actuellement.
Tina m'a donc dit d'utiliser la file "sequentiel", que nous utilisons par ailleurs depuis plusieurs années. J'ai d'ailleurs déjà fait tourner des dizaines de milliers de simulations de cette manière.
Je n'ai pas les compétences techniques pour faire évoluer ISIS afin de pouvoir utiliser les queues "parallel", mais je transmets votre mail à la liste des développeurs afin de voir quelles seraient les solutions.
Loïc
Le 06/01/2014 16:36, Denis Croizé-Fillon a écrit :
Bonjour,
j'observe pour vos jobs 6019446[0] et 6019446[1] une différence entre la réservation CPU et l'utilisation qui est faite.
Vous lancez ces processus sur sequentiel correspondant à un unique coeur utilisé. La commande qstat -f 6019446\[0\] montre alors ce que PBS réserve : exec_vnode = (r5i2n8:mem=2867200kb:ncpus=1)
Pourtant, localement, le processus utilise plus qu'un coeur (% cpu supérieur à 100): PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1990 lgasche 20 0 2562m 1.6g 406m S 255 6.7 213:43.96 java
1994 lgasche 20 0 2603m 2.3g 1.1g S 164 9.8 219:46.86 java
Votre processus java apparait faire du multithreading, donc utilisant plus d'un coeur. Toutefois, le noeud de calcul est également utilisé par d'autres processus ayant fait la demande des coeurs disponibles. Ces processus n'ont toutefois pas accès à toutes les ressources demandées puisque utilisées par vos processus.
Il vous faut donc, soit limiter votre utilisation en nombre de coeur à 1 comme ce qui est réservé ou, demander plus de coeurs et soumettre sur une file comme parallel8 parallel16 ...
Merci de faire évoluer vos scripts en ce sens et de relancer vos jobs pour libérer les ressources des autres utilisateurs. Merci
Denis