Le 13/05/2014 09:25, Audric VIGIER a écrit :
Le 12/05/2014 20:03, Eric Chatellier a écrit :
Bonsoir,
Gros souci avec Caparmor avec un plan de simulation (en PJ). Lorsque j'ai lancé ce plan sur Caparmor, les simulations se sont lancées de manière indépendante mais sans limite : une à une, des simulations se sont lancées sur Caparmor, sans attendre que l'autre soit terminée, jusqu'à ce que plus de 200 simus aient été lancées, ce qui est bien plus que le nombre de coeurs auquel nous avons droit. Là, j'ai eu des centaines de messages d'erreur, plantage, et j'ai dû redémarrer(j'espère vraiment qu'aucun autre utilisateur n'avait de choses importantes en cours sur la machine)(je n'ai pas le debug comme j'ai relancé ISIS après redémarrage). C'est le fonctionnement normal. Si elles sont indépendantes, il peut les lancer toutes en même temps sur caparmor. Par contre, faut pas le faire, sinon Tina va pas être contente ;)
Lorsque je fais la même chose en local, une à une, autant de simus que de coeurs dispos se lancent, se réalisent en même temps, se terminent, puis le même nombre de simus va se lancer, etc.C'est exactement ce qu'on veut. C'est pareil, sauf qu'en local il les lances et les execute toutes en même tant et est limité par le nombre de processeur.
Donc le problème ne vient pas de mes scripts... Je suis contraint, pour utiliser ces plans sur caparmor, de le faire en dépendant (lorque je déclare ma classe : "[....] extends SimulationPlan"), ce qui nous fait perdre tout l'intérêt de la parallélisation puisqu'il faut attendre qu'une simu soit terminée pour lancer l'autre. Une solution pour utiliser ce plan de simus sur Caparmor avec des simus indépendantes?
Il n'y a pas vraiment de problème avec cette approche. Tu peux lancer 2000 simulations il va les lancer sur caparmor, mais caparmor les fera 16 par 16. Le seul problème est que qstat va lister 1984 jobs en attente et ca va gêner les admins.
Actuellement, je n'ai pas de solution. Les simulations sont indépendantes mais pas identiques, et on ne pourra pas les lier dans un multijobs.
Bonjour,
Donc en attendant, il faudrait que je les fasse tourner en indépendant en local ou en dépendant sur Caparmor. C'est pas ce qui m'arrange le plus.... de plus en dépendant sur Caparmor j'ai encore un autre problème. Au bout de très peu de simulations (au maximum 20 sur les 1000 prévues), le plan s'arrête. Je l'ai constaté sur de nombreux plans de simulations, à chaque fois pour la même raison (en fin de message; je t'épargne le debug de plusieurs 100aines de ko) : on ne peut pas lire le parameter.properties. Ce qui m'étonne, c'est que le fichier existe, est lisible et est complet (identique aux parameters.properties précédents, voir en PJ). Et quand je refais le même plan en local, ça marche sans souci. Tu peux reproduire l'erreur avec les PJ que j'ai envoyé dans mon dernier message hier soir.
J'ai reprodui l'erreur de plan avec simulations dépendantes qui ne marche pas ce matin sur Caparmor. Le nom du plan contient "3Param10ans10FOP1", il s'est planté à l'itération 8. Je te joint le debug entier, finalement. Ici aussi, le parameters.properties existe et est complet.
@+
Audric
ERROR [pool-3-thread-5] (SimulationPlanPrepareJob.java:257) finished - Stop simulation plan, because can't call afterSimulation correctly on plan simulationplans.SensitivityCapturabilite3Param10ansP1 fr.ifremer.isisfish.IsisFishRuntimeException: Impossible de lire les paramètres du fichier : /media/disk_externe/avigier/isis-fish-4beta/isis-database/simulations/sim_LHS3Param10ansP1_2014-05-12-18-23_4/parameters.properties
at fr.ifremer.isisfish.datastore.SimulationStorage.getParameter(SimulationStorage.java:428)
at fr.ifremer.isisfish.datastore.SimulationStorage.getResultStorage(SimulationStorage.java:510)
at simulationplans.SensitivityCapturabilite3Param10ansP1.afterSimulation(SensitivityCapturabilite3Param10ansP1.java:179)
at fr.ifremer.isisfish.simulator.launcher.SimulationPlanPrepareJob.finished(SimulationPlanPrepareJob.java:254)
at fr.ifremer.isisfish.simulator.launcher.SimulationJob.run(SimulationJob.java:252)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)
at java.lang.Thread.run(Thread.java:722) Caused by: java.io.FileNotFoundException: /media/disk_externe/avigier/isis-fish-4beta/isis-database/simulations/sim_LHS3Param10ansP1_2014-05-12-18-23_4/parameters.properties (Aucun fichier ou dossier de ce type) at java.io.FileInputStream.open(Native Method) at java.io.FileInputStream.<init>(FileInputStream.java:138) at fr.ifremer.isisfish.datastore.SimulationStorage.getParameter(SimulationStorage.java:423)
... 7 more
_______________________________________________ Isis-fish-devel mailing list Isis-fish-devel@list.isis-fish.org http://list.isis-fish.org/cgi-bin/mailman/listinfo/isis-fish-devel