wiki:tutopathenaanalysis

Soumission d'un job d'analyse athena/DQ2 avec pathena

Ce tutoriel décrit comment executer un job d'analyse en utilisant:

  • pathena
  • Le software d'ATLAS athena
  • Un package d'analyse à compiler (Merci à Annick Lleres).
  • Des fichiers de dataset obtenus avec DQ2.

Pour lancer un job, vous avez besoin d'un fichier

  • L'archive du package SingleTopDPDMaker.tgz contenant le package d'analyse à compiler.
    Le package fourni produit des DPD à partir d'AOD.

Prérequis

Le fichier joboptions

sh-3.00$ cd /atlas/lambert/testarea/14.2.21/SingleTopDPDMaker/run
sh-3.00$ ls
dashboard.log            gangascript.py   log_debug            PoolFileCatalog.xml.BAK       SingleTopD3PD.root
exeSingleTopDPDMaker.py  log_athena_test  PoolFileCatalog.xml  runSingleTopDPDMaker_FDR2.py

Placez vous dans le répertoire run. Vous devez y trouver les fichiers joboptions runSingleTopDPDMaker_FDR2.py et exeSingleTopDPDMaker.py
Vous n'avez rien à modifier, pathena analyse vos job options automatiquement.

Initialisation de l'environnement d'exécution dans pathena

Une fois votre package pathena obtenu de CVS et compilé, vous n'avez plus qu'à faire un source du fichier setup.sh.
Bien sûr vous devez auparavant initialiser l'environnement athena (voir prérequis)

sh-3.00$ source ~/testarea/14.2.21/PhysicsAnalysis/DistributedAnalysis/PandaTools/cmt/setup.sh

Lancer le job

Pour lancer votre job vous devez taper une commande où vous précisez quelles données vous mettez en entrée et quelles données vous voulez produire en sortie.

sh-3.00$ pathena --inDS fdr08_run2.0052280.physics_Egamma.merge.AOD.o3_f8_m10 --outDS user08.FabianLambert.panda.0052280.20081112 --site IN2P3-LPSC_DATADISK --split 6  --nEventsPerJob 100 runSingleTopDPDMaker_FDR2.py
extracting run configuration
ConfigExtractor > Input=POOL
ConfigExtractor > Output=THIST AANT
archive sources
archive InstallArea
post sources/jobO
query files in dataset:fdr08_run2.0052280.physics_Egamma.merge.AOD.o3_f8_m10
Could not get the # of events from MetaDB for fdr08_run2.0052280.physics_Egamma.merge.AOD.o3_f8_m10 
Enter the number of events per file : 100
submit
===================
 JobID  : 124
 Status : 0
  > build
    PandaID=19093559
  > run
    PandaID=19093560-19093565

Cette ligne d'instruction mérite quelques explications :

  • --inDS : Le LDN du dataset de donnée en entrée de votre job.
  • --outDS : Le nom du dataset de sortie dans lequel pathena va stocker vos fichiers. Attention, la nomenclature impose que vos dataset commence par user08.
  • --site : Le nom du site ou se trouve les données, afin que votre job soit envoyé sur le CE associé.
  • --split : Le nombre de sujobs a faire tourner. Ici 6 car le dataset à analyser contient 6 fichiers, pathena va donc "répartir" les taches d'analyse sur plusieurs WN
  • --nEventsPerJob : Le nombre d'évenements à traiter au maximum par subjobs

Pour obtenir l'ensemble des options disponibles, tapez pathena --help ou regardez cette page.

Suivre l'état d'avancement du job

Quand le job est soumis, pathena lui affecte un PandaID. Dans notre cas nous avons plusieurs PandaID car plusieurs sous-job on été lancé.
Le premier identifiant (PandaID=19093559) correspond au "pilot job". C'est un job qui va compiler votre package d'analyse et vérifier qu'il n'y a pas d'erreurs.
Si ce premier job s'exécute sans erreur, vos jobs d'analyse seront ensuite lancés, ils sont identifiés par la plage de PandaID qui suit (PandaID=19093560-19093565).
Une fois le job lancé, vous pouvez suivre son état d'avancement sur la page de Panda

De cette page, vous pouvez accéder aux informations sur votre job en cours de plusieurs façon :

  • En tapant le PandaID dans le (petit) champ texte "job" à gauche
  • En cliquant sur List Users en haut a droite, puis en trouvant votre nom dans la liste,et enfin en cliquant sur votre nom.

Vous devez alors obtenir une page ou vous pouvez suivre l'état d'avancement de vos jobs.
Dans tous les cas, quand votre job se termine, vous devez recevoir un mail envoyé par le système Panda vous indiquant son statut final.

Récuperer les données

Quand le statut du job est finished (i.e. tous les subjobs sont finished) vous pouvez récupérer le dataset crée avec dq2-get

sh-3.00$ dq2-list-dataset "user08.FabianLambert.panda.0052280.20081112"
user08.FabianLambert.panda.0052280.20081112
sh-3.00$ dq2-get user08.FabianLambert.panda.0052280.20081112
Querying DQ2 central catalogues to resolve datasetname user08.FabianLambert.panda.0052280.20081112
Datasets found: 1
user08.FabianLambert.panda.0052280.20081112: Querying DQ2 central catalogues for replicas...
Querying DQ2 central catalogues for files in dataset...
user08.FabianLambert.panda.0052280.20081112: Using site IN2P3-LPSC_USERDISK
user08.FabianLambert.panda.0052280.20081112: Querying local file catalogue of site IN2P3-LPSC_USERDISK...
... 

up

Last modified 15 years ago Last modified on 08/06/2009 11:53:35

Attachments (3)

Download all attachments as: .zip

Note: See TracWiki for help on using the wiki.