Fork me on GitHub

Outils pour utilisateurs

Outils du site


platforms:contribute:start

Contribuer à la reconnaissance d'une plateforme

Reportez-vous au guide de migration pour commencer à utiliser le nouvel outil Analogist-NG

Attention, cette page contient actuellement des informations obsolètes et sera prochainement mise à jour (9/12/2015)

Pour qu'ezPAARSE puisse analyser une nouvelle plateforme, quatre étapes séparées sont nécessaires. Ces étapes peuvent être réalisées par des personnes différentes :

Les informations propres à la plateforme (données tests, base de connaissance) peuvent être conservées dans un fichier tableur de type excel selon le modèle. Ce fichier de type excel permettra de générer les fichiers csv test et base de connaissance (platform.version.csv et et platform.pkb.csv )

Analyse de la plateforme (Documentaliste)

L'analyse de la plateforme peut être faite par une personne “non informaticienne” mais ayant une bonne connaissance de ce que peut être une URL. Cette analyse doit suivre le modèle de l'analyse d'une plateforme et s'inspirer de l'exemple.

  1. se connecter sur cette plateforme (depuis votre établissement ou en accès distant)
  2. créer une page wiki analogIST décrivant cette plateforme conformément au modèle
  3. énumérer les différents types et formats de ressources de la plateforme (on pourra se limiter aux types et formats reconnaissables par ezPAARSE : Types de ressources et formats de ressources considérés)
  4. pour chaque combinaison de type et format de ressource, compléter la page wiki (à l'aide de l'outil d'analyse d'URL)
    1. noter le type et le format de la ressource
    2. copier/coller l'URL d'un exemple de la ressource tel quel (l'URL reflète le passage par l'ezProxy) de façon à pouvoir y revenir ultérieurement par un simple clic
    3. décomposer le path de l'URL (dans la partie Host, retirer la trace du passage de l'ezProxy)
    4. préciser quels éléments sont attendus lors de la reconnaissance de cette URL
  5. passer au type/format de ressource suivant

Pour l'étape 5, utilisez l'outil d'aide à l'analyse d'URL

Utiliser Trello pour obtenir de l'aide et synchroniser la liste des plateformes analysées

Vous remarquerez que la page qui liste les plateformes analysées demande maintenant quelques secondes pour se charger et s'afficher : le temps que les informations du nouvel espace collaboratif Trello soient rapatriées.

Trello nous permet de vous aider plus efficacement quand vous avez des questions au moment de l'analyse, ou plus tard quand nous créons le parseur correspondant et que nous avons besoin d'informations supplémentaires. Par contre, il ne remplace pas l'analyse à proprement parler qui trouve toujours sa place sur AnalogIST.

La marche à suivre pour commencer l'analyse d'une nouvelle plateforme est donc désormais la suivante :

  1. vous vérifiez sur la liste qu'elle n'est pas déjà entamée par quelqu'un d'autre (sinon, vous pouvez proposer de collaborer)
  2. vous vous connectez sur le tableau Trello (après vous être inscrit(e) si nécessaire)
  3. vous copiez le modèle (que vous trouvez dans la première colonne, tout en bas à gauche) :

et vous glissez la carte ainsi créée dans la deuxième colonne, intitulée “2 - URLs en cours d'analyse (penser à l'annoncer dans ezpaarse-contribute)”

Ces actions seront répercutées dans la liste des plateformes affichées sur AnalogIST !

Préparation du fichier test (Documentaliste+)

Ce fichier de test est destiné à valider le bon fonctionnement du parseur. C'est un fichier CSV formaté de la façon suivante : les colonnes préfixées par in- contiennent les données à envoyer au parseur, celles préfixées par out- contiennent les données que le parseur est supposer identifier.

Notez bien que les parseurs sont indépendants des bases de connaissances. Le fichier de test ne doit donc contenir que des données identifiables dans l'URL ou les éventuels autres éléments fournis au parseur.

  1. créer un fichier dans un tableur (plateforme.version.csv) qui contiendra une ligne par ressource analysée et sera enregistré au format csv
  2. pour chaque combinaison de type et de format de ressource (ex: ARTICLE/HTML), ajouter une ligne au fichier en complétant les colonnes des éléments à analyser (in-) et celles des éléments reconnus (out-)
  3. passer à la ressource suivante

L'écriture du parseur (Codeur)

L'écriture du parseur demande des compétences en programmation, en particulier dans l'écriture des expressions régulières. Pour l'écriture du parseur, il faut choisir un langage de programmation (javascript, php, perl, python, …).

Nous détaillons ce processus pas à pas sur la page parser.

Utilisation du fichier plateforme.version.csv pour la validation du parseur

Chaque parseur doit être testable automatiquement. Pour cela le fichier plateforme.version.csv est utilisé. Si on souhaite lancer le test manuellement, on peut via la commande make test. Voici schématiquement comment le test fonctionne à l'aide de ce fichier :

Exemple de fichier de test :

platform.version.csv
out-issn;out-pid;out-unitid;out-rtype;out-mime;in-url
;val2;;ARTICLE;HTML;http://ma.plateforme.com/path/vers/ressource?param1=val1&param2=val2

Constitution du fichier PKB (Documentaliste+/Codeur)

ezPAARSE utilise des fichiers appelés bases de connaissance dont le nom est de la forme platform_AllTitles.txt. Ce sont des fichiers texte au format KBART et ils sont propres à chaque plateforme. Ils sont facultatifs si le parseur réussi à extraire un identifiant normalisé de type ISSN directement depuis l'URL (les résultats ne comporteront cependant pas de titre).

Ils sont rangés dans une arborescence spécifique ezpaarse/platforms-kb/platform respectant la même sémantique que celle des parseurs.

Les bases de connaissance éditeur sont utilisées pour :

  • faire la correspondance entre les identifiants des plateformes éditeurs (qui peuvent être spécifiques) et des identifiants normalisés (de type ISSN)
  • inclure les titres des ressources consultées dans les résultats

Les détails concernant les PKB figurent sur la page pkb.

platforms/contribute/start.txt · Dernière modification: 2015/12/15 10:26 par porquet