Le référentiel TAXREF
Le Muséum National d’Histoire Naturelle (MNHN) édite périodiquement différents référentiels qui permettent de partager des identifiants communs entre les organismes s’intéressant à la biodiversité. TAXREF est le référentiel des taxons, autrement dit des espèces végétales et animales. La codification qu’il définit permet d’exporter les observations collectées sur un site Biodiv dans un standard et selon des conventions qui soient compréhensibles d’autres organismes. Ces mêmes conventions permettent d’importer des observations externes.
Obtention de TAXREF
TAXREF n’est pas fourni avec Biodiv : il est nécessaire de s’enregistrer auprès du MNHM pour pouvoir le télécharger. L’enregistrement s’effectue en créant un compte sur le site de l’inventaire national du patrimoine naturel : https://inpn.mnhn.fr/. [1]
Préparation des fichiers du référentiel
TAXREF se présente sous la forme d’un gros fichier CSV qui doit être découpé en fragments au moyen d’un traitement préparatoire effectué en dehors du site Biodiv. Il s’agit de découper ce fichier en fragments de 2000 lignes chacun environ [2], en préservant la structure de lignes présente dans le CSV et en répétant la ligne d’entête dans chaque fragment.
On pourra pour cela utiliser le programme TextFileSplitter, disponible en document joint. Les paramètres sont à sélectionner selon l’illustration ci-dessous en fonction du nom de fichier et du répertoire de destination.
Chargement du référentiel sur le site
Pour l’exemple ci-dessous on est parti du fichier TAXREFv12.txt, qui a généré les fragments TAXREFv12-1.txt, TAXREFv12-2.txt, etc. Ces fragments ont été placés, par chargement FTP, dans le répertoire data/taxref-12 du site.
Configurer l’indexation TAXREF
Une fois les données de TAXREF installées sur le site Biodiv, il est nécessaire de paramétrer Biodiv pour la lecture des fichiers du référentiel. L’accès à ce paramétrage se fait via la configuration de Biodiv.
On indiquera dans un premier temps :
- la version du référentiel obtenue depuis MNHN ;
- le chemin d’accès aux fichiers fragments, en remplaçant le numéro du fragment par
%d; - le nombre de fragments obtenus dans la phase de préparation ;
- un nombre de lignes à lire lors d’une itération de l’indexation.
Une seconde partie du formulaire permet d’indiquer où trouver les colonnes significatives dans chaque fichier. Chaque fragment comporte une première ligne donnant les noms des colonnes. Les index à indiquer sont les numéros de colonne des champs correspondants dans le fichier (la première colonne est numérotée 0).
Enfin l’URL de taxon est utilisé pour construire l’accès à une fiche décrivant le taxon correspondant sur le site MNHN de l’inventaire national du patrimoine naturel. Cette valeur ne doit pas être modifiée.
Depuis la 4.0, du fait du changement de politique du Muséum, une version de TAXREF est disponible au téléchargement depuis ce site, sous une forme directement exploitable par Biodiv, c’est à dire ayant déjà subi le découpage préparatoire décrit ci-dessus. La structure du référentiel pouvant changer d’une version à l’autre, un fichier config.txt est fourni dans le téléchargement : il indique quelles valeurs utiliser pour le paramétrage.
Exécution de l’indexation
Une fois le système paramétré, l’indexation s’enclenche grâce à un processus tournant en tâche de fond sur le site. Ce processus lit, d’itération en itération, chacun des fragments du référentiel et tente d’identifier dans la base les fiches espèces correspondantes.
La progression de l’indexation peut être suivie sur la page spip.php?page=taxrefstats accessible aux administrateurs depuis l’espace public et le menu "Autres actions".
Cette page indique la progression de l’indexation en cours. En effet, une fois le référentiel TAXREF entièrement balayé, l’indexation reprend, afin de tenir compte des nouvelles fiches espèce qui pourraient avoir été créées entre temps.
Outre la progression, la page signale également les fiches actuellement sans taxon.
On trouve aussi les fiches dont la classification a évolué dans le temps. Cette évolution peut avoir deux causes :
- un changement de nom latin sur la page du site
- une évolution de la classification TAXREF.
Limitations
L’indexation TAXREF pourra ne pas fonctionner pour une fiche espèce dans un des cas suivants :
- Espèce absente du référentiel : ceci se produit pour des espèces importées qui ne figurent pas au catalogue national (TAXREF ne s’intéresse qu’aux espèces connues en France)
- Nom latin incorrect (voir les recommandations).
Usage de l’API TAXREF
Avec la 4.3, l’usage de TAXREF est étendu, via l’interface programmatique proposée par le Muséum. Dans la pratique, une fois que le taxon correspondant à la fiche espèce a été identifié par l’indexation, la référence de ce taxon est utilisée dans l’interface pour accéder à d’autres informations proposées par le muséum. Ces informations incluent :
- des liens vers les pages d’autres organismes, concernant le même taxon
- des statuts de protection au titre de diverses listes rouges
La liste des organismes et celle des statuts sont modifiables par un administrateur.
Les liens et les informations de statut récoltés via l’interface sont affichés [3] sous le lien menant à la page INPN consacrée au taxon.
Remarques:
D’une version à l’autre de TAXREF, les index des colonnes peuvent changer. On vérifiera donc systématiquement leurs valeurs à tout changement de version.
Notes:
[1] La politique du Muséum ayant évolué à ce sujet, et pour plus de commodité, une version de TAXREF est disponible ici au téléchargement. Cette version a déjà subi la préparation décrite dans cet article.
[2] Cette valeur de 2000 est recommandée pour des raisons de performance à la lecture des fichiers résultants.
[3] L’affichage de ces informations dépend du contenu et de la disponibilité des serveurs de l’INPN au moment de l’affichage de la page. Le site Biodiv n’a aucun contrôle sur la disponibilité de ces informations. En particulier, en cas de non disponibilité des serveurs INPN, aucune information ne s’affichera, sans que cette absence perturbe l’affichage de la fiche espèce.
