Référentiels

Le projet ISIDORE propose un accès unifié aux données de la recherche en Sciences Humaines et Sociales.
Pour permettre cet accès aux données de la recherche, ISIDORE effectue un moissonnage ciblé des données produites par la communauté scientifique.
Après cette phase de « captation » des données, ISIDORE effectue différents traitements permettant d'enrichir les données collectées.

Comment sont fabriqués ces enrichissements ?

ISIDORE utilise des référentiels pour enrichir les données : le référentiel HAL, l'index des catégories thématiques d'Open Edition, le vocabulaire Rameau, les thésaurus Pactols, GEMET, GéoEthno et enfin le référentiel géographique Geonames. Plusieurs enrichissements sont effectués dont la « catégorisation » des données qui permet de relier les données à une discipline ou thématique scientifique et une adjonction de termes issus des différents référentiels. Pour réaliser ces enrichissements, ISIDORE exploite les métadonnées des ressources ainsi que le texte intégral, en analysant ces données afin de les relier aux référentiels. Les éléments présents dans les métadonnées ou le texte intégral sont comparés aux entrées des référentiels par le biais d'un algorithme fondé sur une analyse morphologique des termes. Si une équivalence s'effectue entre un terme issu de la ressource et une entrée de l'un des référentiels alors la ressource sera reliée à ladite entrée du référentiel.

Disciplines HAL (MORESS)

Les disciplines scientifiques accessibles dans HAL pour les SHS sont issues d’un référentiel européen, European University Association (EUA) construit dans le cadre du projet MORESS – Mapping of Research in European Social Sciences and Humanities.
Il s'agit d'une nomenclature simple et lisible par les chercheurs, destinée à améliorer l'accès à l'information sur la recherche en sciences sociales et humaines. Ce référentiel est disponible à l'URL https://api.archives-ouvertes.fr/docs/ref

Catégories OpenEdition

L’index OpenEdition est composé de catégories thématiques couvrant l’ensemble des lettres et des sciences humaines et sociales. Il est développé dans le cadre des plateformes d’édition électronique et de communication scientifique du portail OpenEdition. D’abord utilisé et enrichi pour les annonces d’événements scientifiques sur Calenda, calendrier des lettres et des sciences humaines et sociales, il est désormais utilisé par les revues, les collections de livres et les carnets de recherche de OpenEdition Journals et d’Hypothèses. Conçu pour représenter la richesse des thématiques et objets de la recherche en SHS dans un seul index hiérarchique, il est divisé en quatre grandes catégories : sociétés, esprit et langage, périodes, espaces. L’index OpenEdition est disponible ici : https://calenda.org/subjects

GEMET

GEMET est un thésaurus multilingue sur le thème de l'environnement, servant d'outil d'indexation, de recherche et de contrôle pour le Centre thématique européen sur catalogue des sources de données (ETC / CDS) et l'Agence européenne pour l'environnement (AEE).
GEMET a été conçu comme un thésaurus «général», qui vise à définir un langage commun, constituant un noyau terminologique sur l'environnement.

GeoEthno

GeoEthno est un thésaurus géographique conçu pour l'indexation géographique de documents dans le domaine de l'ethnologie. Actuellement en développement à la bibliothèque Eric-de-Dampierre du Laboratoire d'ethnologie et de sociologie comparative, il sert à l'indexation et à l'interrogation de la base de données de la bibliothèque et plus largement de la base de données du Réseau ethnologie.
Sa couverture est irrégulière et non exhaustive. Ce thésaurus a été construit à partir du corpus de mots-clés géographiques accumulés depuis l'informatisation de la bibliothèque en 1985, qui comprenait environ 2000 termes. Le corpus a été nettoyé et enrichi à la suite d'un travail sur des atlas et des listes de références. Simple liste de mots-clés à l'origine, il a été organisé en liste structurée grâce à la création d'une DTD (Document Type Definition - Définition de Type de Document). Il comporte environ 15 000 termes. Il est construit autour de la liste des noms de pays et territoires de l'ISO (ISO 3166-1:1997 : Codes pour la représentation des noms de pays et de leurs subdivisions. Partie 1, Codes Pays - Liste en français ) et du découpage des régions macro-géographiques de la Division des Statistiques de l'ONU (Classification"m49").

GeoNames

La base de données géographique GeoNames est disponible en téléchargement gratuitement sous une licence Creative Commons. Il contient plus de 10 millions de noms géographiques et compte plus de 8 millions de caractéristiques uniques 2,8 millions de lieux habités et 5,5 millions d'autres toponymes. Les données sont également accessibles via des webservices.
GeoNames intègre les données géographiques telles que les noms de lieux dans différentes langues. Toutes les coordonnées lat / long sont en WGS84 (Système géodésique mondial 1984). Les utilisateurs peuvent éditer manuellement, corriger et ajouter de nouveaux lieux à l'aide d'une interface wiki conviviale.

PACTOLS

Les PACTOLS (acronyme de Peuples, Anthroponymes, Chronologie, Toponymes, Œuvres, Lieux et Sujets) sont un thesaurus spécialisé en archéologie et en sciences de l’Antiquité. L’archéologie s’entend depuis la Préhistoire jusqu’à deuxième Guerre mondiale, et inclut toutes les sciences nécessaires à l’étude et la conservation de ses objets : paléontologie humaine, sciences de la nature, physique et chimie, etc. L’autre domaine concerné par les PACTOLS sont les sciences de l’Antiquité : depuis l’écriture jusqu’à l’an Mil et sous tous ses aspects.
Les PACTOLS sont un thesaurus poly-hiérarchique composé de six micro-thesaurus, multilingue (base française traduite en anglais, allemand, espagnol et italien), évolutif et autonome.
Dynamique et évolutif car thésaurus continuellement enrichi et mis à jour « au fil de l’eau » : la terminologie reflète l’évolution de la recherche et des centres participants au réseau. Il est géré sémantiquement par le réseau FRANTIQ (GDS 3378 de l’InSHS du CNRS). Quand de nouvelles équipes adhèrent à la Fédération FRANTIQ, leurs thématiques sont intégrées dans le thesaurus. Les nouveaux termes sont validés par des chercheurs, experts du domaine.
Autonome : l’informaticien de FRANTIQ a créé un logiciel de gestion et de recherche documentaire (LGRD) avec les outils libres. Il est autonome et peut être importé dans plusieurs applications (archives de la Maison archéologie et Ethnologie, revue AdlFI « Archéologie de la France Informations », etc.). Cette application est interopérable car exportable en SKOS, grâce à un financement du TGE Adonis.
Le thesaurus est accessible sous sa forme OPAC ; le logiciel et les PACTOLS font l’objet de licence en creative commons. Pour les lecteurs habitués au papier, les listes hiérarchiques des PACTOLS sont téléchargeables depuis le site de FRANTIQ, après inscription sur le site.
Le logiciel de gestion et de recherche documentaire (LGRD) est OpenTheso qui suit la norme ISO 25964-1:2011.

La version actuelle d'OpenTheso se compose de deux parties :

  • La partie Professionnelle, elle permet de gérer des thésaurus multilingues et elle est écrite en java en mode client-serveur.
  • La partie Opac, elle permet de consulter les thésaurus via internet et elle est écrite en JSP.

RAMEAU

Le référentiel RAMEAU (Répertoire d'autorité-matière encyclopédique et alphabétique unifié, source : Bibliothèque nationale de France) est un langage d'indexation matière qui couvre tous les domaines du savoir et s'applique à tous types de documents sur tous types de supports. Ce langage documentaire est utilisé, en France, par la Bibliothèque nationale de France, les bibliothèques universitaires, ainsi que de nombreuses bibliothèques de lecture publique ou de recherche.
Le noyau des notices d'autorité RAMEAU est formé de noms communs (environ 100.000) et de noms géographiques (environ 50.000). Il s'agit d'un vocabulaire contrôlé et hiérarchisé, qui associe les thèmes par relations sémantiques (termes génériques/spécifiques/associés)
Pour en savoir plus : rameau.bnf.fr
Les concepts de RAMEAU ont été convertis dans le langage RDF SKOS, dans le cadre du projet européen TELplus. Chaque concept, désigné par une URI pérenne, est muni de libellés (préférés ou alternatifs), de diverses notes, mais aussi de liens sémantiques vers d'autres concepts RAMEAU (concepts génériques, concepts associés) et vers des référentiels extérieurs (LCSH, DNB). Ce référentiel est maintenu à jour sur le site data.bnf.fr.

Pour en savoir plus : data.bnf.fr/semanticweb

LCSH

Le référentiel Library of Congress Subject Headings (LCSH) a été activement maintenu depuis 1898 pour cataloguer les documents détenus à la Bibliothèque du Congrès. En vertu du catalogage coopératif d'autres bibliothèques des États-Unis utilisent aussi LCSH pour fournir un accès par sujets à leurs collections. De plus LCSH est utilisé internationalement, souvent pour de la traduction. LCSH inclut toutes les vedettes matières de la Bibliothèque du Congrès, des subdivisions mobiles (topique et forme), des rubriques (genre/forme), des rubriques spécifiques pour lesquelles des notices d'autorité ont été créées. Le contenu inclut quelques vedettes de noms (personne et organisation), comme William Shakespeare, Jésus Christ, l'Université de Harvard et des rubriques géographiques ajoutées à LCSH, nécessaires pour établir des subdivisions, pour fournir un modèle pratique à l'établissement de ces subdivisions, ou pour fournir une structure de référence pour les autres termes. Ce contenu s'étend au-delà des « livres rouges » de la Library Of Congress avec l'inclusion des chaînes de validation.

BNE

Les données proviennent des catalogues bibliographiques et des autorités de la Bibliothèque Nationale de l'Espagne. Les données correspondant à certains éléments (auteurs, sujets, oeuvres...) sont enrichies par des liens vers leurs équivalents dans d'autres sources de données. Pour les auteurs, des liens sont fournis, si disponibles, avec la Library of Congress, la Bibliothèque Nationale d' Allemagne, la Bibliothèque Nationale de France, le Sudoc, la Bibliothèque Nationale de la Suède, VIAF et ISNI. Les notices d'autorités matières, géographiques et genre/forme sont liées à leurs équivalents de la Library of Congress. ISIDORE utilise uniquement les autorités sujets de la Bibliothèque Nationales d'Espagne disponibles en SKOS.

ArchiRès

Le thésaurus ArchiRès a été élaboré par le réseau documentaire des écoles d’architecture. Il constitue un outil de travail pour les indexeurs (documentalistes, bibliothécaires) et pour les usagers des centres de documentation en architecture. Il permet une indexation globale et homogène de l’information reçue. Il permet également de retrouver des références dans le portail ArchiRès qui donne accès à un catalogue de recherche documentaire commun aux bibliothèques d’écoles nationales supérieures d’architecture et de paysage du ministère de la Culture, avec à ce jour 400 000 notices bibliographiques, 200 titres de revues spécialisées dépouillées. Simple liste de mots-clés à l’origine, il a été organisé en thésaurus structuré à partir de 2006. Outil vivant et évolutif, le thésaurus ArchiRès s’enrichit continuellement au fil des années grâce au travail d’une commission composée de documentalistes du réseau des écoles d’architecture et chargée de sa mise à jour. Sa terminologie reflète donc l’évolution des différents domaines qui constituent l’enseignement de l’architecture. Il réunit à l’heure actuelle 2290 termes préférentiels et 1366 termes non préférentiels, soit un total de 3656 termes. Une version bilingue en anglais est prévue très prochainement. Le thésaurus est géré sur l’application GINCO (Gestion Informatisée de Nomenclatures Collaboratives et Ouverte) développée par le Ministère de la Culture et qui permet la conception et la gestion au fil de l’eau de listes d’autorités et de thésaurus en s’appuyant sur les normes et standards les plus récents : la norme ISO 25964 et le langage SKOS.