Aller au contenu principal

Métadonnées

Les métadonnées sont des « données sur les données ».

Les métadonnées sont utilisées pour stocker des informations sur les actifs de données stockées dans le moteur de connaissances GBADs. Nous nous efforçons que les métadonnées soient ÉQUITABLES (Trouvables, Accessibles, Interopérables et Réutilisables).

De plus, nous collectons des métadonnées sur les processus d'ingestion de données dans le moteur de connaissances pour garantir que tout le traçage des données est suivi.

Schéma de métadonnées

"Un schéma de métadonnées est un ensemble de règles sur les types de déclarations sujet-prédicat-objet que l'on est autorisé à faire et comment on est autorisé à les faire." - Jeffery Pomerantz

Une instruction sujet-prédicat-objet consiste en :

  • Sujet = la chose décrite
  • Objet = la chose décrivant le sujet
  • Prédicat = relation entre le sujet et l'objet

Par exemple:

  • Sujet = ensemble de données FAOSTAT QCL
  • Objet = FAO
  • Prédicat = créateur

Dans cette déclaration sujet-prédicat-objet, la FAO est le créateur de l'ensemble de données FAOSTAT QCL.

Sur la base de ce modèle, nous pouvons créer un schéma de métadonnées qui définit les prédicats (également appelés éléments) que nous aimerions utiliser pour décrire une ressource. Vocabulaires de métadonnées tels que Dublin Core, schema.org, [PROV-DM](https://www.w3 .org/TR/prov-dm/) et DCAT , fournissent des éléments de métadonnées qui peuvent être utilisés pour décrire les données. Il n’existe pas de solution universelle en matière de métadonnées. Il existe plusieurs ensembles d'éléments de métadonnées standard, car ce que vous inclurez dans les métadonnées dépend de votre cas d'utilisation.

Nous avons sélectionné des éléments de métadonnées de schema.org et PROV-DM pour décrire les données et tracer le lignage des données dans le moteur de connaissances (voir la figure ci-dessous).

![Modèle de métadonnées](./images/metadata Model.drawio.png)

Schéma d'encodage

Chaque élément de métadonnées doit avoir des instructions sur les valeurs attendues pour chaque élément. Par exemple, il existe de nombreuses façons différentes de spécifier une date : 04/01/23 peut signifier le 4 janvier 2023 ou le 1er avril 2023. Par conséquent, toutes les valeurs d'un élément spécifiant une date doivent utiliser [ISO-8601](https : //www.iso.org/iso-8601-date-and-time-format.html) pour garantir que toutes les dates sont formatées de manière standard.

Le schéma de codage de chaque élément de métadonnées utilisé dans le métadataModel se trouve ci-dessous :

ÉlémentSchéma de codageType attendu
nomtexte librestr
codeRepositorylien vers le dépôt GitHubstr
runtimePlatformnom du langage de programmation ou de la plate-forme utilisée lors de l'exécution (nécessite un vocabulaire contrôlé)str
dateCreatedISO-8601dateheure
startTimeISO-8601dateheure
endTimeISO-8601dateheure
prov:typeVocabulaire contrôlé à construire pour le cas d'utilisation (c'est-à-dire ingestionEvent, dataCleaning etc.)str
descriptiontexte librestr
urlURLstr
identifiant ​​URL, doi ou uristr
licenceURLstr
temporalCoverageISO-8601dateheure
créateurtexte librestr
inDefinedTermSetURLstr
termCodecode à partir d'un ensemble de termes définisstr
LieuGéoNomsstr
contentSizeTaille du fichier en mégaoctetsflotter
fileFormatFormat de fichier. L'un des : csv, json, dbtable etc. (vocabulaire contrôlé requis)str
contentUrlURLURL
uploadDateISO-8601dateheure

Décision nécessaire :

Actuellement, les mots-clés pour les métadonnées sont créés en extrayant des termes (comme les espèces) à partir d'ensembles de données.

Un vocabulaire contrôlé doit être créé pour lier les mots-clés. Nous avons commencé à le faire en collectant toutes les classifications et définitions d'espèces à partir de sources de données, mais les synonymes n'ont pas encore été identifiés.


Vocabulaires et ontologies

Les vocabulaires et ontologies préexistants seront consultés, affinés, comparés et étendus pour créer un vocabulaire contrôlé pour les GBAD. La sémantique sera accessible pour chaque source de données afin de garantir que les mots utilisés pour décrire les données sont cohérents entre les sources de données.

  • Des vocabulaires pour les sources de données qui ne citent pas de normes de vocabulaire seront obtenus et les mots seront par rapport aux normes de données préexistantes telles qu’AGROVOC (vocabulaire contrôlé de la FAO)
  • Les vocabulaires collectés seront comparés pour toutes les sources de données, pour voir comment la description des termes se compare les unes aux autres.
  • L'objectif est de fournir une norme pour les GBAD, augmentant l'interopérabilité et la qualité des données, conduisant finalement à modèles et estimations supérieurs
  • Des vocabulaires contrôlés conduisent également à de meilleurs systèmes et permettent l'automatisation des tâches

Agroportal est un outil de cartographie d'ontologies qui permettra aux GBAD de déterminer les ontologies appropriées et la cartographie entre vocabulaires standardisés liés au secteur agricole.

  • Nous reconnaissons également que nous ne pouvons pas nous attendre à ce que les contributeurs de données modifient leur vocabulaire pour suivre celui des GBAD. (et si nous le demandions, cela pourrait décourager les gens de fournir des données). Cela souligne l'importance du vocabulaire cartographies.

Stockage et gestion des métadonnées

"Toute la connaissance est dans les connexions"

-- David Rumelhart

GBADs Informatics utilise neo4j, un système de gestion de base de données graphique, pour gérer et stocker des métadonnées et des informations sur les individus et les groupes impliqués dans le projet. Comme vous l'apprendrez dans cette section, une base de données graphique est un type de base de données qui exploite l'idée de connexions entre entités comme méthode pour dériver des informations et de nouvelles connaissances à partir de données autrement déconnectées.

Qu'est-ce qu'une base de données graphique ?

Une base de données graphique est un type de base de données qui stocke des données en utilisant des relations entre des idées ou des entités principales. Les relations entre les différentes entités montrent une connectivité, permettant de tirer plus d'informations qu'une base de données relationnelle traditionnelle. Les données étant très complexes et multidimensionnelles en termes de structure, de provenance, de gouvernance, de sécurité et de sémantique, GBADs utilise des bases de données graphiques pour la gestion des métadonnées principales et le catalogage des données. En tirant parti de la nature dynamique de la base de données graphique et en structurant notre modèle graphique de manière à permettre une meilleure compréhension des nombreuses dimensions des données, nous pouvons à la fois visualiser et comprendre comment les données circulent à l'extérieur et à l'intérieur de notre organisation. Les bases de données graphiques nous permettent également d'ajouter et de modifier la structure à mesure que la structure des informations sur les données change. Cela deviendra plus clair à mesure que nous présenterons le modèle de données graphique préliminaire GBADs.


Traditionnellement, les données sont organisées en une série de tableaux. Chacun des tableaux comporte des colonnes et certains tableaux comportent des colonnes communes. Avec ces colonnes communes, vous pouvez spécifier des jointures entre les tables, ce qui donne lieu à une nouvelle table.

Le plus grand avantage des bases de données relationnelles est la possibilité de joindre des tables communes pour en tirer des informations. D'un autre côté, les bases de données relationnelles nécessitent des schémas rigides qui obligent les ingénieurs de bases de données à structurer leurs données pour s'adapter au schéma. Cela suppose que nous savons déjà à quoi ressemblent toutes nos données, ce qui n'est pas toujours le cas pour la recherche.


Parties d'une base de données graphique

Les bases de données graphiques sont constituées de nœuds (entités) et de arêtes (relations). Les nœuds peuvent avoir des propriétés et des étiquettes tandis que les arêtes servent de connexion ou de relation entre les nœuds.

Un modèle graphique est un modèle des types de nœuds que vous représentez et de la manière dont ils sont connectés (quelles relations vous aurez).

Modèle graphique

Base de données graphique et API de métadonnées

À mettre à jour au lancement de l'API