23 mars 2006
Des nouveautés sur les métadonnées
BiblioDoc.Francophonie.org vient de mettre en ligne un dossier sur les métadonnées. Il est vraiment très complet et aborde les points suivants :
- Définition
- Petit lexique des standards et normes d’écriture
- Pourquoi utiliser les métadonnées ?
- Quelles sont les forces et les faiblesses des métadonnées ?
- Le Dublin Core en bref
- Initiation à quelques formats de métadonnées
- Les identifiants uniformes de ressources (URI)
- Brève réflexion sur le travail des catalogueurs : les métadonnées sont-elles une menace à leur survie ?
- Bibliographie
Sur le site ARTIST : un tutorial sur les métadonnées, présenté par Catherine Morel-Pair à l'occasion su séminaire VSST 2006 qui a eu lieu en janvier dernier. Points abordés :
- Introduction et panorama
- Des métadonnées, pourquoi ?
- Standards : jeux et format
- RDF, interopérabilité et conclusion
Et enfin, si vous allez faire un tour du côté des Petites cases de Got, vous pourrez lire une présentation technique de METS, qu'il a intitulée METS et tu mets tes fichiers dans des petites cases.
18 décembre 2005
Métadonnées pour les nuls : métadonnées et sites internet
Après avoir présenté très succintement le Dublin Core,
j'ai décidé de me pencher sur son utilisation pour les sites internet.
Les éléments du Dublin Core sont tout à fait utilisables pour
décrire
des pages web : il suffit de les insérer parmi les balises meta, dans
la section <head> et ils peuvent cohabiter avec les balises meta
"traditionnelles".
Pour BlogOKat, voici ce que cela pourrait donner :
<head>
<title>BlogOKat</title>
<meta name="dc.title" content=”BlogOKat" />
<meta name="dc.format" content="text/html" />
<meta name="dc.language" content="fr" />
<meta name="dc.creator" content="Catherine" />
<meta name="dc.description" content="Documentation, technologies de l’information, internet, etc..." />
<meta name="Description" content="Documentation, technologies de l'information, internet, etc..." />
<meta name="dc.subject" content="documentation, documentaliste, technologies de l’information, TIC, NTIC, internet " />
<meta name="Keywords" content="documentation, documentaliste, technologies de l’information, TIC, NTIC, internet " />
</head>
Mais dans les faits, les balises meta n'ont pas la cote auprès des
webmasters ! Quant au Dublin Core... J'ai trouvé des chiffres de 2003
sur Abondance : 40 % des sites
francophones contenaient à l'époque une balise "Description" et une balise
"Keywords" et seulemement 2% des éléments Dublin Core. Je ne pense pas que les
chiffres aient beaucoup évolué...
En effet, les
webmasters, qui sont plus sensibilisés aux questions de référencement
qu'aux questions de structuration ou de qualification de l'information,
ne sont pas vraiment encouragés à utiliser ces balises meta :
"Parmi les critères "in the Page", le titre de la page
ou "title", (balise html) serait particulièrement déterminant pour le
référencement dans Google. La balise description, en revanche,
semblerait ne plus contribuer au référencement, tout du moins elle
n'influencerait plus le classement dans Google mais permet d'indiquer à
l'internaute le contenu d'un site grâce à un texte succinct (200
caractères maximum) présenté dans les résultats de recherche. La balise
"keywords" serait purement et simplement ignorée par Google."
(e-humeurs via Influx).
Et Abondance confirme d'ailleurs que les balises "Description" et "Keywords" sont aujourd'hui inutiles pour le référencement.
[edit] Il y a tout de même quelques moteurs de recherche qui comprennent le Dublin Core. Mais ce ne sont pas des moteurs de recherche "grand public" comme Google, Yahoo et compagnie...
Mais alors pourquoi insérer des balises meta au format Dublin Core dans un site ?
Tout
simplement pour décrire d'une manière plus précise le contenu des
sites, afin de pouvoir mieux les identifier grâce à de l'information
structurée. Il s'agit aussi d'un travail sur la qualité, d'autant que
le Dublin Core est un standard et qu'il peut favoriser
l'interopérabilité.
Et tout cela va dans le sens d'un web sémantique, d'un web plus intelligent (surtout que ces fameuses balises meta DC peuvent être implémentées en RDF).
En conclusion, il me semble que pour favoriser l'adoption du Dublin Core pour la description des
sites web, il est nécessaire d'adopter des normes comme l'a fait le gouvernement du Canada : "tous
les sites Web du GdC doivent adopter les cinq métabalises suivantes
comme norme de métadonnées aux fins de la description des ressources du
Web : titre, créateur, langue de la ressource, date et index
idéologique normalisé." (voir aussi ce guide)
Je suis allée voir quelles étaient les pratiques des
sites gouvernementaux français : leurs pratiques en matière de balises meta sont on ne peut plus
hétérogènes. (Mais il y a un bon élève...)
06 décembre 2005
Métadonnées et archives ouvertes
En attendant un nouvel épisode des Métadonnées pour les nuls (qui ne saurait tarder... il faut juste que je m'y mette).
Arcachon, octobre 2005 : 1er atelier des réseaux de le documentation
scientifique. Le thème : métadonnées et archives ouvertes. Un extrait de la présentation de ces journées :
"Aujourd’hui,
aucun documentaliste au service de la recherche ne peut ignorer ce
mouvement, et chacun a un rôle essentiel à jouer ; cependant, si cette
question est souvent abordée dans le milieu professionnel, les
évolutions constantes des technologies et des réalisations demandent
une mise à jour régulière des connaissances.
Ces journées permettront
aux participants de :
- prendre conscience de l’importance des
métadonnées et des archives ouvertes dans le quotidien du
documentaliste et du chercheur,
- s’orienter dans les jeux d’éléments
et formats d’implémentation utiles des métadonnées,
- connaître les
principes et réalisations des archives ouvertes, en particulier
françaises et CNRS."
Les interventions sont quasiment toutes en ligne. Je n'ai eu le temps de lire que celle sur les métadonnées, assez complète, et celle (en 4 parties) sur les archives ouvertes, très claire.
02 novembre 2005
Métadonnées pour les nuls : RDF et web sémantique
En écrivant le billet sur RDF, j'ai réussi l'exploit de ne pas
évoquer le web sémantique. Pourtant, certains vont jusqu'à présenter RDF comme le "socle du web
sémantique" (source ici).
Pour Tim Berners Lee, le web sémantique n'est pas "un Web à part, mais une extension du Web courant, dans lequel
on donne à une information un sens bien défini pour permettre aux
ordinateurs et aux gens de travailler en coopération".
Et pour l'office québécois de la langue française, il s'agit d'un "Web intelligent dans lequel les informations,
auxquelles on donne une signification bien définie, sont reliées entre
elles de façon à ce qu'elles soient comprises par les ordinateurs, dans
le but de transformer la masse des pages Web en un index hiérarchisé et
de permettre de trouver rapidement les informations recherchées."
Les principes fondamentaux du web sémantique :
- Tout objet du web possède une étiquette.
- Toute étiquette est lisible par les agents logiciels et par les êtres humains.
- Toute étiquette représente fidèlement l'objet.
- Toute étiquette est disposée dans un espace commun de lisibilité, espace explorable virtuellement par l'ensemble des humains et des agents logiciels, la sélection de l'étiquette rend accessible l'objet en tant que ressource.
Par étiquette, il faut comprendre métadonnée... Et quel est le
métalangage qui permet de décrire les objets (qu'on peut aussi appeler
ressources) ? RDF, bien sûr... lequel "fournit le mécanisme technique pour représenter des relations entre ressources".
RDF est donc l'un des composants du web sémantique, que Tim Berners-Lee représente ainsi :
Ressources et références
- Le web
sémantique, traduction française de The semantic web, article de Tim
Berners-Lee, James Hendler, Ora Lassile (mai 2001)
- Une introduction au web sémantique, Christine Porquet (2005)
- Le wiki Web Sémantique
- Atelier web sémantique, Wiki Autrans
- Le web sémantique : quelques notions de base, Sylvie Dalbin (août 2005)
- Comprendre le principe du Web sémantique et de RDF, Les petites cases (septembre 2005)
- Extraits du hors-serie 2004
« web semantique » de la revue i3
- Le web sémantique, ou
la mort annoncée des moteurs, Internenettes (mars 2004)
18 octobre 2005
Les métadonnées : un constat réaliste
Tel était le sous titre du Forum sur les métadonnées au Canada qui a eu lieu en septembre dernier. Un programme riche... Je n'ai eu le temps de parcourir rapidement que 2 présentations dont les titres m'ont "interpellée" : Les métadonnées démystifiées (pdf) (il s'agit d'une présentation générale plutôt bien faite), La mort des métadonnées (pdf) (le Dublin Core remis en cause).
(Vu sur : Broue haha !)
07 octobre 2005
Métadonnées pour les nuls, épisode 4 : RDF
Je reprends enfin la série sur les métadonnées. Mieux vaut tard que jamais... Au cas où vous auriez oublié, je vous rappelle que le premier épisode traitait de généralités, le second du Dublin Core et le troisième de METS.
RDF (Resource Description Framework) peut être défini comme un
modèle, une description de syntaxe reposant sur XML dont l’objectif est de
permettre l'utilisation de métadonnées pour décrire les données contenues sur
le Web. Il fait l'objet d'une spécification du W3C.
Plus précisément, RDF peut
être considéré comme un métalangage qui apporte un cadre formel (framework) aux métadonnées
(c’est à dire à la description des ressources d’information).
Ou encore : RDF «permet de rendre plus "intelligente"
l'information nécessaire (…) à tout outil informatique analysant de façon
automatisée des pages Web. Pour ce faire, RDF propose d'associer à toute ressource du
Web un ensemble de descripteurs qui caractérisent au mieux cette ressource : on
parle alors de Métadonnées».
(Voir Mutu-XML Le contenu de Mutu-XML est désormais disponible sur www.tireme.fr)
Je ne sais plus où j’ai vu
le schéma suivant qui montre le positionnement de RDF par rapport
aux métadonnées et à XML :
Concrètement, RDF consiste à mettre en place un système de description des données (donc un système de métadonnées) suffisamment précis et objectif pour être «compréhensible», même par les robots. Ce cadre formel peut s’appliquer à n’importe quel domaine, sans toutefois préciser la sémantique des ressources décrites. Une de ses caractéristiques est la modélisation des métadonnées qu’il propose. Son entité élémentaire est la déclaration, elle-même composée de triplets :
«Une "ressource" (resource) est définie par des "propriétés" (properties) ; l'association d'une ressource à une propriété par une valeur de propriété est une "déclaration" (statement)». (Voir Mutu-XML)
Un exemple de descritption RDF (adaptation de Mutu-XML, j'aurais pu aussi reprendre l'exemple de Got) :
Donc :
Pour le sujet http://blogokat.canalblog.com/ l'auteur
(prédicat) est Catherine (objet). Cette description pouvant bien
entendu être enrichie par d'autres prédicats : le titre, la langue, les
mots-clés, etc.
Le tout pouvant être traduit à l'aide d'un schéma de métadonnées comme le Dublin Core.
Des exemples d'utilisation de RDF
- RSS s'appuie sur RDF. D'ailleurs, une des traductions de l'acronyme RSS est RDF Site Summary (L'Office québécois de la langue française m'apprend que c'est pour RSS 0.9, 1.0 et 1.1 et que pour RSS 2.0 on dit Really Simple Syndication).
- FOAF (Friend of a friend). Il s'agit d'un "projet collaboratif visant à utiliser RDF pour créer un nouveau type de document, accessible en ligne et décrivant les personnes". Son principe ? "chaque personne est identifiée par un fichier FOAF, qui peut être placé n’importe où sur le Web, et qui contient, dans des champs normés et en XML, des informations la décrivant". Voir sur le sujet Internet Actu et Les petites Cases.
- La version anglophone de l'Open Directory Project est disponible sous forme de documents rdf. (Information trouvée ici)
Ressources et références (pour aller plus loin)
- Page RDF du W3C
- Spécification du modèle et la syntaxe du cadre de
description des ressources (Resource Description Framework ou RDF), version française de la spéfication de W3C, 1999
- Introduction à RDF, Philippe Lahaye, octobre 2004
- RDF pour les poêtes, Karl Dubost, août 2004
RDF sur Mutu-XML- RDF sur L'Altruiste
- [edit 09/10] Présentation de Bruno Menon à l'ADBS, avril 2004 (attention, n'aime pas Firefox)
Voilà pour RDF, je n'ai pas encore décidé quel sera le sujet du 5ème épisode. Une suggestion ?
20 juin 2005
Métadonnées pour les nuls, épisode 3 : METS
METS = Metadata
Encoding and Transmission Standard. Ce
format a été élaboré à l'initiative de la Digital
Library Federation qui avait pour objectif de fournir une stratégie de mise
en œuvre de métadonnées de conservation afin de permettre les échanges de
documents numériques entre institutions patrimoniales.
METS est un schéma XML qui sert à encoder les métadonnées descriptives, administratives et structurelles de documents, ou plutôt d’objets numériques. Il contient la description de la structure hiérarchique de ces objets numériques (constituant une ressource numérique), répertorie les noms et la localisation des fichiers leur correspondant et contient toutes les métadonnées qui leur sont associées. Ainsi, toutes les données concernant un objet numérique sont regroupées dans un même fichier.
Un objet METS est composé de la ressource numérique
elle même et d'un document METS comprenant toutes les métadonnées de structure,
administratives et descriptives. Il est structuré en sept sections, pouvant
comprendre un ou plusieurs groupes de métadonnées.
Les 2 sections principales sont obligatoires :
- File Section : liste des fichiers composant l’objet, c'est à dire la description des noms de fichiers et leur localisation (identifiant, format, URL)
- Structural Map : carte de structure, soit la description du plan du document (logique ou logique)
Les 5 autres sections sont facultatives et répétables :
- Header : en-tête, soit des informations sur le document METS
- Descriptive Metadata : métadonnées descriptives, externes avec des liens ou encapsulées dans le document
- Administrative Metadata : métadonnées administratives, externes ou encapsulées
- Structural Links : liens entre les différents éléments de la carte de la structure
- Behavior : association d’exécutables (programmes qui vont faire fonctionner l’objet)
Le système de pointeurs est un élément important du schéma METS : il permet de mettre en relation des éléments de métadonnées et des fichiers entre eux. 5 types de pointeurs sont proposés :
- xlink pour pointer vers un bloc de métadonnées stocké à l’extérieur du document METS
- DMDID et AMDID permettent d'appliquer un identifiant à chaque bloc afin de les relier entre eux
- filepointer est interne au document METS et permet de pointer vers l'identifiant un fichier (cf file section)
- metspointer est externe au document METS et permet de lier plusieurs documents METS
entre eux
- area est intégré dans la carte de structure et permet de pointer vers une partie de fichier.
En ce qui concerne les métadonnées descriptives
externes, il est possible de s’appuyer sur d’autres normes/standards comme
MARC, EAD, le Dublin Core…
Et si vous vous demandez qui utilise le schéma METS en France, allez donc voir du
côté de la BNF. Quelques présentations sont disponibles en ligne, comme celle-ci (pdf), celle-ci (pdf) ou celle-là. Voir aussi le portail Persée s'appuyant sur la DTD Erudit du Consortium canadien Erudit mais qui doit intégrer le schéma METS. Pour en savoir plus, lire cette présentation (ppt).
Et pour savoir ce qui se fait dans d'autres pays, c'est le METS Implementation registry qu'il faut consulter (il s'agit d'un répertoire des institutions et des projets
utilisant METS).
En résumé, METS est un standard non propriétaire, ouvert, modulaire et extensible. Voilà qui devrait plaire aux promoteurs des formats ouverts ;-) !
Ressources et références
- Site officiel METS
- Une fiche synthétique sur le site de la DLF
- Bulletin sur la DTD EAD de la Direction des archives de France : article sur le schéma METS (N°19,mars 2005)
- Sans oublier les actes de la journée d'information AFNOR/CG46 qui a eu lieu le 7 juin dernier à la BNF : Des métadonnées pour bien utiliser les ressources électroniques.
Episodes précédents : Introduction, Dublin Core. A venir : RDF....
16 mai 2005
Métadonnées pour les nuls, épisode 2 : Dublin Core
C’est en 1995 que l’OCLC (Online Computer Library Center) et le NCSA (National Center for Supercomputing Applications), réunis à Dublin (Ohio) décidèrent de définir un ensemble de métadonnées permettant de décrire des documents électroniques conservés en réseau. Ainsi est né le Dublin Core Metadata Initiative ou Dublin Core en abrégé. (Core = noyau de métadonnées minimales pour exploiter l’information.)
Concrètement, le Dublin Core est un schéma de métadonnées générique et simple qui permet de décrire n'importe quelle ressource électronique et logiquement d’établir des relations avec d'autres ressources. Il comprend 15 éléments de description formels (titre, auteur, éditeur), intellectuels (sujet, description, langue…) et relatifs à la propriété intellectuelle. Pour une liste détaillée, voir le tableau ci-dessous (cliquer pour l’agrandir) :
Les caractéristiques des éléments du Dublin Core :
- ils sont optionnels
- ils sont repérables
- ils peuvent apparaître dans n’importe quel ordre
- ils peuvent avoir des qualifiants :
- relatifs au raffinement d’éléments (préciser le sens d’un élément afin qu’il soit plus circonscrit ou plus précis)
- relatifs au schéma d’encodage (identification des schémas qui aident à l’interprétation de la valeur d’un élément)
En 2003 une norme ISO 15836 «Information et documentation – L’ensemble des éléments de métadonnées Dublin Core» a été publiée. Sa version américaine (Z3985) est disponible gratuitement sur le site de la National Information Standards Organization.
Quelques exemples d'utilisations du Dublin Core
- Sur Mozinet : une page de métadonnées au format Dublin Core
- CISMeF (Catalogue et Index des Sites Médicaux Francophones) : dans ce projet du CHU de Rouen, les sites sont indexés grâce au Dublin Core
- Revues.org : ce site proposant des revues en ligne a choisi le Dublin Core pour décrire ses pages
Ressources et références :
- Dublin Core Metadata Initiative : site officiel
- Guide d'utilisation du Dublin Core (2001, en français)
- Eléments de métadonnées du Dublin Core, Version 1.1: Description de Réference (2002, en français)
- Métadonnées et Dublin Core : dossier sur Openweb (2003)
- Les 15 éléments du Dublin Core (IUFM Amiens)
- La description des documents électroniques diffusés sur le web : pour une recherche pertinente, Tarek Ouerfelli, 2003
- Le Dublin Core sur Le Sauna (janvier 2005)
[edit] voir aussi le dossier documentaire réalisé dans le cadre d'un travail pédagogique par des étudiants de l'Ecole de Bibliothécaires-Documentalistes et mis en ligne sous forme de blog.
Episode précédent : Introduction. A venir : METS, RDF....
28 avril 2005
Métadonnées pour les nuls, épisode 1
Mais tout d'abord, les métadonnées, qu'est-ce que c'est ?
Le plus facile est de dire que ce sont des données sur les données. Cette définition est évidemment trop simpliste et doit être précisée : les métadonnées sont «un ensemble structuré d'informations décrivant une ressource quelconque». Comme je vais m'attacher ici à évoquer la problématique des documents numériques, j'ajouterais qu'elles «renseignent sur le contexte de création, de vie et de traitement du document électronique».
A quoi servent les métadonnées ?
Tout simplement à faciliter la recherche d'information, faciliter l'interopérabilité, faciliter la gestion et l'archivage, gérer et protéger les droits, authentifier un texte.
On distinguera donc trois types de métadonnées en fonction de leurs objectifs :
- les métadonnées descriptives, conçues en vue de la recherche, du repérage et de l'identification des ressources,
- les métadonnées de gestion qui aident à organiser, à valider puis à archiver les ressources organisationnelles,
- les métadonnées de préservation qui sont plus spécifiquement destinées à assurer la conservation à long terme de ressources électroniques.
Ces trois types de métadonnées permettent le contrôle physique et intellectuel des documents en vue de leur accessibilité immédiate et future.
Ci-dessous (cliquer sur le tableau pour l'agrandir), des exemples de métadonnées pour l'archivage électronique (d'après le Manuel de la DAF) :
Ressources et références :
- Des définitions sur le site de l’ESBI
- Le dossier métadonnées d'Educnet
- Métadonnées : usages et perspectives, Julia Jumeau, URFIST de Paris, 2000
- Métadonnées : une initiation, Patrick Peccatte / Soft Experience
- Que sont les métadonnées ? James Turner, ESBI
- Le chapitre sur les métadonnées du Manuel pratique sur l'archivage électronique de la Direction des Archives de France
A suivre....
MAJ 29/04 : je m'aperçois que ma phrase d'introduction est
maladroite. Je ne suis pas une spécialiste mais j'ai eu déjà l'occasion
de m'intéresser aux métadonnées. [Pourtant, je m'inclus dans les nuls
:-)]. Mon "ambition" idée est juste de proposer une
petite synthèse sur la question, en m'attardant sur quelques normes et
standards. Je prévois d'aborder le Dublin Core dans l'épisode 2, METS
dans l'épisode 3, et après on verra...



