BlogOKat

Documentation, technologies de l'information, internet, etc...

23 mars 2006

Des nouveautés sur les métadonnées

BiblioDoc.Francophonie.org vient de mettre en ligne un dossier sur les métadonnées. Il est vraiment très complet et aborde les points suivants :
- Définition
- Petit lexique des standards et normes d’écriture
- Pourquoi utiliser les métadonnées ?
- Quelles sont les forces et les faiblesses des métadonnées ?
- Le Dublin Core en bref
- Initiation à quelques formats de métadonnées
- Les identifiants uniformes de ressources (URI)
- Brève réflexion sur le travail des catalogueurs : les métadonnées sont-elles une menace à leur survie ?
- Bibliographie

Sur le site ARTIST : un tutorial sur les métadonnées, présenté par Catherine Morel-Pair à l'occasion su séminaire VSST 2006 qui a eu lieu en janvier dernier. Points abordés :
- Introduction et panorama
- Des métadonnées, pourquoi ?
- Standards : jeux et format
- RDF, interopérabilité et conclusion

Et enfin, si vous allez faire un tour du côté des Petites cases de Got, vous pourrez lire une présentation technique de METS, qu'il a intitulée METS et tu mets tes fichiers dans des petites cases.

Posté par BlogOKat à 22:32 - Métadonnées pour les nuls - Commentaires [0] - Rétroliens [0] - Permalien [#]


18 décembre 2005

Métadonnées pour les nuls : métadonnées et sites internet

Après avoir présenté très succintement le Dublin Core, j'ai décidé de me pencher sur son utilisation pour les sites internet.
Les éléments du Dublin Core sont tout à fait utilisables pour décrire des pages web : il suffit de les insérer parmi les balises meta, dans la section <head> et ils peuvent cohabiter avec les balises meta "traditionnelles".
Pour BlogOKat, voici ce que cela pourrait donner :

	<head>
<title>BlogOKat</title>
<meta name="dc.title" content=”BlogOKat" />

<meta name="dc.format" content="text/html" />
<meta name="dc.language" content="fr" />
<meta name="dc.creator" content="Catherine" />

<meta name="dc.description" content="Documentation, technologies de l’information, internet, etc..." />
<meta name="Description" content="Documentation, technologies de l'information, internet, etc..." />
<meta name="dc.subject" content="documentation, documentaliste, technologies de l’information, TIC, NTIC, internet " />
<meta name="Keywords" content="documentation, documentaliste, technologies de l’information, TIC, NTIC, internet " />
</head>

Mais dans les faits, les balises meta n'ont pas la cote auprès des webmasters ! Quant au Dublin Core... J'ai trouvé des chiffres de 2003 sur Abondance : 40 % des sites francophones contenaient à l'époque une balise "Description" et une balise "Keywords" et seulemement 2% des éléments Dublin Core. Je ne pense pas que les
chiffres aient beaucoup évolué...
En effet, les webmasters, qui sont plus sensibilisés aux questions de référencement qu'aux questions de structuration ou de qualification de l'information, ne sont pas vraiment encouragés à utiliser ces balises meta :
"Parmi les critères "in the Page", le titre de la page ou "title", (balise html) serait particulièrement déterminant pour le référencement dans Google. La balise description, en revanche, semblerait ne plus contribuer au référencement, tout du moins elle n'influencerait plus le classement dans Google mais permet d'indiquer à l'internaute le contenu d'un site grâce à un texte succinct (200 caractères maximum) présenté dans les résultats de recherche. La balise "keywords" serait purement et simplement ignorée par Google."
(e-humeurs via Influx). 
Et Abondance confirme d'ailleurs que les balises "Description" et "Keywords" sont aujourd'hui inutiles pour le référencement.
[edit] Il y a tout de même quelques moteurs de recherche qui comprennent le Dublin Core. Mais ce ne sont pas des moteurs de recherche "grand public" comme Google, Yahoo et compagnie...

Mais alors pourquoi insérer des balises meta au format Dublin Core dans un site ?
Tout simplement pour décrire d'une manière plus précise le contenu des sites, afin de pouvoir mieux les identifier grâce à de l'information structurée. Il s'agit aussi d'un travail sur la qualité, d'autant que le Dublin Core est un standard et qu'il peut favoriser l'interopérabilité.
Et tout cela va dans le sens d'un web sémantique, d'un web plus intelligent (surtout que ces fameuses balises meta DC peuvent être implémentées en RDF).

En conclusion, il me semble que pour favoriser l'adoption du Dublin Core pour la description des sites web, il est nécessaire d'adopter des normes comme l'a fait le gouvernement du Canada : "tous les sites Web du GdC doivent adopter les cinq métabalises suivantes comme norme de métadonnées aux fins de la description des ressources du Web : titre, créateur, langue de la ressource, date et index idéologique normalisé." (voir aussi ce guide)
Je suis allée voir quelles étaient les pratiques des sites gouvernementaux français : leurs pratiques en matière de balises meta sont on ne peut plus hétérogènes. (Mais il y a un bon élève...)

Posté par BlogOKat à 22:46 - Métadonnées pour les nuls - Commentaires [1] - Rétroliens [0] - Permalien [#]

06 décembre 2005

Métadonnées et archives ouvertes

En attendant un nouvel épisode des Métadonnées pour les nuls (qui ne saurait tarder... il faut juste que je m'y mette).
Arcachon, octobre 2005 : 1er atelier des réseaux de le documentation scientifique. Le thème : métadonnées et archives ouvertes. Un extrait de la présentation de ces journées :
"Aujourd’hui, aucun documentaliste au service de la recherche ne peut ignorer ce mouvement, et chacun a un rôle essentiel à jouer ; cependant, si cette question est souvent abordée dans le milieu professionnel, les évolutions constantes des technologies et des réalisations demandent une mise à jour régulière des connaissances.
Ces journées permettront aux participants de :
- prendre conscience de l’importance des métadonnées et des archives ouvertes dans le quotidien du documentaliste et du chercheur,
- s’orienter dans les jeux d’éléments et formats d’implémentation utiles des métadonnées,
- connaître les principes et réalisations des archives ouvertes, en particulier françaises et CNRS."

Les interventions sont quasiment toutes en ligne. Je n'ai eu le temps de lire que celle sur les métadonnées, assez complète, et celle (en 4 parties) sur les archives ouvertes, très claire. 

Posté par BlogOKat à 22:58 - Métadonnées pour les nuls - Commentaires [0] - Rétroliens [0] - Permalien [#]

02 novembre 2005

Métadonnées pour les nuls : RDF et web sémantique

En écrivant le billet sur RDF, j'ai réussi l'exploit de ne pas évoquer le web sémantique. Pourtant, certains vont jusqu'à présenter RDF comme le "socle du web sémantique" (source ici).
Pour Tim Berners Lee, le web sémantique n'est pas "un Web à part, mais une extension du Web courant, dans lequel on donne à une information un sens bien défini pour permettre aux ordinateurs et aux gens de travailler en coopération".
Et pour l'office québécois de la langue française, il s'agit d'un "
Web intelligent dans lequel les informations, auxquelles on donne une signification bien définie, sont reliées entre elles de façon à ce qu'elles soient comprises par les ordinateurs, dans le but de transformer la masse des pages Web en un index hiérarchisé et de permettre de trouver rapidement les informations recherchées."

Les principes fondamentaux du web sémantique :

  • Tout objet du web possède une étiquette.
  • Toute étiquette est lisible par les agents logiciels et par les êtres humains.
  • Toute étiquette représente fidèlement l'objet.
  • Toute étiquette est disposée dans un espace commun de lisibilité, espace explorable virtuellement par l'ensemble des humains et des agents logiciels, la sélection de l'étiquette rend accessible l'objet en tant que ressource.

Par étiquette, il faut comprendre métadonnée... Et quel est le métalangage qui permet de décrire les objets (qu'on peut aussi appeler ressources) ? RDF, bien sûr... lequel "fournit le mécanisme technique pour représenter des relations entre ressources".

RDF est donc l'un des composants du web sémantique, que Tim Berners-Lee représente ainsi :

web_semantique

Ressources et références

Posté par BlogOKat à 20:02 - Métadonnées pour les nuls - Commentaires [1] - Rétroliens [1] - Permalien [#]

18 octobre 2005

Les métadonnées : un constat réaliste

Tel était le sous titre du Forum sur les métadonnées au Canada qui a eu lieu en septembre dernier. Un programme riche... Je n'ai eu le temps de parcourir rapidement que 2 présentations dont les titres m'ont "interpellée" : Les métadonnées démystifiées (pdf) (il s'agit d'une présentation générale plutôt bien faite), La mort des métadonnées (pdf) (le Dublin Core remis en cause).
(Vu sur : Broue haha !)

Posté par BlogOKat à 22:37 - Métadonnées pour les nuls - Commentaires [0] - Rétroliens [0] - Permalien [#]

07 octobre 2005

Métadonnées pour les nuls, épisode 4 : RDF

Je reprends enfin la série sur les métadonnées. Mieux vaut tard que jamais... Au cas où vous auriez oublié, je vous rappelle que le premier épisode traitait de généralités, le second du Dublin Core et le troisième de METS.

RDF (Resource Description Framework) peut être défini comme un modèle, une description de syntaxe reposant sur XML dont l’objectif est de permettre l'utilisation de métadonnées pour décrire les données contenues sur le Web. Il fait l'objet d'une spécification du W3C.
Plus précisément, RDF peut être considéré comme un métalangage qui apporte un cadre formel (framework) aux métadonnées (c’est à dire à la description des ressources d’information).
Ou encore : RDF «permet de rendre plus "intelligente" l'information nécessaire (…) à tout outil informatique analysant de façon automatisée des pages Web. Pour ce faire, RDF propose d'associer à toute ressource du Web un ensemble de descripteurs qui caractérisent au mieux cette ressource : on parle alors de Métadonnées». (Voir Mutu-XML Le  contenu de Mutu-XML est désormais disponible sur www.tireme.fr)
Je ne sais plus où j’ai vu le schéma suivant qui montre le positionnement de RDF par rapport aux métadonnées et à XML :

rdf1

Concrètement, RDF consiste à mettre en place un système de description des données (donc un système de métadonnées) suffisamment précis et objectif pour être «compréhensible», même par les robots. Ce cadre formel peut s’appliquer à n’importe quel domaine, sans toutefois préciser la sémantique des ressources décrites. Une de ses caractéristiques est la modélisation des métadonnées qu’il propose. Son entité élémentaire est la déclaration, elle-même composée de triplets :

rdf2

«Une "ressource" (resource) est définie par des "propriétés" (properties) ; l'association d'une ressource à une propriété par une valeur de propriété est une "déclaration" (statement)». (Voir Mutu-XML)
Un exemple de descritption RDF (adaptation de Mutu-XML, j'aurais pu aussi reprendre l'exemple de Got) :

rdf3

Donc :
Pour le sujet http://blogokat.canalblog.com/ l'auteur (prédicat) est Catherine (objet). Cette description pouvant bien entendu être enrichie par d'autres prédicats : le titre, la langue, les mots-clés, etc.
Le tout pouvant être traduit à l'aide d'un schéma de métadonnées comme le Dublin Core.

Des exemples d'utilisation de RDF

  • RSS s'appuie sur RDF. D'ailleurs, une des traductions de l'acronyme RSS est RDF Site Summary (L'Office québécois de la langue française m'apprend que c'est pour RSS 0.9, 1.0 et 1.1 et que pour RSS 2.0 on dit Really Simple Syndication).
  • FOAF (Friend of a friend). Il s'agit d'un "projet collaboratif visant à utiliser RDF pour créer un nouveau type de document, accessible en ligne et décrivant les personnes". Son principe ? "chaque personne est identifiée par un fichier FOAF, qui peut être placé n’importe où sur le Web, et qui contient, dans des champs normés et en XML, des informations la décrivant". Voir sur le sujet Internet Actu et Les petites Cases.
  • La version  anglophone de l'Open Directory Project est disponible sous forme de documents rdf. (Information trouvée ici)

Ressources et références (pour aller plus loin)

Voilà pour RDF, je n'ai pas encore décidé quel sera le sujet du 5ème épisode. Une suggestion ?

Posté par BlogOKat à 13:28 - Métadonnées pour les nuls - Commentaires [4] - Rétroliens [0] - Permalien [#]

20 juin 2005

Métadonnées pour les nuls, épisode 3 : METS

METS = Metadata Encoding and Transmission Standard. Ce format a été élaboré à l'initiative de la Digital Library Federation qui avait pour objectif de fournir une stratégie de mise en œuvre de métadonnées de conservation afin de permettre les échanges de documents numériques entre institutions patrimoniales.

METS est un schéma XML qui sert à encoder les métadonnées descriptives, administratives et structurelles de documents, ou plutôt d’objets numériques. Il contient la description de la structure hiérarchique de ces objets numériques (constituant une ressource numérique), répertorie les noms et la localisation des fichiers leur correspondant et contient toutes les métadonnées qui leur sont associées. Ainsi, toutes les données concernant un objet numérique sont regroupées dans un même fichier.

Un objet METS est composé de la ressource numérique elle même et d'un document METS comprenant toutes les métadonnées de structure, administratives et descriptives. Il est structuré en sept sections, pouvant comprendre un ou plusieurs groupes de métadonnées.
Les 2 sections principales sont obligatoires :

  • File Section : liste des fichiers composant l’objet, c'est à dire la description des noms de fichiers et leur localisation (identifiant, format, URL)
  • Structural Map : carte de structure, soit la description du plan du document (logique ou logique)

Les 5 autres sections sont facultatives et répétables :

  • Header : en-tête, soit des informations sur le document METS
  • Descriptive Metadata : métadonnées descriptives, externes avec des liens ou encapsulées dans le document
  • Administrative Metadata : métadonnées administratives, externes ou encapsulées
  • Structural Links : liens entre les différents éléments de la carte de la structure
  • Behavior : association d’exécutables (programmes qui vont faire fonctionner l’objet)

Le système de pointeurs est un élément important du schéma METS : il permet de mettre en relation des éléments de métadonnées et des fichiers entre eux. 5 types de pointeurs sont proposés :

  • xlink pour pointer vers un bloc de métadonnées stocké à l’extérieur du document METS
  • DMDID et AMDID permettent d'appliquer un identifiant à chaque bloc afin de les relier entre eux
  • filepointer est interne au document METS et permet de pointer vers l'identifiant un fichier (cf file section)
  • metspointer est externe au document METS et permet de lier plusieurs documents METS entre eux
  • area est intégré dans la carte de structure et permet de pointer vers une partie de fichier.

En ce qui concerne les métadonnées descriptives externes, il est possible de s’appuyer sur d’autres normes/standards comme MARC, EAD, le Dublin Core

Et si vous vous demandez qui utilise le schéma METS en France, allez donc voir du côté de la BNF. Quelques présentations sont disponibles en ligne, comme celle-ci (pdf), celle-ci (pdf) ou celle-là. Voir aussi le portail Persée s'appuyant sur la DTD Erudit du Consortium canadien Erudit mais qui doit intégrer le schéma METS. Pour en savoir plus, lire cette présentation (ppt).
Et pour savoir ce qui se fait dans d'autres pays, c'est le METS Implementation registry qu'il faut consulter (il s'agit d'un répertoire des institutions et des projets utilisant METS).

En résumé, METS est un standard non propriétaire, ouvert, modulaire et extensible. Voilà qui devrait plaire aux promoteurs des formats ouverts ;-) !

Ressources et références

Episodes précédents : Introduction, Dublin Core. A venir : RDF....

Posté par BlogOKat à 22:16 - Métadonnées pour les nuls - Commentaires [3] - Rétroliens [1] - Permalien [#]

16 mai 2005

Métadonnées pour les nuls, épisode 2 : Dublin Core

C’est en 1995 que l’OCLC (Online Computer Library Center) et le NCSA (National Center for Supercomputing Applications), réunis à Dublin (Ohio) décidèrent de définir un ensemble de métadonnées permettant de décrire des documents électroniques conservés en réseau. Ainsi est né le Dublin Core Metadata Initiative ou Dublin Core en abrégé. (Core = noyau de métadonnées minimales pour exploiter l’information.)
Concrètement, le Dublin Core est un schéma de métadonnées générique et simple qui permet de décrire n'importe quelle ressource électronique et logiquement d’établir des relations avec d'autres ressources. Il comprend 15 éléments de description formels (titre, auteur, éditeur), intellectuels (sujet, description, langue…) et relatifs à la propriété intellectuelle. Pour une liste détaillée, voir le tableau ci-dessous (cliquer pour l’agrandir) :

dc1

Les caractéristiques des éléments du Dublin Core :

  • ils sont optionnels
  • ils sont repérables
  • ils peuvent apparaître dans n’importe quel ordre
  • ils peuvent avoir des qualifiants :
    - relatifs au raffinement d’éléments (préciser le sens d’un élément afin qu’il soit plus circonscrit ou plus précis)
    - relatifs au schéma d’encodage (identification des schémas qui aident à l’interprétation de la valeur d’un élément)

En 2003 une norme ISO 15836 «Information et documentation – L’ensemble des éléments de métadonnées Dublin Core» a été publiée. Sa version américaine (Z3985) est disponible gratuitement sur le site de la National Information Standards Organization.

Quelques exemples d'utilisations du Dublin Core

  • Sur Mozinet : une page de métadonnées au format Dublin Core
  • CISMeF (Catalogue et Index des Sites Médicaux Francophones) : dans ce projet du CHU de Rouen, les sites sont indexés grâce au Dublin Core
  • Revues.org : ce site proposant des revues en ligne a choisi le Dublin Core pour décrire ses pages

Ressources et références :

[edit] voir aussi le dossier documentaire réalisé dans le cadre d'un travail pédagogique par des étudiants de l'Ecole de Bibliothécaires-Documentalistes et mis en ligne sous forme de blog.

Episode précédent : Introduction. A venir : METS, RDF....

Posté par BlogOKat à 18:05 - Métadonnées pour les nuls - Commentaires [3] - Rétroliens [0] - Permalien [#]

28 avril 2005

Métadonnées pour les nuls, épisode 1

Je suis loin d’être une spécialiste des métadonnées. Aussi, j’ai décidé de me lancer dans une saga des métadonnées avec pour objectif de donner rassembler quelques pistes sur les normes et standards de référence.

Mais tout d'abord, les métadonnées, qu'est-ce que c'est ?
Le plus facile est de dire que ce sont des données sur les données. Cette définition est évidemment trop simpliste et doit être précisée : les métadonnées sont «un ensemble structuré d'informations décrivant une ressource quelconque». Comme je vais m'attacher ici à évoquer la problématique des documents numériques, j'ajouterais qu'elles «renseignent sur le contexte de création, de vie et de traitement du document électronique».

A quoi servent les métadonnées ?
Tout simplement à faciliter la recherche d'information, faciliter l'interopérabilité, faciliter la gestion et l'archivage, gérer et protéger les droits, authentifier un texte.
On distinguera donc trois types de métadonnées en fonction de leurs objectifs :
  • les métadonnées descriptives, conçues en vue de la recherche, du repérage et de l'identification des ressources,
  • les métadonnées de gestion qui aident à organiser, à valider puis à archiver les ressources organisationnelles,
  • les métadonnées de préservation qui sont plus spécifiquement destinées à assurer la conservation à long terme de ressources électroniques.

Ces trois types de métadonnées permettent le contrôle physique et intellectuel des documents en vue de leur accessibilité immédiate et future.

 Ci-dessous (cliquer sur le tableau pour l'agrandir), des exemples de métadonnées pour l'archivage électronique (d'après le Manuel de la DAF)  :

m_tadonn_es1

Ressources et références :

A suivre....

MAJ 29/04 : je m'aperçois que ma phrase d'introduction est maladroite. Je ne suis pas une spécialiste mais j'ai eu déjà l'occasion de m'intéresser aux métadonnées. [Pourtant, je m'inclus dans les nuls :-)]. Mon "ambition" idée est juste de proposer une petite synthèse sur la question, en m'attardant sur quelques normes et standards. Je prévois d'aborder le Dublin Core dans l'épisode 2, METS dans l'épisode 3, et après on verra...

Posté par BlogOKat à 21:29 - Métadonnées pour les nuls - Commentaires [0] - Rétroliens [1] - Permalien [#]
« Accueil  1