06 novembre 2005
La saga des DTD : la saga de la TEI
L'épisode sur TEI de la saga des DTD a vocation à présenter TEI d'une manière synthétique et de donner quelques pistes sur le sujet... Pour vraiment tout savoir sur la TEI, c'est du côté des Petites cases qu'il faut aller voir. En effet, Got est en train de construire une véritable saga de la TEI :
- A la découverte de la TEI
- La modularité de la TEI
- Structuration générale d'un fichier TEI
- La mise en valeur d'une portion de texte en TEI
- TEI et les éléments d'un texte, la suite
[edit] Got m'apprend (voir le commentaire du message précédent) qu'il vient de créer une rubrique rien que pour la TEI...
15 avril 2005
Du nouveau pour TEI
ARTIST (Appropriation par la Recherche des Technologies de l'IST) vient d'annoncer la création d'un centre support européen pour la TEI et d'une nouvelle liste de diffusion TEI.fr.
Sur son site, voir aussi Thèses électroniques dans le Cyber Espace, un panorama des thèses en ligne.
(Source : biblio.fr)
MAJ 25/04 : et en plus, la TEI a un wiki [merci (pluri)TAL]
07 mars 2005
La saga des DTD : le final
Après un prologue sur les DTD en général, quelques mots sur quelques DTD importantes pour les professionnels de l'information-documentation (EAD, TEI, DocBook, BiblioML et MARCXML), nous voici à l'épilogue de la saga des DTD...
A
l'origine les DTD étaient des outils pour SGML. N'étant pas écrites en
XML, il est apparu qu'elles n'étaient pas complètement adaptées à ce
langage, parce que :
- elles n'ont pas été prévues pour imposer un format précis aux données
- elles n'offrent qu'un typage très limité des données (ce qui est gênant pour leur échange)
- elles sont difficiles à manipuler
- …
Pour pallier à ces limites, le W3C a donc entrepris des travaux qui ont abouti en 2001 à la normalisation de schemas XML qui spécifient comment décrire et valider des structures de données. Ces schemas jouent exactement le même rôle que les DTD dans une application XML, mais avec des possibilités plus grandes de structuration.
Tout d'abord, ils permettent d'exercer des contraintes supplémentaires sur les données en associant au document XML un ensemble de types de données (datatypes) plus complet.
Ces contraintes concernent exclusivement le format utilisé pour la
saisie des caractéristiques que peuvent prendre les éléments et les
attributs d'un document XML.
Ensuite, ils permettent
de valider le code XML en utilisant des Namespaces (espaces de nommage
ou espaces de noms selon les traductions) dont l'objectif est de
«qualifier de manière unique des éléments et des attributs. On sait
alors à quel domaine de définition se rapporte un objet et comment il
doit être interprété, selon sa spécification.»
Autre avantage : un schéma XML peut être édité et manipulé à partir de tout outil d'édition ou de traitement XML.
Les
possibilités des schemas sont réelles et peuvent s'avérer très utiles
dans certains contextes, y compris des applications documentaires. Voir
par exemple quelques applications dans le secteur public :
- le référentiel de gestion du répertoire des schémas XML de l'administration (.pdf, octobre 2002) et le répertoire des schémas XML des administrations (juin 2004)
- les schemas de service-public.fr
- le schema de l'INSEE
Ressources et références :
- Traduction de la recommandation XML Schema du W3C,
- Sur mutu-xml : la page Schema, la page Namespace et un tutoriel sur les schemas XML
- Faisons le point sur les langages de schéma XML (Clever age, février 2004)
- Recommandation XML-Namespace du W3C en version française
- Les schemas XML, université d'Evry
Quelques lectures pour conclure :
- L'avenir des formats de données (BBF, 2001)
- Quelques exemples de documents dans différents formats :eBooks Open Source, Livres et Documents numériques Publics, Formats HTML, PDF, LIT, XML DocBook et TEI avec sources LATEX
- XML et les documents structurés, Frédéric Glorieux (.pdf, 2003)
07 février 2005
Les DTD : 6. MARCXML
C'est suite à un commentaire sur le billet traitant de BiblioML que j'ai décidé d'ajouter un épisode sur MARCXML à la saga des DTD...
Pour faire simple, on peut dire que MARCXML est une DTD pour les notices catalographiques au format MARC21.
Pour mémoire, MARC (MAchine-Readable Cataloging) est un format de données né en 1965 à la Bibliothèque du Congrès qui permet d'informatiser les catalogues de bibliothèques. MARC21 est l'une de ses variantes reconnue par l'IFLA (International Federation of Library Associations and Institutions) comme format d'échange. Ce sont notamment les bibliothèques anglo-saxonnes et canadiennes qui utilisent MARC21.
Au milieu des années 1990, le Network Development and MARC Standards Office a développé des DTD permettant de convertir des données de catalogage de type MARC au format SGML. Par la suite, avec le développement de XML, ces DTD sont devenues des DTD XML.
Les créateurs de Grisemine (voir ci-dessous) disent de MARCXML qu'il "allie
la rigueur du format MARC, sa pertinence à la description
catalographique, aux qualités d'interopérabilité offertes par XML". Et
donc, à chaque champ MARC correspond un élément XML. On retrouve donc
des éléments de titre, d'édition, de description, de sujet, etc.
Pour une illustration de MARCXML, voir Grisemine, la bibliothèque numérique de littérature grise francophone du Service commun de documentation de l'Université des Sciences
et Technologies de Lille. Lors du catalogage, les notices sont
saisies directement en XML en respectant la DTD MARCXML. Elles sont
ensuite disponibles en 3 versions
sur le site (notice catalographique, notice détaillée, notice XML). De
plus, le texte intégral (format .pdf) du document est mis en ligne.
Quant à Claude Dumais de l'EBSI (l'École de bibliothéconomie et des sciences de l'information de l'Université de Montréal), il écrit qu'un "changement dans le format MARC s'impose afin de le rendre pleinement opérationnel vis-à-vis des importantes transformations sur le repérage et l'utilisation des données bibliographiques" car aujourd'hui la diffusion de l'information revêt une valeur stratégique. Il pense qu'"avec le langage XML, l'ouverture complète sur le Web des catalogues en ligne est possible et permettra une pleine interopérabilité dans la recherche de l'information. Le MARC-XML aura pour conséquence une meilleure diversification du rôle des bibliothèques par la mise en disponibilité de services complémentaires, tous accessibles à l'utilisateur à partir de son navigateur."
Il y aura certainement prochainement du nouveau au sujet de MARCXML puisque le sous groupe SC4 (interopérabilité technique) du comité technique ISO TC46 (information-documentation) a adopté en octobre dernier une résolution recommandant "qu'un nouveau sujet d'étude soit entreprise pour définir un format MARCXML international compatible avec la norme ISO 2709" (format pour l'échange d'information).
Ressources et références
- Page officielle de MARCXML
- MARC in XML : tout ce qui concerne MARC... en XML
- Signalée par Wikipedia, une présentation des formats MARC par Françoise Leresche (format .pdf, octobre 2004)
- Le format MARC21, Marcel Plourde, Bibliothèque de l'Université de Laval, juin 2004
- Quel avenir pour MARC21 ? (format .ppt), Pierre Gavin, AELIS (Association of International Librarians and Information Specialists), Genève, avril 2004
- MARC - XML, Claude Dumais, article publié dans Cursus (revue de l'EBSI) en 2004
- Grisemine, une bibliothèque numérique de littérature grise universitaire, communication de ses créateurs lors du 5ème colloque international sur la littérature grise (GL5), Amsterdam, décembre 2003
Les épisodes précédents : introduction, EAD, TEI, DocBook, BiblioML. A venir : conclusion.
16 janvier 2005
Les DTD : 5. BiblioML
Pour finir la série des DTD, voici BiblioML, ou Bibliographic Markup Language, né de la volonté du Ministère de la culture de mettre en place un outil commun
de gestion des références bibliographiques de ses applications XML
(dossiers d'inventaire, dossiers d'artistes, rapports de fouilles,
etc.).
C'est en 1999 que la Mission de la recherche et de la technologie a fait développer par Martin Sévigny de la société AJLSM cette DTD pour représenter toutes les informations que l'on trouve dans une notice Unimarc (bibliographique et autorités) en format XML.
Rappel : "Unimarc
est un format informatique international des données bibliographiques
permettant les échanges entre logiciels documentaires ou bases de
données bibliographiques. Principalement défini par l'IFLA
(International Federation of Library and Institutions), Unimarc est
conforme à la norme ISO 2709 (format pour l'échange d'information)."
BiblioML permet la conversion au format XML de notices bibliographiques ou d'autorité saisies en format Unimarc.D'ailleurs, le Manuel Unimarc
a servi de document de référence lors de la création de la DTD et les
champs et sous-champs de BiblioML correspondent à ceux d'UNIMARC.
BiblioML comporte 224 éléments (BiblioRecord étant celui de plus haut
niveau), 2 entités (BooleanAttribute et DataContent) mais aucune
notation.
S'appuyant sur BiblioML, Martin Sévigny a développé Bib-X en collaboration avec la DRAC de Lorraine. C'est un outil (toujours en cours de développement ???) qui "permet
de créer des références bibliographiques, de les modifier, d'en
importer, d'en exporter, et bien entendu de les consulter, c'est-à-dire
effectuer des recherches et afficher les résultats." Il s'agit en fait d'un dérivé de SDX,
outil de recherche et de consultation de documents XML entièrement
composé de logiciels libres et qui s'appuie sur le moteur de
recherche Lucene.
Voici quelques applications utilisant BiblioML :
- Base de documents SANGIS (Réseau du sud-est asiatique pour un système d'informations géologiques SANGIS) du CIFEG (centre international pour la formation et les échanges en géosciences) : base de données BiblioML pour la diffusion d'un catalogue collectif de références bibliographiques dans le domaine des sciences de la terre.
- Bibliographie nationale française (en ligne depuis juillet 2001). Les notices bibliographiques sont d'abord cataloguées en Intermarc puis extraites en Unimarc, et ensuite converties en XML selon la DTD BiblioML. Un serveur de transformation produit enfin des pages HTML pour publication sur le Web.
- Dossiers d'artistes : projet du Ministère de la culture et de la communication, ayant pour but de mettre en place une infrastructure permettant de gérer et diffuser des dossiers d'artistes complets et riches, incluant des références bibliographiques.
Réssources et références :
- site officiel de biblioML
- page BiblioML sur le wiki de l'ADNX (Association pour la Documentation Numérique en XML)
- présentation de BiblioML au séminaire des documentalistes des Ecoles d'architecture (Paris, juillet 2003)
Les épisodes précédents : introduction, EAD, TEI, DocBook. A venir : conclusion.
03 janvier 2005
Les DTD : 4. DocBook
Pour commencer l'année, voici la suite de la saga des DTD... L'épisode du jour aborde DocBook, né
en 1992 à la suite d'un projet commun de HaL Computer Systems et
l'éditeur O'Reilly visant à faciliter l'échange de documentation UNIX.
En guise de définition, je vous propose un extrait de l'introduction du DocBook Install mini-HOWTO de Robert B. Easter (version française sur traduc.org) :
DocBook est une DTD destinée à la rédaction de livres et d'articles qui «définit un ensemble de balises pour des documents littéraux, et qui fonctionne comme le langage HTML utilisé habituellement sur le Web. (…) Lors de son traitement, un
unique fichier SGML DocBook peut produire des fichiers HTML, PDF, PS,
TXT ou d'autres formats de publication papier ou électronique. Le traitement est régi par des feuilles de style qui
peuvent générer automatiquement une table des matières, la numérotation
des pages, la numérotation des chapitres et des sections, et bien
d'autres possibilités.»
A l'instar de la TEI, DocBook sert à baliser des textes narratifs, mais on l'utilise surtout pour produire de la documentation technique dans les domaines de l'informatique, des télécommunications et des technologies de l'information qu'il vise. Comme il permet de séparer le contenu du document de sa présentation et qu'il s'agit d'un format libre et largement documenté, il garantit des documents pérennes. Il est particulièrement adapté au travail partagé de plusieurs auteurs ainsi qu'aux collections importantes de documents devant être mises à jour ou réorganisées fréquemment.
DocBook comporte près de 400 éléments répartis en 2 catégories :
- hiérarchie : éléments structurels
- information : éléments qui contiennent les données elles-mêmes (contenu)
Ses 3 éléments de départ sont :
- Set : il s'agit de l'élément de plus haut niveau (collection, recueil de livres....)
- Book : élément de départ le plus commun pour un document DocBook. Il est constitué :
- d'un titre (Title), sous-titre (Subtitle) et titre abrégé (TitleAbbrev), optionnels,
- de métainformations (BookInfo) optionnelles
- et d'un nombre quelconque, dans un ordre quelconque, d'éléments comme préface, chapitre, annexes... qui peuvent contenir des sections contenant elles-mêmes des paragraphes, des listes, des figures, des exemples, etc. - Article : constitué d'une introduction (avec des éléments titre, des métainformations..), du corps de l'article et d'une conclusion.
Pour des exemples de documents produits avec DocBook voir :
- "Utilisation simplifiée de DocBook", document réalisé dans le cadre des projets autour des logiciels libres au Ministère de l'éducation nationale.
- La feuille de style XSLT OOo2sDbk qui permet de convertir les documents OpenOffice-Writer au format Docbook simplifié.
Références et ressources :
- Site "officiel" DocBook
- Site de Norman Walsh, animateur du DocBook Technical Committee
- Le Wiki DocBook propose une liste de tutoriels en plusieurs langues dont le français
- Manuel DocBook en français et en anglais
- DocBook, la quatrième dimension de la documentation technique par Camille Bégnis (pdf, 2002)
Les épisodes précédents : introduction, EAD, TEI. Les épisodes à venir : BiblioML, conclusion
20 décembre 2004
Les DTD : 3. la DTD TEI
Pour continuer mon énumération des DTD à connaître, je vais m'attarder sur la TEI ou Text Encoding Initiative, issue des travaux de chercheurs de Vassar College (Etats-Unis) en 1987.
Voici d'abord une définition (extraite du 3ème document de la liste de références ci-dessous) : "La TEI que l'on pourrait traduire par groupe d'initiative pour le balisage normalisé des textes est une norme de balisage, de notation et d'échange de corpus des documents électroniques
fondée sur le SGML. Elle s'est élaborée pragmatiquement à partir des
besoins de structuration, de conceptualisation et de mise en réseau de
textes."
Plus simplement, la DTD TEI, fondée à l'origine sur le SGML et s'appuyant désormais sur le XML,
est un langage de marquage qui permet d'échanger des données
textuelles, notamment pour les sciences humaines et les études sur les
textes littéraires. Une version allégée dite TEI Lite contient les définitions des éléments les plus couramment utilisés.
Ses éléments recouvrent toutes les spécificités littéraires,
qu'elles concernent le document lui même (paragraphes, strophes,
chapitres, notes de bas de page, etc.) ou qu'elles lui soient
extérieures (commentaire éditorial, interprétation, analyse, etc.).
Ainsi, tout texte conforme à la TEI comporte :
- un en-tête TEI balisé comme un élément
- la transcription du texte lui-même balisé comme un élément
L'en-tête
TEI est obligatoire et contient des informations analogues à celles que
l'on trouve sur la page de titre d'un texte imprimé. Il fournit donc
des métadonnées sur le document balisé telles que la source, les
principes retenus pour le balisage, des informations sur l'histoire du
texte, en particulier ses révisions et modifications.
Pour des applications de la TEI en France, voir deux projets (concurrents ?) concernant les thèses électroniques :
- SPARTE : il s'agit de la chaîne de traitement des thèses électroniques gérée par l'ABES (Agence Bibliographique de l'Enseignement Supérieur) et le CINES (Centre Informatique de l'Enseignement Supérieur) dont l'objectif est la diffusion et l'archivage des thèses déposées sous forme électronique. SPARTE permet la conversion des thèses du format RTF au format XML TEI Lite ainsi que la gestion des métadonnées et du bordereau de chaque thèse.
- Cyberdocs : plateforme dédiée au traitement, à la diffusion et à l'archivage des thèses dans le cadre du projet Cyberthèses. Elle permet de structurer des documents issus de traitements de texte et de les publier sur Internet, à l'aide de XML et la DTD TEI Lite.
Références et ressources :
- Site "officiel" de la TEI
- La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange, traduction française d'un texte de Lou Barnard et C.M. SPERBERG-MCQUEEN (1996)
- La Text Encoding Initiative : les moyens pour ajouter de la valeur à un texte numérisé par Guylaine Beaudry (ESBI, 1996)
- TEI - Text encoding initiative par Laurent Romary (CNRS-Loria) et Henri Hudrisier (Université de Paris 8)
- Introduction à la TEI sur Texto !, site consacré à la sémantique des textes (2003)
[Edit 06/11/05] Et pour vraiment tout savoir sur TEI, voir la saga de la TEI de Got....
Les épisodes précédents : introduction, EAD. Les épisodes à venir : DocBook, BiblioML, conclusion
13 décembre 2004
Les DTD : 2. la DTD EAD
Après une mise en bouche sur les DTD en général, voici quelques lignes sur celle que je connais le mieux : la DTD EAD.
La DTD EAD est destinée à la description d'une production documentaire (méta données descriptives) et permet de structurer les instruments de recherche de type archivistique : inventaires, répertoires, catalogues de collections... Elle est fondée sur la norme SGML et est compatible avec XML. D'autres standards lui sont apparentés : TEI (dont le parlerai prochainement), MARC et ISAAR.
Elle offre notamment la possibilité d'utiliser le contenu des instruments de recherche électroniques comme des données (structuration des instruments de recherche archivistiques), d'échanger des données standardisées, d'assurer aux données longévité et migration, d'avoir une présentation, une navigation et une recherche structurées.
Elle est parfaitement compatible avec la norme internationale de description archivistique ISAD(G) et est considérée comme le meilleur outil pour mettre en œuvre les principes de cette norme. Sa première version officielle 1.0 a été diffusée par la Society of American Archivists en septembre 1998. Une nouvelle version "2002" a été publiée par la suite.
En France, c'est la Direction des Archives de France
qui assure la promotion de la DTD EAD, dans le cadre de sa politique
visant à favoriser l'émergence et le développement de systèmes
d'information utilisant des formats d'échange et des protocoles
reposant sur des standards, normes et recommandations internationales
garantissant leur interopérabilité et assurant leur évolution future.
- 145 éléments non obligatoires et dont l'ordre est très souple. De plus, tous les éléments descriptifs utilisables au plus haut niveau sont également utilisables à chaque niveau subordonné.
- 2 segments principaux
- en-tête <eadheader>
- description archivistique <archdesc>, contenant la description des sous composants <dsc> - des niveaux hiérarchiques de description ayant les mêmes balises possibles
Pour
avoir une idée du résultats que la DTD EAD permet d'obtenir, voir ces 2
instruments de recherche du Centre Historique des Archives Nationales
(CHAN) convertis en XML/EAD :
Quelques ressources sur la DTD EAD :
- le site officiel de la DTD EAD version 2002 et des pages d'aide pour son utilisation,
- la page DTD EAD de la Direction des Archives de France et son Bulletin sur la DTD EAD,
- "la DTD EAD dans les archives et les bibliothèques", un article de Ghislaine Chartron paru dans le BBF en 2003,
- le guide pour la mise en oeuvre de la DTD EAD 2002 au CHAN. Il s'agit d'un guide comprenant des recommandations pour la mise en oeuvre des instruments de recherche en XML/EAD au CHAN et mis à la disposition du public sur internet.
[edit 14/07/2005]
La Direction des Archives de France vient de mettre en ligne Faire
un répertoire ou un inventaire simple avec l'EAD, le manuel d'encodage en EAD (pdf) proposé par le groupe de travail groupe de travail AFNOR/CG46/CN357/GE3.
Voir aussi sur le même site le Référentiel
des applications françaises de l'EAD.
[edit 22/10/2005] Dans son bulletin sur l'EAD de septembre 2005, la Direction des Archives de France nous signale qu'un groupe de travail a été créé afin de transformer la DTD EAD en schéma pour :
- permettre une saisie plus cohérente des données
- être en mesure d’utiliser les noms de domaines et d’inclure le schéma EAD dans d’autres schémas (par exemple METS) ou d’inclure d’autres DTD ou d’autres schémas dans l’EAD (par exemple la TEI)
- gérer la Tag Library et les règles de gestion dans un document unique
Episode précédent : introduction. Episodes à venir : TEI, DocBook, BiblioML, conclusion.
09 décembre 2004
Les DTD : 1. introduction
Pour changer, je me lance dans une série sur les DTD, en français Définition de Type de Document.
Les DTD font partie des spécifications liées à XML. Schématiquement, une DTD est un document permettant de décrire un modèle de document XML ou SGML.
L'Office québécois de la langue française en donne la définition suivante : "établissement
d'un modèle de structure logique d'un document, à partir de la
définition d'un ensemble de métadonnées qui permettent de fixer les
éléments qui entreront dans la composition du document, ainsi que les
liens et la nature des liens (obligatoires, facultatifs, répétitifs ou
non répétitifs, etc.) qui uniront ces mêmes éléments."
Le rôle d'une DTD est de définir la structure d'un document XML.
Elle se caractérise par un ensemble de règles spécifiant les éléments
de ce document XML, leur ordre et leur fréquence d'apparition.
Cependant,
les DTD sont des caractéristiques optionnelles dans les fichiers XML.
Quand un fichier XML n'est pas accompagné d'une DTD, il devra alors
être "bien formé" et respecter les règles imposées par XML. Avec une
DTD il est automatiquement considéré comme valide puisque la définition
des marqueurs du document est intégrée.
Les DTD sont construites à partir d'ensembles de déclarations permettant de définir le type, la nature et les contraintes liées à chaque nouvelle balise :
- la déclaration de types d'éléments (pour définir le contenu du fichier XML),
- la déclaration de listes d'attributs (pour enrichir la sémantique des éléments),
- la déclaration d'entités,
- la déclaration de notations.
Mais pourquoi évoquer XML et les DTD ? Tout simplement parce qu'il existe des DTD pour de nombreux types documentaires et qu'une DTD associée à XML permet de structurer et modéliser des données, de les échanger, de les publier sur le web, etc... Pour plus d'arguments, voir les 4 documents traitant d'XML pour les bibliothécaires et documentalistes cités dans mon billet du 10/11/2004.
Pour en savoir plus sur les DTD :
- La page DTD de CCM
- Lire et écrire une DTD, un tutoriel de JDN Développeurs
A venir : EAD, TEI, DocBook et BiblioML, des DTD utiles aux professionnels de l'information-documentation.
