BlogOKat

Documentation, technologies de l'information, internet, etc...

06 novembre 2005

La saga des DTD : la saga de la TEI

L'épisode sur TEI de la saga des DTD a vocation à présenter TEI d'une manière synthétique et de donner quelques pistes sur le sujet... Pour vraiment tout savoir sur la TEI, c'est du côté des Petites cases qu'il faut aller voir. En effet, Got est en train de construire une véritable saga de la TEI :

[edit] Got m'apprend (voir le commentaire du message précédent) qu'il vient de créer une rubrique rien que pour la TEI...

Posté par BlogOKat à 10:31 - La saga des DTD - Commentaires [2] - Rétroliens [0] - Permalien [#]

15 avril 2005

Du nouveau pour TEI

ARTIST (Appropriation par la Recherche des Technologies de l'IST) vient d'annoncer la création d'un centre support européen pour la TEI et d'une nouvelle liste de diffusion TEI.fr.
Sur son site, voir aussi Thèses électroniques dans le Cyber Espace, un panorama des thèses en ligne.
(Source : biblio.fr)

MAJ 25/04 : et en plus, la TEI a un wiki [merci (pluri)TAL]

Posté par BlogOKat à 14:28 - La saga des DTD - Commentaires [0] - Rétroliens [0] - Permalien [#]

07 mars 2005

La saga des DTD : le final

Après  un prologue sur les DTD en général, quelques mots sur quelques DTD  importantes pour les professionnels de l'information-documentation (EAD, TEI, DocBook, BiblioML et MARCXML), nous voici à l'épilogue de la saga des DTD...
 
A l'origine les DTD étaient des outils pour SGML. N'étant pas écrites en XML, il est apparu qu'elles n'étaient pas complètement adaptées à ce langage, parce que :
  - elles n'ont pas été prévues  pour imposer un format précis aux données
  - elles n'offrent qu'un  typage très limité des données (ce qui est gênant pour leur échange)
  - elles sont difficiles à  manipuler
  - …

Pour pallier à ces limites,  le W3C a donc entrepris des travaux qui ont abouti en 2001 à la normalisation  de schemas XML qui spécifient comment décrire et valider des structures de données. Ces schemas jouent exactement le même rôle que les DTD dans une application XML, mais avec des possibilités plus grandes de structuration.



Tout d'abord, ils permettent d'exercer des contraintes  supplémentaires sur les données en associant au document XML un
ensemble de types de données (datatypes) plus complet. Ces contraintes concernent exclusivement le format utilisé pour la saisie des caractéristiques que peuvent prendre les éléments et les attributs d'un document XML.


Ensuite, ils permettent de valider le code XML en utilisant des Namespaces (espaces de nommage ou espaces de noms selon les traductions) dont l'objectif est de «qualifier de manière unique des éléments et des attributs. On sait alors à quel domaine de définition se rapporte un objet et comment il doit être interprété, selon sa spécification.»
Autre avantage : un schéma XML peut être édité et manipulé à  partir de tout outil d'édition ou de traitement XML.

Les possibilités des schemas sont réelles et peuvent s'avérer très utiles dans certains contextes, y compris des applications documentaires. Voir par exemple quelques applications dans le secteur public :       

Ressources et références :   

Quelques lectures pour conclure :

Posté par BlogOKat à 21:43 - La saga des DTD - Commentaires [0] - Rétroliens [0] - Permalien [#]

07 février 2005

Les DTD : 6. MARCXML

C'est suite à un commentaire sur le billet traitant de BiblioML que j'ai décidé d'ajouter un épisode sur MARCXML à la saga des DTD...
Pour faire simple,
on peut dire que MARCXML est une DTD pour les notices catalographiques au format MARC21.
Pour mémoire, MARC (MAchine-Readable Cataloging) est un format de données né en 1965 à la Bibliothèque du Congrès qui permet d'informatiser les catalogues de bibliothèques. MARC21 est l'une de ses variantes reconnue par l'IFLA (
International Federation of Library Associations and Institutions) comme format d'échange. Ce sont notamment les bibliothèques anglo-saxonnes et canadiennes qui utilisent MARC21.
Au milieu des années 1990,
le Network Development and MARC Standards Office
a développé des DTD permettant de convertir des données de catalogage de type MARC au format SGML. Par la suite, avec le développement de XML, ces DTD sont devenues des DTD XML.

Les créateurs de
Grisemine (voir ci-dessous) disent de MARCXML qu'il "allie la rigueur du format MARC, sa pertinence à la description catalographique, aux qualités d'interopérabilité offertes par XML". Et donc, à chaque champ MARC correspond un élément XML. On retrouve donc des éléments de titre, d'édition, de description, de sujet, etc.

Pour une illustration de MARCXML, voir
Grisemine, la bibliothèque numérique de littérature grise francophone du Service commun de documentation de l'Université des Sciences et Technologies de Lille. Lors du catalogage, les notices sont saisies directement en XML en respectant la DTD MARCXML. Elles sont ensuite disponibles en 3 versions sur le site (notice catalographique, notice détaillée, notice XML). De plus, le texte intégral (format .pdf) du document est mis en ligne.

Par ailleurs, dans le milieu des bibliothèques, on s'interroge sur l'avenir de MARC : "Le temps des formats MARC est compté, puisque nous verrons arriver, dans les prochaines années, des logiciels dont les données seront structurées en XML." (JP Gaschniard, voir le document de Pierre Gavin référencé ci-dessous)
Quant à Claude Dumais de l'EBSI (
l'École de bibliothéconomie et des sciences de l'information de l'Université de Montréal), il écrit qu'un "changement dans le format MARC s'impose afin de le rendre pleinement opérationnel vis-à-vis des importantes transformations sur le repérage et l'utilisation des données bibliographiques" car aujourd'hui la diffusion de l'information revêt une valeur
stratégique. Il pense qu'"avec le langage XML, l'ouverture complète sur le Web des catalogues en ligne est possible et permettra une pleine interopérabilité dans la recherche de l'information. Le MARC-XML aura pour conséquence une meilleure diversification du rôle des bibliothèques par la mise en disponibilité de services complémentaires, tous accessibles à l'utilisateur à partir de son navigateur."

Il y aura certainement prochainement du nouveau au sujet de MARCXML puisque le sous groupe SC4 (interopérabilité technique) du comité technique ISO TC46 (information-documentation) a adopté en octobre dernier une résolution recommandant "qu'un nouveau sujet d'étude soit entreprise pour définir un format MARCXML international compatible avec la norme ISO 2709"
(format pour l'échange d'information).

Ressources et références
Merci à Thierry Stoehr pour m'avoir incitée à aller jusqu'au bout de ce billet qui trainait depuis un moment...
Les épisodes précédents : introduction, EAD, TEI, DocBook, BiblioML. A venir : conclusion.

Posté par BlogOKat à 19:12 - La saga des DTD - Commentaires [2] - Rétroliens [0] - Permalien [#]

16 janvier 2005

Les DTD : 5. BiblioML

Pour finir la série des DTD, voici BiblioML, ou Bibliographic Markup Language, né de la volonté du Ministère de la culture de mettre en place un outil commun de gestion des références bibliographiques de ses applications XML (dossiers d'inventaire, dossiers d'artistes, rapports de fouilles, etc.).
C'est en 1999 que la Mission de la recherche et de la technologie a fait développer par Martin Sévigny de la société AJLSM cette DTD pour représenter toutes les informations que l'on trouve dans une notice Unimarc (bibliographique et autorités) en format XML.
Rappel : "Unimarc est un format informatique international des données bibliographiques permettant les échanges entre logiciels documentaires ou bases de données bibliographiques. Principalement défini par l'IFLA (International Federation of Library and Institutions), Unimarc est conforme à la norme ISO 2709 (format pour l'échange d'information)."
BiblioML permet la conversion au format XML de notices bibliographiques ou d'autorité saisies en format Unimarc.D'ailleurs, le Manuel Unimarc a servi de document de référence lors de la création de la DTD et les champs et sous-champs de BiblioML correspondent à ceux d'UNIMARC. BiblioML comporte 224 éléments (BiblioRecord étant celui de plus haut niveau), 2 entités (BooleanAttribute et DataContent) mais aucune notation.

    S'appuyant sur BiblioML, Martin Sévigny a développé Bib-X en collaboration avec la DRAC de Lorraine. C'est un outil (toujours en cours de développement ???) qui "permet de créer des références bibliographiques, de les modifier, d'en importer, d'en exporter, et bien entendu de les consulter, c'est-à-dire effectuer des recherches et afficher les résultats." Il s'agit en fait d'un dérivé de SDX, outil de recherche et de consultation de documents XML entièrement composé de logiciels libres et qui s'appuie sur le moteur de recherche Lucene.

    Voici quelques applications utilisant BiblioML :

    • Base de documents SANGIS (Réseau du sud-est asiatique pour un système d'informations géologiques SANGIS) du CIFEG (centre international pour la formation et les échanges en géosciences) : base de données BiblioML pour la diffusion d'un catalogue collectif de références bibliographiques dans le domaine des sciences de la terre.
    • Bibliographie nationale française (en ligne depuis juillet 2001). Les notices bibliographiques sont d'abord cataloguées en Intermarc puis extraites en Unimarc, et ensuite converties en XML selon la DTD BiblioML. Un serveur de transformation produit enfin des pages HTML pour publication sur le Web.
    • Dossiers d'artistes : projet du Ministère de la culture et de la communication, ayant pour but de mettre en place une infrastructure permettant de gérer et diffuser des dossiers d'artistes complets et riches, incluant des références bibliographiques.

      Réssources et références :

      Les épisodes précédents : introduction, EAD, TEI, DocBook. A venir : conclusion.

      Posté par BlogOKat à 21:07 - La saga des DTD - Commentaires [3] - Rétroliens [0] - Permalien [#]

      03 janvier 2005

      Les DTD : 4. DocBook

      Pour commencer l'année, voici la suite de la saga des DTD...  L'épisode du jour aborde DocBook, né en 1992 à la suite d'un projet commun de HaL Computer Systems et l'éditeur O'Reilly visant à faciliter l'échange de documentation UNIX.

      En guise de définition, je vous propose un extrait de l'introduction du DocBook Install mini-HOWTO de Robert B. Easter (version française sur traduc.org) :
      DocBook est une DTD destinée à la rédaction de livres et d'articles qui «définit un ensemble de balises pour des documents littéraux, et qui fonctionne comme le langage HTML utilisé habituellement sur le Web. (…) Lors de son traitement, un unique fichier SGML DocBook peut produire des fichiers HTML, PDF, PS, TXT ou d'autres formats de publication papier ou électronique. Le traitement est régi par des feuilles de style qui peuvent générer automatiquement une table des matières, la numérotation des pages, la numérotation des chapitres et des sections, et bien d'autres possibilités.»

      Aujourd'hui, c'est le DocBook Technical Committee de l'OASIS (Organization for the Advancement of Structured Information Standards) qui se charge de sa maintenance et de son évolution. Initialement développé en SGML, DocBook est désormais disponible en XML et se décline en une version simplifiée (Simplified DocBook).

      A l'instar de la TEI, DocBook sert à baliser des textes narratifs, mais on l'utilise surtout pour produire de la documentation technique dans les domaines de l'informatique, des télécommunications et des technologies de l'information qu'il vise. Comme il permet de séparer le contenu du document de sa présentation et qu'il s'agit d'un format libre et largement documenté, il garantit des documents pérennes. Il est particulièrement adapté au travail partagé de plusieurs auteurs ainsi qu'aux collections importantes de documents devant être mises à jour ou réorganisées fréquemment.

      DocBook comporte près de 400 éléments répartis en 2 catégories :

      • hiérarchie : éléments structurels
      • information : éléments qui contiennent les données elles-mêmes (contenu)

      Ses 3 éléments de départ sont :

      • Set : il s'agit de l'élément de plus haut niveau (collection, recueil de livres....)
      • Book : élément de départ le plus commun pour un document DocBook. Il  est constitué :
        - d'un titre (Title), sous-titre (Subtitle) et titre abrégé (TitleAbbrev), optionnels,
        - de métainformations (BookInfo) optionnelles
        - et d'un nombre quelconque, dans un ordre quelconque, d'éléments comme préface, chapitre, annexes... qui peuvent contenir des sections contenant elles-mêmes des paragraphes, des listes, des figures, des exemples, etc.
      • Article : constitué d'une introduction (avec des éléments titre, des métainformations..), du corps de l'article et d'une conclusion.

      Pour des exemples de documents produits avec DocBook voir :

      • "Utilisation simplifiée de DocBook", document réalisé dans le cadre des projets autour des logiciels libres au Ministère de l'éducation nationale.
      • La feuille de style XSLT OOo2sDbk qui permet de convertir les documents OpenOffice-Writer au format Docbook simplifié.

      Références et ressources :

      Les épisodes précédents : introduction, EAD, TEI. Les épisodes à venir : BiblioML, conclusion

      Posté par BlogOKat à 21:20 - La saga des DTD - Commentaires [0] - Rétroliens [0] - Permalien [#]

      20 décembre 2004

      Les DTD : 3. la DTD TEI

      Pour continuer mon énumération des DTD à connaître, je vais m'attarder sur la TEI ou Text Encoding Initiative, issue des travaux de chercheurs de Vassar College (Etats-Unis) en 1987.

      Voici d'abord une
      définition (extraite du 3ème document de la liste de références ci-dessous) : "La TEI que l'on pourrait traduire par groupe d'initiative pour le balisage normalisé des textes est une norme de balisage, de notation et d'échange de corpus des documents électroniques fondée sur le SGML. Elle s'est élaborée pragmatiquement à partir des besoins de structuration, de conceptualisation et de mise en réseau de textes." 

      Plus simplement, la DTD TEI, fondée à l'origine sur le SGML et s'appuyant désormais sur le XML, est un langage de marquage qui permet d'échanger des données textuelles, notamment pour les sciences humaines et les études sur les textes littéraires.
      Une version allégée dite TEI Lite contient les définitions des éléments les plus couramment utilisés.
      Ses éléments recouvrent toutes les spécificités littéraires, qu'elles concernent le document lui même (paragraphes, strophes, chapitres, notes de bas de page, etc.) ou qu'elles lui soient extérieures (commentaire éditorial, interprétation, analyse, etc.).
      Ainsi, tout texte conforme à la TEI comporte :

      • un en-tête TEI balisé comme un élément
      • la transcription du texte lui-même balisé comme un élément

      L'en-tête TEI est obligatoire et contient des informations analogues à celles que l'on trouve sur la page de titre d'un texte imprimé. Il fournit donc des métadonnées sur le document balisé telles que la source, les principes retenus pour le balisage, des informations sur l'histoire du texte, en particulier ses révisions et modifications.

      Pour des applications de la TEI en France
      , voir deux projets (concurrents ?) concernant les thèses électroniques :

      • SPARTE : il s'agit de la chaîne de traitement des thèses électroniques gérée par  l'ABES (Agence Bibliographique de l'Enseignement Supérieur) et le CINES (Centre Informatique de l'Enseignement Supérieur) dont l'objectif est la diffusion et l'archivage des thèses déposées sous forme électronique. SPARTE permet la conversion des thèses du format RTF au format XML TEI Lite ainsi que la gestion des métadonnées et du bordereau de chaque thèse.
      • Cyberdocs : plateforme dédiée au traitement, à la diffusion et à l'archivage des thèses dans le cadre du projet Cyberthèses. Elle permet de structurer des documents issus de traitements de texte et de les publier sur Internet, à l'aide de XML et la DTD TEI Lite.

      Références et ressources :

      [Edit 06/11/05] Et pour vraiment tout savoir sur TEI, voir la saga de la TEI de Got....

      Les épisodes précédents : introduction, EAD. Les épisodes à venir : DocBook, BiblioML, conclusion

      Posté par BlogOKat à 09:24 - La saga des DTD - Commentaires [3] - Rétroliens [0] - Permalien [#]

      13 décembre 2004

      Les DTD : 2. la DTD EAD

      Après une mise en bouche sur les DTD en général, voici quelques lignes sur celle que je connais le mieux : la DTD EAD.
      La DTD EAD est destinée à la description d'une production documentaire (méta données descriptives) et permet de structurer les instruments de recherche de type archivistique : inventaires, répertoires, catalogues de collections... Elle est fondée sur la norme SGML et est compatible avec XML. D'autres standards lui sont apparentés : TEI (dont le parlerai prochainement), MARC et ISAAR.

      Elle offre notamment la possibilité d'utiliser le contenu des instruments de recherche électroniques comme des données (structuration des instruments de recherche archivistiques), d'échanger des données standardisées, d'assurer aux données longévité et migration, d'avoir une présentation, une navigation et une recherche structurées.

      Elle est parfaitement compatible avec la norme internationale de description archivistique ISAD(G) et est considérée comme le meilleur outil pour mettre en œuvre les principes de cette norme. Sa première version officielle 1.0 a été diffusée par la Society of American Archivists en septembre 1998. Une nouvelle version "2002" a été publiée par  la suite.

      En France, c'est la Direction des Archives de France qui assure la promotion de la DTD EAD, dans le cadre de sa politique visant à favoriser l'émergence et le développement de systèmes d'information utilisant des formats d'échange et des protocoles reposant sur des standards, normes et recommandations internationales garantissant leur interopérabilité et assurant leur évolution future.

      Structure de l'EAD :

      • 145 éléments non obligatoires et dont l'ordre est très souple. De plus, tous les éléments descriptifs utilisables au plus haut niveau sont également utilisables à chaque niveau subordonné.
      • 2 segments principaux
        - en-tête <eadheader>

        - description archivistique <archdesc>, contenant la description des sous
        composants <dsc>
      • des niveaux hiérarchiques de description ayant les mêmes balises possibles

        Pour avoir une idée du résultats que la DTD EAD permet d'obtenir, voir ces 2 instruments de recherche du Centre Historique des Archives Nationales (CHAN) convertis en XML/EAD :

        Quelques ressources sur la DTD EAD : 

        [edit 14/07/2005] La Direction des Archives de France vient de mettre en ligne Faire un répertoire ou un inventaire simple avec l'EAD, le manuel d'encodage en EAD (pdf) proposé par le groupe de travail groupe de travail AFNOR/CG46/CN357/GE3.
        Voir aussi sur le même site le
        Référentiel des applications françaises de l'EAD.

        [edit 22/10/2005] Dans son bulletin sur l'EAD de septembre 2005, la Direction des Archives de France nous signale qu'un groupe de travail a été créé afin de transformer la DTD EAD en schéma pour :

        • permettre une saisie plus cohérente des données
        •  être en mesure d’utiliser les noms de domaines et d’inclure le schéma EAD dans d’autres schémas (par exemple METS) ou d’inclure d’autres DTD ou d’autres schémas dans l’EAD (par exemple la TEI)
        •  gérer la Tag Library et les règles de gestion dans un document unique


        Episode précédent : introduction. Episodes à venir : TEI, DocBook, BiblioML, conclusion.

        Posté par BlogOKat à 08:23 - La saga des DTD - Commentaires [2] - Rétroliens [0] - Permalien [#]

        09 décembre 2004

        Les DTD : 1. introduction

        Pour changer, je me lance dans une série sur les DTD, en français Définition de Type de Document.

        Les DTD font partie des spécifications liées à XML. Schématiquement, une DTD est un document permettant de décrire un modèle de document XML ou SGML.
        L'
        Office québécois de la langue française en donne la définition suivante : "établissement d'un modèle de structure logique d'un document, à partir de la définition d'un ensemble de métadonnées qui permettent de fixer les éléments qui entreront dans la composition du document, ainsi que les liens et la nature des liens (obligatoires, facultatifs, répétitifs ou non répétitifs, etc.) qui uniront ces mêmes éléments."

        Le rôle d'une DTD est de définir la structure d'un document XML. Elle se caractérise par un ensemble de règles spécifiant les éléments de ce document XML, leur ordre et leur fréquence d'apparition.
        Cependant, les DTD sont des caractéristiques optionnelles dans les fichiers XML. Quand un fichier XML n'est pas accompagné d'une DTD, il devra alors être "bien formé" et respecter les règles imposées par XML. Avec une DTD il est automatiquement considéré comme valide puisque la définition des marqueurs du document est intégrée.

        Les DTD sont construites à partir d'ensembles de déclarations permettant de définir le type, la nature et les contraintes liées à chaque nouvelle balise :

        • la déclaration de types d'éléments (pour définir le contenu du fichier XML),
        • la déclaration de listes d'attributs (pour enrichir la sémantique des éléments),
        • la déclaration d'entités,
        • la déclaration de notations.

        Mais pourquoi  évoquer XML et les DTD ? Tout simplement parce qu'il existe des DTD pour de nombreux types documentaires et qu'une DTD associée à XML permet de structurer et modéliser des données, de les échanger, de les publier sur le web, etc... Pour plus d'arguments, voir les 4 documents traitant d'XML pour les bibliothécaires et documentalistes cités dans mon billet du 10/11/2004.

        Pour en savoir plus sur les DTD :

        A venir : EAD, TEI, DocBook et BiblioML, des DTD utiles aux professionnels de l'information-documentation.

        Posté par BlogOKat à 09:08 - La saga des DTD - Commentaires [3] - Rétroliens [0] - Permalien [#]



        « Accueil  1