30 décembre 2004
Photos : New York, Empire State Building
29 décembre 2004
Deux nouveaux blogs dans mon agrégateur
Voici d'abord les z'ed,
blog réalisé par Eric Delcroix, enseignant à Lille 3 (UFR IDIST -
Information, Documentation, Information Scientifique et Technique). Les
sujets abordés sont aussi bien la recherche d'information, internet que
divers outils de publication.
C'est grâce à son billet du 21 décembre dernier que j'ai découvert DossierDoc, un blog consacré aux "usages des blogues dans le monde de l'infodoc" et qui a pour ambition de mener une réflexion sur leur usage "par
rapport à d'autres outils de diffusion d'une offre documentaire :
forums, systèmes de gestion de contenu (CGM), systèmes de gestion
documentaires et plus largement un site web".
Sylvie Dalbin, sa créatrice qui est aussi consultante, a d'ailleurs mis en ligne un exemple de dossier documentaire réalisé avec Typepad. Il s'agit là d'une utilisation novatrice et fort intéressante
les blogs (blogues, devrais-je écrire !). Après tout, ce sont des
outils de publication souples, ne nécessitant pas de connaissances
particulières en informatique et qui permettent de mettre à jour des
informations facilement. Les catégories permettent de structurer le
dossier et ont pour vocation à être enrichies en fonction des
information recueillies. Une rubrique ressources rassemble des liens
vers des sites de référence sur la thématique développée. L'historique
des billets et les archives permettent de naviguer dans le dossier.
Consulter le dossier
Pour des précisions : Comment utiliser les blogues pour la diffusion de dossiers documentaires ?
21 décembre 2004
MétroMéta
Je viens de découvrir (mieux vaut tard que jamais !) MétroMéta, un outil réalisé par l'École de Bibliothéconomie et des Sciences de l'Information (EBSI) de Montréal.
Il s'agit d'un plan de métro représentant les normes et métadonnées
applicables dans le domaine des sciences de l'information dont
l'objectif est de "mettre en relief les rapports entre les standards et
les différents intervenants impliqués de leur création jusqu'à leur
utilisation".
C'est vraiment bien fait et pour chaque terme une définition et quelques liens sont proposés.
N.B. : pour pouvoir consulter MétroMéta, il est nécessaire de télécharger le module externe SVG Viewer... je n'ai pas réussi à le faire avec Firefox... pourtant, j'ai cru comprendre qu'il s'agit d'un format ouvert !
Voir aussi le billet du 21 janvier dernier sur nomablog : il y est question de MétroMéta et SVG (et son auteur a eu aussi des problèmes pour télécharger le plugin avec Mozilla).
20 décembre 2004
Les DTD : 3. la DTD TEI
Pour continuer mon énumération des DTD à connaître, je vais m'attarder sur la TEI ou Text Encoding Initiative, issue des travaux de chercheurs de Vassar College (Etats-Unis) en 1987.
Voici d'abord une définition (extraite du 3ème document de la liste de références ci-dessous) : "La TEI que l'on pourrait traduire par groupe d'initiative pour le balisage normalisé des textes est une norme de balisage, de notation et d'échange de corpus des documents électroniques
fondée sur le SGML. Elle s'est élaborée pragmatiquement à partir des
besoins de structuration, de conceptualisation et de mise en réseau de
textes."
Plus simplement, la DTD TEI, fondée à l'origine sur le SGML et s'appuyant désormais sur le XML,
est un langage de marquage qui permet d'échanger des données
textuelles, notamment pour les sciences humaines et les études sur les
textes littéraires. Une version allégée dite TEI Lite contient les définitions des éléments les plus couramment utilisés.
Ses éléments recouvrent toutes les spécificités littéraires,
qu'elles concernent le document lui même (paragraphes, strophes,
chapitres, notes de bas de page, etc.) ou qu'elles lui soient
extérieures (commentaire éditorial, interprétation, analyse, etc.).
Ainsi, tout texte conforme à la TEI comporte :
- un en-tête TEI balisé comme un élément
- la transcription du texte lui-même balisé comme un élément
L'en-tête
TEI est obligatoire et contient des informations analogues à celles que
l'on trouve sur la page de titre d'un texte imprimé. Il fournit donc
des métadonnées sur le document balisé telles que la source, les
principes retenus pour le balisage, des informations sur l'histoire du
texte, en particulier ses révisions et modifications.
Pour des applications de la TEI en France, voir deux projets (concurrents ?) concernant les thèses électroniques :
- SPARTE : il s'agit de la chaîne de traitement des thèses électroniques gérée par l'ABES (Agence Bibliographique de l'Enseignement Supérieur) et le CINES (Centre Informatique de l'Enseignement Supérieur) dont l'objectif est la diffusion et l'archivage des thèses déposées sous forme électronique. SPARTE permet la conversion des thèses du format RTF au format XML TEI Lite ainsi que la gestion des métadonnées et du bordereau de chaque thèse.
- Cyberdocs : plateforme dédiée au traitement, à la diffusion et à l'archivage des thèses dans le cadre du projet Cyberthèses. Elle permet de structurer des documents issus de traitements de texte et de les publier sur Internet, à l'aide de XML et la DTD TEI Lite.
Références et ressources :
- Site "officiel" de la TEI
- La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange, traduction française d'un texte de Lou Barnard et C.M. SPERBERG-MCQUEEN (1996)
- La Text Encoding Initiative : les moyens pour ajouter de la valeur à un texte numérisé par Guylaine Beaudry (ESBI, 1996)
- TEI - Text encoding initiative par Laurent Romary (CNRS-Loria) et Henri Hudrisier (Université de Paris 8)
- Introduction à la TEI sur Texto !, site consacré à la sémantique des textes (2003)
[Edit 06/11/05] Et pour vraiment tout savoir sur TEI, voir la saga de la TEI de Got....
Les épisodes précédents : introduction, EAD. Les épisodes à venir : DocBook, BiblioML, conclusion
19 décembre 2004
Autopsie d'une requête
A partir de la requête d'un utilisateur de Google, Martin Lessard mène l'enquête
pour tenter de découvrir pourquoi cet internaute est arrivé sur son
blog alors que sa recherche n'avait vraiment aucun rapport avec les
thèmes qu'il aborde habituellement dans Zéro Seconde. Il tente brillamment de répondre à ces questions : "Que
s'est-il passé pour qu'une requête aussi "précise" puisse venir mourrir
sur mon site? Quel crime avait commis l'internaute pour se retrouver
dans pareil cul-de-sac? Et quel était le mobile derrière le choix de
ces mots?"
J'ai trouvé cette analyse tout à fait pertinente et intéressante.
La conclusion l'est aussi : elle rappelle qu'il est nécessaire
d'inculquer aux internautes une méthodologie de recherche, qu'il
faudrait leur montrer la logique de recherche avancée et enfin qu'il
faudrait leur apprendre à utiliser d'autres moteurs que Google !
Pour l'anecdote, "telecharger gratuitement modele attestation juridique"
est une requête qui a permis à un internaute d'atterrir sur BlogOKat
aujourd'hui ! Je me demande encore s'il a trouvé son bonheur et de quel
modèle d'attestation il pouvait bien avoir besoin. D'autant que quand
on interroge Google sur l'expression exacte "attestation juridique" on
obtient 15 résultats pas très probants et que quand on ajoute "modele" il n'y a plus que 4 résultats qui le sont encore moins !
18 décembre 2004
Photo : Château de Carrouges
16 décembre 2004
Les archives numériques
Tel est le titre du dossier du numéro 103 de Culture et Recherche, la lettre trimestrielle de la Mission de la recherche et de la technologie du Ministère de la Culture et de la Communication. Pour qui est intéressé par cette problématique, il s'agit là d'un panorama des questions liées aux archives numériques : la numérisation, la consultation des archives sur internet, l'archivage électronique, la DTD EAD, le protocole OAI-PMH, les supports d'archivage...
15 décembre 2004
Dico-Web
Dico-Web est un métamoteur permettant d'effectuer à partir d'une seule page des recherches dans des dictionnaires et encyclopédies en ligne : Wikipedia, Grand Dictionnaire Terminologique, Dictionnaire de l'Académie française, Encyclopédie de l'Agora, dictionnaires de langues etc..
14 décembre 2004
A propos de la réforme de l'ISBN
Dans son blog Pour les formats ouverts ! Thierry Stoehr traite des formats ouverts sous toutes leurs formes. La réforme de l'ISBN lui
donne l'occasion d'enfourcher son cheval de bataille et de montrer que
le passage de 10 à 13 chiffres (au 1er janvier 2007) ne se fera pas
sans problèmes. En effet, les systèmes informatiques des
professionnels (éditeurs, libraires, bibliothèques, centres de
documentation...) devront désormais prendre en charge le nouveau format
à 13 chiffres. Et de conclure en constatant qu'"implanter un format ouvert est aisé, mais
sur un format fermé de logiciels, cela suppose que ce logiciel soit
toujours disponible et maintenu par une société dont on dépend alors
fortement."
Sur les changements induits par ce passage à 13 chiffres : voir la FAQ du Secrétariat de l'ISO TC46/SC9 ainsi qu'un article de ZDNet.fr intitulé "le secteur de l'édition se prépare au bug de l'an 2007".
13 décembre 2004
Les DTD : 2. la DTD EAD
Après une mise en bouche sur les DTD en général, voici quelques lignes sur celle que je connais le mieux : la DTD EAD.
La DTD EAD est destinée à la description d'une production documentaire (méta données descriptives) et permet de structurer les instruments de recherche de type archivistique : inventaires, répertoires, catalogues de collections... Elle est fondée sur la norme SGML et est compatible avec XML. D'autres standards lui sont apparentés : TEI (dont le parlerai prochainement), MARC et ISAAR.
Elle offre notamment la possibilité d'utiliser le contenu des instruments de recherche électroniques comme des données (structuration des instruments de recherche archivistiques), d'échanger des données standardisées, d'assurer aux données longévité et migration, d'avoir une présentation, une navigation et une recherche structurées.
Elle est parfaitement compatible avec la norme internationale de description archivistique ISAD(G) et est considérée comme le meilleur outil pour mettre en œuvre les principes de cette norme. Sa première version officielle 1.0 a été diffusée par la Society of American Archivists en septembre 1998. Une nouvelle version "2002" a été publiée par la suite.
En France, c'est la Direction des Archives de France
qui assure la promotion de la DTD EAD, dans le cadre de sa politique
visant à favoriser l'émergence et le développement de systèmes
d'information utilisant des formats d'échange et des protocoles
reposant sur des standards, normes et recommandations internationales
garantissant leur interopérabilité et assurant leur évolution future.
- 145 éléments non obligatoires et dont l'ordre est très souple. De plus, tous les éléments descriptifs utilisables au plus haut niveau sont également utilisables à chaque niveau subordonné.
- 2 segments principaux
- en-tête <eadheader>
- description archivistique <archdesc>, contenant la description des sous composants <dsc> - des niveaux hiérarchiques de description ayant les mêmes balises possibles
Pour
avoir une idée du résultats que la DTD EAD permet d'obtenir, voir ces 2
instruments de recherche du Centre Historique des Archives Nationales
(CHAN) convertis en XML/EAD :
Quelques ressources sur la DTD EAD :
- le site officiel de la DTD EAD version 2002 et des pages d'aide pour son utilisation,
- la page DTD EAD de la Direction des Archives de France et son Bulletin sur la DTD EAD,
- "la DTD EAD dans les archives et les bibliothèques", un article de Ghislaine Chartron paru dans le BBF en 2003,
- le guide pour la mise en oeuvre de la DTD EAD 2002 au CHAN. Il s'agit d'un guide comprenant des recommandations pour la mise en oeuvre des instruments de recherche en XML/EAD au CHAN et mis à la disposition du public sur internet.
[edit 14/07/2005]
La Direction des Archives de France vient de mettre en ligne Faire
un répertoire ou un inventaire simple avec l'EAD, le manuel d'encodage en EAD (pdf) proposé par le groupe de travail groupe de travail AFNOR/CG46/CN357/GE3.
Voir aussi sur le même site le Référentiel
des applications françaises de l'EAD.
[edit 22/10/2005] Dans son bulletin sur l'EAD de septembre 2005, la Direction des Archives de France nous signale qu'un groupe de travail a été créé afin de transformer la DTD EAD en schéma pour :
- permettre une saisie plus cohérente des données
- être en mesure d’utiliser les noms de domaines et d’inclure le schéma EAD dans d’autres schémas (par exemple METS) ou d’inclure d’autres DTD ou d’autres schémas dans l’EAD (par exemple la TEI)
- gérer la Tag Library et les règles de gestion dans un document unique
Episode précédent : introduction. Episodes à venir : TEI, DocBook, BiblioML, conclusion.

