28 juin 2005
Mes fils RSS
Voici (fichier joint ci-dessous) une sélection pas tout à fait
exhaustive des fils RSS francophones actifs lus par mon agrégateur. Vous y trouverez
essentiellement des blogs traitant de sujets qui m'intéressent, à
commencer par tout ce qui a trait de près ou de loin à l'infodoc...
FilsRSS.htm
[edit] J'ajoute le fichier au format rtf car les accents ne passent pas dans le fichier html...
FilsRSS.rtf
[edit] Pour une liste encore plus complète, vous pouvez aller consulter mes fils RSS publics sur Bloglines...
26 juin 2005
Clustering
Cluster est un mot anglais
signifiant grappe... donc, le clustering consiste à opérer des regroupements par grappe,
par ensembles logiques. Mais
encore ?
Pour
les informaticiens, il s’agit d’un «ensemble logique de serveurs qui
garantissent une haute disponibilité des ressources et une répartition des
charges de traitement ». L’Office québécois de la langue française
précise que le terme exact est server clustering, soit une
«architecture de traitement en réseau reliant plusieurs serveurs qui se
partagent des périphériques communs». Pour plus de précisions, voir le site de
la SSII 3IE ou la partie généralités de cet exposé d’un étudiant en
informatique.
Pour
les spécialistes des moteurs de recherche, le clustering est la «limitation du nombre de pages issues du même site
dans les pages de résultats d'un moteur de recherche» afin d’"éviter qu'un
même site occupe la ou les premières pages de résultats". (source : Dico du net).
J’ai lu quelque part que c’est Inktomi qui le premier a commencé a utiliser
cette technique pour présenter ses résultats de recherche. Google bien sûr
l’utilise aussi (cf les fameuses «pages similaires»).
Le
terme clustering est aussi employé quand on évoque les moteurs (Exalead,
Vivismo
et Clusty,
etc.) qui proposent un regroupement thématique des résultats de recherche. Il
s’agit en fait de conceptual clustering (ou
agrégation conceptuelle), soit l’«organisation d'objets, d'événements ou de
faits en classes caractérisées, au moyen de concepts descriptifs simples». (Merci
les québécois !)
Photo : ciel de juin
22 juin 2005
Acronymes ?
Acronyma est un moteur de recherche d'acronymes en plusieurs langues : anglais, espagnol, français, allemand, néerlandais, italien et portugais. A ce jour, 471347 acronymes et abréviations sont référencés (dont 10209 en français). Je l'ai testé : il connait XML et DTD, SMIC ou DSCR mais pas RTT ni CQFD ;-)
20 juin 2005
Métadonnées pour les nuls, épisode 3 : METS
METS = Metadata
Encoding and Transmission Standard. Ce
format a été élaboré à l'initiative de la Digital
Library Federation qui avait pour objectif de fournir une stratégie de mise
en œuvre de métadonnées de conservation afin de permettre les échanges de
documents numériques entre institutions patrimoniales.
METS est un schéma XML qui sert à encoder les métadonnées descriptives, administratives et structurelles de documents, ou plutôt d’objets numériques. Il contient la description de la structure hiérarchique de ces objets numériques (constituant une ressource numérique), répertorie les noms et la localisation des fichiers leur correspondant et contient toutes les métadonnées qui leur sont associées. Ainsi, toutes les données concernant un objet numérique sont regroupées dans un même fichier.
Un objet METS est composé de la ressource numérique
elle même et d'un document METS comprenant toutes les métadonnées de structure,
administratives et descriptives. Il est structuré en sept sections, pouvant
comprendre un ou plusieurs groupes de métadonnées.
Les 2 sections principales sont obligatoires :
- File Section : liste des fichiers composant l’objet, c'est à dire la description des noms de fichiers et leur localisation (identifiant, format, URL)
- Structural Map : carte de structure, soit la description du plan du document (logique ou logique)
Les 5 autres sections sont facultatives et répétables :
- Header : en-tête, soit des informations sur le document METS
- Descriptive Metadata : métadonnées descriptives, externes avec des liens ou encapsulées dans le document
- Administrative Metadata : métadonnées administratives, externes ou encapsulées
- Structural Links : liens entre les différents éléments de la carte de la structure
- Behavior : association d’exécutables (programmes qui vont faire fonctionner l’objet)
Le système de pointeurs est un élément important du schéma METS : il permet de mettre en relation des éléments de métadonnées et des fichiers entre eux. 5 types de pointeurs sont proposés :
- xlink pour pointer vers un bloc de métadonnées stocké à l’extérieur du document METS
- DMDID et AMDID permettent d'appliquer un identifiant à chaque bloc afin de les relier entre eux
- filepointer est interne au document METS et permet de pointer vers l'identifiant un fichier (cf file section)
- metspointer est externe au document METS et permet de lier plusieurs documents METS
entre eux
- area est intégré dans la carte de structure et permet de pointer vers une partie de fichier.
En ce qui concerne les métadonnées descriptives
externes, il est possible de s’appuyer sur d’autres normes/standards comme
MARC, EAD, le Dublin Core…
Et si vous vous demandez qui utilise le schéma METS en France, allez donc voir du
côté de la BNF. Quelques présentations sont disponibles en ligne, comme celle-ci (pdf), celle-ci (pdf) ou celle-là. Voir aussi le portail Persée s'appuyant sur la DTD Erudit du Consortium canadien Erudit mais qui doit intégrer le schéma METS. Pour en savoir plus, lire cette présentation (ppt).
Et pour savoir ce qui se fait dans d'autres pays, c'est le METS Implementation registry qu'il faut consulter (il s'agit d'un répertoire des institutions et des projets
utilisant METS).
En résumé, METS est un standard non propriétaire, ouvert, modulaire et extensible. Voilà qui devrait plaire aux promoteurs des formats ouverts ;-) !
Ressources et références
- Site officiel METS
- Une fiche synthétique sur le site de la DLF
- Bulletin sur la DTD EAD de la Direction des archives de France : article sur le schéma METS (N°19,mars 2005)
- Sans oublier les actes de la journée d'information AFNOR/CG46 qui a eu lieu le 7 juin dernier à la BNF : Des métadonnées pour bien utiliser les ressources électroniques.
Episodes précédents : Introduction, Dublin Core. A venir : RDF....
19 juin 2005
A lire sur les blogs
Lu sur Zéro seconde : Le
blog n'est pas un weblog et La
blogosphère rythmée, 2 analyses pertinentes de Martin Lessard évoquant la
série d'articles érudits d'Alain Giffard sur les blogs (ici,
ici
et là).
Dans son premier billet, Martin Lessard part du constat d'Alain Giffard :
"le blog est autre chose qu’un web/log/ autre chose que la combinaison
des deux" pour arriver à cette conclusion :
"le weblog
aurait ainsi donné naissance à deux branches plus spécialisées, les blogs (pour
ce qui est de faire le "pointage" des idées ou des sentiments) et le
social tagging à la del.icio.us
(pour ce qui est du "pointage" des sites webs).
La première
branche, les blogs, s'est spécialisée en création de contenu, et la seconde en
liste de pointeurs (tagging)."
Dans le second billet, il se penche sur un élément
fondamental des blogs : la temporalité. Et il conclue ainsi :
"Je m'avancerais à
illustrer la blogosphère comme un immense territoire rythmé par le temps qui
passe, constitué d'un vaste territoire, d'un hinterland, où l'immense majorité
des blogs vivent en petites tribus, peu denses, hors des grands axes
communicationnelles, avec parfois des rassemblement urbain regroupant des blogs
plus actifs, culturellement plus riches."
17 juin 2005
Glossaire pour la veille scientifique et technique
L'équipe SIG (systèmes d'information géographiques) de l'Institut de recherche en informatique de Toulouse a réalisé un glossaire dans le cadre de sa veille scientifique et technique. Il s'agit certes d'un outil ancien mais pas inutile car il popose des définitions qu'on trouve difficilement ailleurs.
14 juin 2005
Sur les bases de données
Si ce thème vous intéresse, si comme moi vous avez à intervenir sur la question, je vous recommande les pages sur les bases bibliographiques proposées par l'Université de Paris V dans le cadre de l'autoformation à la bio-informatique.
Les
parties généralités et interrogation (les étapes d'une recherche et les
outils documentaires) sont particulièrement bien faites. Les
explications sont très claires et sont complétées par des exercices et
un tutoriel.
A ce propos, quel est le terme exact ? Banque de données ou base de données ?
Du côté des définitions, on trouve ceci :
- Banque de données : "ensemble de données relatif à un domaine défini de connaissances et organisé pour être offert aux consultations d'utilisateurs" (arrêté du 22/12/1981)
- Base de données : "ensemble structuré de fichiers inter-reliés dans lesquels les données sont organisées selon certains critères en vue de permettre leur exploitation" (Office québécois de la langue française)
Mais aujourd'hui, cette distinction n'a plus lieu d'être... et
Didier Frochot nous explique sur Defidoc qu'une
des raisons est que "la directive européenne relative à la protection
juridique des bases de données a mis tout le bel édifice juridico
terminologique français à bas en adoptant résolument – suivant en cela les
anglo-saxons – le terme de base (database en anglais est le
terme le plus couramment utilisé)."
Et donc la définition à retenir est celle-ci : une base de données est «un
recueil d'œuvres, de données ou d'autres éléments indépendants, disposés de
manière systématique ou méthodique, et individuellement accessibles par des
moyens électroniques ou par tout autre moyen» (Art. L.112-3 al.2 du code
de la propriété intellectuelle).
13 juin 2005
De la manière de bien chercher
A lire dans la livraison de Totem Consult du 11/06, quelques lignes intéressantes sur les bons et les moins bons chercheurs. Il y est question de la démarche des professionnels de la recherche qui "réfléchissent davantage en terme de source ou de type d'information (magazines, articles, encyclopédies...)" alors que les utilisateurs lambda, quand ils interrogent Google (par exemple...), raisonnent en terme de mots-clés. Les professionnels, eux, "commencent par se demander où pourrait se trouver l'information recherchée, ce qui leur donne un net avantage sur ceux qui s'en tiennent à des recherches par mots-clés."
11 juin 2005
Photos : mur
Une rue, quelque part, à Lille...



