16 décembre 2005
A propos d'archivage du web
Le prochain examen de la loi DAVDSI (au cours de la semaine de Noël,
comme par hasard) suscite des articles et réactions divers et variés sur ses
différents points. Il en est un qui est un peu plus "consensuel" (et
c'est un euphémisme) que (au hasard) la question des DRM : c'est
l'archivage du web.
Cette semaine, j'ai repéré sur 2 articles que le sujet :
- chez zdnet : L'INA et la BNF prêts pour archiver l'internet
- pour l'Expansion : La BNF se met au défi d'archiver le web
En résumé (pour ceux qui ne seraient pas au courant) : le dépôt
légal des sites web va être mis en place en France. L'INA (Institut
National de l'Audiovisuel) sera chargé des sites relevant du domaine de
l'audiovisuel et la BNF du reste. Et comme l'écrit justement zdnet : "au-delà de la collecte et de la conservation de ces
données, l'INA et la BNF doivent travaillent également pour offrir les
moyens d'une consultation aisée, par les chercheurs et les
professionnels, de cette mémoire collective. Une problématique qui
rejoint celle de la bibliothèque numérique européenne, dont Jean-Noël
Jeanneney est l'un des principaux promoteurs".La
problématique est donc l'indexation des contenus des sites web pour
ensuite les mettre à disposition, c'est à dire les rendre accessibles
au public.
Pour aller plus loin :
- La présentation (pdf) de l'expérience de la BNF en matière de collecte automatique de sites web au dernier Congrès de l'IFLA qui a eu lieu à Oslo en août dernier.
- Les actes du 5ème atelier international sur l'archivage du web qui a eu lieu à Vienne (Autriche) en septembre dernier.
- Un article sur le blog d'Emmanuel Barthe.
- Le billet du Culture et TIC qui cite l'article de l'Expansion.
- Et un billet que j'ai écrit en 2005 avec d'autres lectures recommandables.
Commentaires
sites dynamiques
je suis curieux de voir comment il est possible d'archiver les "pages" qui ne sont accessibles que dynamqiuement à l'issue d'une question dans un formulaire de recherche
Le contenu des pages dynamiques est effectivement le plus difficile à récupérer puisqu'il est construit lors de la consultation et que les pages visualisées côté client n'existent pas côté serveur.
Pour les sites de type CMS, il existe des solutions grâce à XML, mais pour les requêtes, c'est une autre histoire....
Poster un commentaire
Rétroliens
URL pour faire un rétrolien vers ce message :
http://www.canalblog.com/cf/fe/tb/?bid=16814&pid=1112326
Liens vers des weblogs qui référencent ce message :
