BlogOKat

Documentation, technologies de l'information, internet, etc...

16 décembre 2005

A propos d'archivage du web

Le prochain examen de la loi DAVDSI (au cours de la semaine de Noël, comme par hasard) suscite des articles et réactions divers et variés sur ses différents points. Il en est un qui est un peu plus "consensuel" (et c'est un euphémisme) que (au hasard) la question des DRM : c'est l'archivage du web.
Cette semaine, j'ai repéré sur 2 articles que le sujet :

En résumé (pour ceux qui ne seraient pas au courant) : le dépôt légal des sites web va être mis en place en France. L'INA (Institut National de l'Audiovisuel) sera chargé des sites relevant du domaine de l'audiovisuel et la BNF du reste. Et comme l'écrit justement zdnet : "au-delà de la collecte et de la conservation de ces données, l'INA et la BNF doivent travaillent également pour offrir les moyens d'une consultation aisée, par les chercheurs et les professionnels, de cette mémoire collective. Une problématique qui rejoint celle de la bibliothèque numérique européenne, dont Jean-Noël Jeanneney est l'un des principaux promoteurs".La problématique est donc l'indexation des contenus des sites web pour ensuite les mettre à disposition, c'est à dire les rendre accessibles au public.

Pour aller plus loin :

  • La présentation (pdf) de l'expérience de la BNF en matière de collecte automatique de sites web au dernier Congrès de l'IFLA qui a eu lieu à Oslo en août dernier.
  • Les actes du 5ème atelier international sur l'archivage du web qui a eu lieu à Vienne (Autriche) en septembre dernier.
  • Un article sur le blog d'Emmanuel Barthe.
  • Le billet du Culture et TIC qui cite l'article de l'Expansion.
  • Et un billet que j'ai écrit en 2005 avec d'autres lectures recommandables.

Posté par BlogOKat à 20:56 - Archives et archivage - Commentaires [2] - Rétroliens [0] - Permalien [#]

Commentaires

sites dynamiques

je suis curieux de voir comment il est possible d'archiver les "pages" qui ne sont accessibles que dynamqiuement à l'issue d'une question dans un formulaire de recherche

Posté par raybaja, 18 décembre 2005 à 16:23

Le contenu des pages dynamiques est effectivement le plus difficile à récupérer puisqu'il est construit lors de la consultation et que les pages visualisées côté client n'existent pas côté serveur.
Pour les sites de type CMS, il existe des solutions grâce à XML, mais pour les requêtes, c'est une autre histoire....

Posté par BlogOKat, 19 décembre 2005 à 13:41

Poster un commentaire







Rétroliens

URL pour faire un rétrolien vers ce message :
http://www.canalblog.com/cf/fe/tb/?bid=16814&pid=1112326

Liens vers des weblogs qui référencent ce message :