Archiver le Web : comment est conservée la mémoire du web ?

20 ans d'archives du web
20 ans d'archives du web ©Getty - CSA Archives
20 ans d'archives du web ©Getty - CSA Archives
20 ans d'archives du web ©Getty - CSA Archives
Publicité

Depuis 20 ans, la Bibliothèque nationale de France (BNF) et l'Institut national de l'audiovisuel (INA) archivent le web.

Bataclan, #fusillade, #portesouvertes, #rechercheparis. Il y a un an, tous ces hashtags emplissaient nos fils Twitter et Facebook. A travers des milliers de textes, dessins, photos, le récit des attentats a défilé sur nos écrans, avant de disparaître de nos ordinateurs et nos smartphones.
Quelles mémoires en reste-t-il ? Quelles traces les historiens trouveront-ils de ces témoignages éphémères. Et bien celles collectées par la Bibliothèque nationale de France (la BNF) et l'Institut national de l'audiovisuel (l'INA). A l'époque ils ont lancé une collecte des tweets sur les attentats en plus de leurs sélections habituelles de pages web.

Ces deux institutions se partagent en effet une mission de taille : celle de conserver la mémoire du web. On célèbre d'ailleurs en ce moment en ce moment les 20 ans des l'archivage du net. Et la BNF organise les 22 et 23 novembre à Paris des rencontres sur ce thème.

Publicité

C'est aux Etats Unis qu'en 1996 la fondation Internet Archive fait les premières photographies du web. En France, la BNF et l'INA s'y attèlent quelques années plus tard. Le cadre légal met lui un peu plus de temps à venir. C'est 2006 que la loi Dadvsi (sur les droits d'auteurs et droits voisins) institue ce qu'on appelle le dépôt légal du web.

La BNF et l'INA célèbrent 20 ans d'archives de l'Internet
La BNF et l'INA célèbrent 20 ans d'archives de l'Internet

Archiver quoi ?

Rappelons d'abord que le web est quelque chose d'éphémère, de mouvant. Chaque année, des centaines de milliers de site apparaissent et disparaissent. Sans parler des changements dans les pages elles-mêmes des sites. Archiver le web, c'est tout à la fois archiver des sites, des contenus, des liens entre eux…
Et voilà qui ouvre une foule de questions : par où commencer, comment faire ? Faut-il tout archiver? A quelle fréquence?Si pour les livres ou les films il existe une obligation de dépôt, sur le web, accord de principe est donné aux organismes pour venir piocher sur les sites. A eux de choisir ce qu'ils archivent.

En France, grâce à l'Afnic, l'organisme qui gère les noms de domaine, comme le .fr, la BNF a identifié 4,5 millions de sites. Des sites marchands, porno, institutionnels etc. L'objectif, c'est de conserver une photographie représentatives du web. La BNF stocke déjà 668 TeraOctets A cela s'ajoutent des collectes ciblées sur des thèmes : la mémoire de la Grande guerre, les blogs littéraires, les élections…
L'autre acteur de ce dépôt légal, c'est l'INA, qui archive les contenus audiovisuels sur le web. Et dispose déjà de 52 milliards d'éléments. Cela représente 4 peta octets (soit 4 000 Tera octets )

Le projet américain Internet Archive est le premier à s'être lancé dans la conservation du web
Le projet américain Internet Archive est le premier à s'être lancé dans la conservation du web

Quel accès aux archives?

Qui peut accéder à ces archives et comment. C'est peut-être là le plus grand défi. Il est en partie technique : il s'agit de rendre possible et plus aisé des recherches à la fois dans la masse de contenu et dans l'épaisseur temporelle. Mais surtout parce que l'une des principale chose que change du web, c'est la possibilité d'accéder à un contenu dématérialisé où que vous soyez. Vous pouvez lire un fil twitter ou un article, regarder une vidéo de partout. Une spécificité qui disparaît dès lors que ce n'est plus un lien actif mais archivé. La loi oblige à consulter les archives in situ : il faut venir dans les locaux de l'INA ou de la BNF. Petite évolution, un arrêté de 2014 rend possible la consultation de ces archives de la BNF et de l'INA dans quelques bibliothèques en région. Et l'INA réfléchit à un HUB permettant aux chercheurs authentifiésun accès à distance. Pourquoi ces limitations? Parce que c'est le code du patrimoine qui encadre cela. Le rêve du fondateur d'Internet archive, c'est " une bibliothèque de l'Internet accessible à tous et partout". En France, on en est encore assez loin.