Rechercher

/ languages

Choisir langue
 

Internet dans le monde

Comment feront les archéologues du futur ?

Le formidable succès d'Internet et des réseaux ont conduit à une croissance exponentielle du nombre des documents numériques. Les technologies informatiques ont fourni des solutions pour le stockage de ces fichiers, mais leur usage futur pose problème. Au fil des années, avec l'évolution constante des supports et des logiciels, ces documents peuvent devenir illisibles. Une question cruciale pour les archivistes, car la réponse est loin d'être simple.
C'est un vaste chantier pour les archives de France. Ce chantier, entamé il y a quinze ans, avec la mise en place du département Constance concerne l'archivage des documents numériques. Archiver un document, c'est préserver un document sous une forme compréhensible pour un usage futur. Presque toute l'information produite aujourd'hui dans notre société l'est sous forme numérique qu'il s'agisse de textes, de plans dans les entreprises, d'informations scientifiques, de photos ou de vidéos. Le problème de la préservation de ces informations concerne un grand nombre de secteurs de la société : industrie, santé, justice, institutions patrimoniales. Vaste tâche dont l'ampleur commence seulement à être réellement perçue. Comment préserver ces millions de documents ? L'information numérique est entièrement codée via des logiciels, des systèmes d'exploitation de plus en plus performants puis stockée sur des supports dont l'obsolescence est de plus en plus vite annoncée. Il n'y a pas de médaille sans revers. Avec cette évolution se pose la question cruciale de la disponibilité future de ces documents numériques. Et la difficulté de les déchiffrer dans 50 ans, 500 ans.

La France a pris les devants et s'est dotée du département Constance pour les archives numériques au sein du Centre des archives contemporaines de Fontainebleau. Pour leur part, plusieurs organismes de recherche (CNES, CEA, CEA, INRIA, Inserm, Météo France etc..) membres de l'association Aristote ont pris l'initiative de lancer un groupe de réflexion sur «la pérennisation des informations informatiques» (PIN) chargé d'explorer et d'expérimenter les solutions crédibles dans ce domaine et notamment d'identifier les formats d'archives qui peuvent être considérés comme universels et impérissables. Pour l'heure, l'archivage numérique a du mal à s'imposer. Trop complexe. Au plan technique, les solutions envisagées sont de trois ordres : la migration, l'émulation et l'encapsulation. Peu satisfaisantes à long terme, les deux premières solutions laissent espérer autant qu'elles frustrent comme nous le précise Claude Huc, ingénieur, responsable du département Systèmes de valorisation de données au CNES (Centre National d'Etudes Spatiales) et qui anime le groupe PIN.

Le XML ou la voie de l'indépendance de l'information

Première voie possible : la migration qui consiste à mettre à jour, ou parfois à réécrire entièrement, de vieux fichiers afin de pouvoir les exploiter sur de nouvelles machines. «Cela peut être une solution d'attente dans les cas ou il n'y a momentanément aucune autre alternative possible», estime Claude Huc. Et d'argumenter : «Cette solution a aussi pour inconvénient de pérenniser l'usage de logiciels propriétaires et d'être à tout moment soumis aux variations de la politique commerciale des éditeurs de logiciel sans avoir aucun moyen d'y échapper». Seconde solution :l'émulation. Cette voie consiste à simuler, avec un logiciel appelé émulateur, le comportement d'un système d'exploitation qui a disparu. Pour Claude Huc, il s'agit d'une solution théorique qui est loin d'avoir fait ses preuves. «Les systèmes d'exploitations sont complexes, souvent entachés d'erreurs, avec de multiples versions», explique-t-il. Avant d'ajouter : «Mon expérience de 30 ans dans le domaine de l'informatique, m'incite à ne faire qu'une confiance limitée dans une voie ou tout dépend du fonctionnement d'un logiciel qui devra exister dans un grand nombre de versions et qui devra évoluer de façon continue pour fonctionner sur les machines nouvelles».

Casse-tête insoluble. Pas si sûr. La dernière solution : l'encapsulation devrait résoudre le problème de la préservation car avec ce procédé l'information demeure autonome. C'est cette troisième approche que privilégie avec force et sur la base de son expérience au CNES où il a en charge la préservation d'un certain nombre de données scientifiques, Claude Huc. «Il s'agit ici de créer l'information sous une forme qui soit totalement décrite et totalement indépendante des systèmes matériels, systèmes et logiciels utilisés pour leur création», explique-t-il. Pour y parvenir, Claude Huc compte notamment sur le langage informatique XML (eXtensible Markup Language). Le XML s'intéresse fondamentalement au contenu de l'information et offre aujourd'hui des perspectives ouvertes et crédibles dans de multiples domaines parmi lesquels la création de documents au contenu riche, la gestion de bases de données ou encore la constitution de catalogue de ressources informationnelles. Le langage HTML, utilisé sur Internet n'intervient qu'en complément en traitant de la façon dont cette information sera présentée.

L'un des points forts du XML est son potentiel considérable en matière d'indexation de documents. Dès lors, le XML va permettre de créer de façon coopérative des hyperdocuments complexes, des encyclopédies, des bibliothèques thématiques. Avec la possibilité d'ajouter à chaque ressource référencée des annotations et commentaires. Comme nous l'explique Claude Huc : «lorsqu'un document est décrit de cette façon, il sera toujours possible, quelle que soit la technologie, de recréer un logiciel permettant de lire et de présenter ce document sous une forme interprétable. Cette solution est d'autant plus crédible qu'elle a déjà été largement expérimentée, notamment dans les centres de données scientifiques».

Reste que l'on focalise la problématique sur la technologie. Le problème est également financier. Le coût de l'archivage numérique est deux à trois fois plus élevé que l'archivage traditionnel. Réponse nuancée de Claude Huc : «Les chiffres énoncés sont trop souvent fantaisistes. Il est vrai que l'archivage des documents numériques impose un stockage redondant, une surveillance des supports de stockage et le renouvellement périodique de ces supports. Mais on peut stocker aujourd'hui, sous forme numérique, dans une pièce qui mesure 50M², l'équivalent de 100 km linéaire de dossiers papier. Le coût du stockage ne cesse de diminuer. Ce n'est pas le cas pour la construction et de l'entretien des bâtiments». L'autre hic, comme en témoigne Claude Huc, est d'ordre organisationnel et concerne d'autres facettes comme celui de la formation. Aujourd'hui, il n'existe pas de formation approfondie sur ce domaine-là.

Le site de l’association Aristote
Le site du groupe de travail français PIN



par Myriam  Berber

Article publié le 21/01/2003