Accueil Précédent Suivant

Chapitre 5
L'archivage

La conservation des périodiques savants a, depuis toujours, été assurée par différents organismes : bibliothèques, centres d'archives et éditeurs, suivant des procédures et méthodes, polies par les ans. Si toutes les règles de l'art sont suivies, on peut affirmer sans crainte qu'un document papier sera encore lisible dans 500 ans.

Il est difficile de faire une telle affirmation pour les documents électroniques. Le portail devra donc mettre en place des procédures permettant de donner des assurances quant à la pérennité de l'accès aux revues électroniques. Il s'agit d'une question fondamentale non seulement pour les producteurs d'information mais également pour tous les acteurs du processus de la communication scientifique. D'abord, parce que les revues savantes représentent un investissement important en temps et en argent. Ensuite et surtout, parce que ces revues constituent une espèce de " procès-verbal " de l'évolution d'une discipline et qu'elles font partie d'un patrimoine intellectuel et culturel que tous les acteurs ont le devoir moral de protéger et de transmettre à la postérité.

Le problème peut paraître simple à première vue. Il ne s'agit en somme que de faire transiter des bits d'information vers le futur. Des techniques, bien connues et maîtrisées, de rafraîchissement (91) et de migration (92) pourront être employées sans difficulté avec les documents en format structurés (XML, SGML). Ces documents ne contiennent en effet que du texte " pur ".

Mais nous devons également assurer l'intégrité de ces documents. Or, ils font aussi référence à d'autres objets numériques (images, sons, modèles, formules, hyperliens, etc.) qu'il importe de conserver. Ces différents objets liés peuvent être de formats propriétaires, incompatibles ou simplement de différentes versions.

On le voit, la conservation des revues savantes est un problème technique qui peut être complexe. En s'engageant dans la durée, ça devient également un problème économique car les coûts de rafraîchissement et de migration sont récurrents. C'est enfin un problème organisationnel qu'on oublie souvent de considérer.

Le portail devra tenir compte de tout cela dans sa planification et son fonctionnement quotidien. Nous verrons dans cette section du rapport tout les aspects à considérer dans le développement d'une politique de conservation et d'archivage des revues diffusées par le portail.


Distinction entre différents termes

Avant toute chose, il est important de bien distinguer certains termes français et anglais qui peuvent porter à confusion suivant la langue ou la profession exercée.

La Bibliothèque nationale du Canada donne les définitions suivantes de l'archivage et de la conservation.


"Archivage : Les documents sont versés sur un serveur institutionnel dans le but de préserver leur contenu intellectuel de façon permanente. L'archivage s'entend dans son sens le plus large, et couvre les concepts de compilation, de conservation et de mise en disponibilité à long terme."(93)

"Conservation : Activité […], qui garantit la longévité des collections. Les activités de préservation comprennent la conservation des collections, la création de substituts, le contrôle des conditions ambiantes et l'établissement des conditions d'utilisation. (Politique de conservation de la BNC, 1989). En ce qui concerne les publications électroniques, les activités de conservation englobent l'organisation, la description, la mise à jour et la migration de l'information électronique afin d'assurer l'accessibilité à long terme des publications."(94)

"Preservation : storage, maintenance and access to digital objects/materials over the long term."(95)

Notons au passage que l'activité de conservation de documents électroniques signifie beaucoup plus que la simple création d'une copie de sauvegarde.

Le but de la conservation des publications électroniques est donc de s'assurer que l'information subsiste et soit accessible sous un format lisible aussi longtemps que possible, même après plusieurs changements technologiques. La conservation inclut aussi toutes les stratégies permettant d'arriver à cet objectif, par exemple le transfert de l'information de supports en supports, etc. On retrouve dans cet objectif une distinction souvent faite en archivistique. D'une part, il y a la notion de préservation de l'information contenue dans un document, soit la protection de cette information, d'autre part, il y a la notion de conservation du support sur lequel se trouve l'information, soit le maintien en bon état physique de ce support. Les deux notions s'avèrent complémentaires pour assurer une stabilité et un accès à long terme aux publications électroniques.

En anglais, archives correspond à une " collection " regroupant des documents dans un domaine particulier. Les sites de prépublications dans Internet ont souvent le terme Archive dans leur appellation, et il s'agit bel et bien d'une collection de prépublications sur un domaine.

Le terme archiving ne correspond pas au terme " archivage ". En anglais, l'accent est mis sur la sélection (identification et regroupement) des documents. La notion d'accessibilité reste présente mais pas celle de conservation. La définition de Margaret E. Phillips le montre bien : " First, the materials have to be identified, collected and made accessible in their current format (the archiving process)."(96)

Finalement, le terme preservation correspond au terme français conservation.

Ces définitions étant posées, il est évident que, dans un monde numérique, la nuance est subtile entre archivage et conservation. Toutes les opérations de conservation nécessaires à son bon fonctionnement devront naturellement être assumées par le portail afin qu'il demeure en activité. Ces activités du portail peuvent donc également être considérées comme de l'archivage. Le portail ne peut toutefois prétendre être aussi durable que des institutions telles que les bibliothèques nationales.


Obsolescence technologique

Toutes les mesures de conservation visent à contrer le problème de l'obsolescence technologique, en premier lieu l'obsolescence physique rapide d'abord. Pour comprendre le problème, on n'a qu'à évoquer les disquettes de 8 pouces, introduites sur le modèle 3310 d'IBM en 1979 ou même les disquettes de 51/4 pouces introduites en 1980 sur les premiers ordinateurs personnels qui ne sont plus utilisables avec les ordinateurs d'aujourd'hui et donc illisibles. 20 ans à peine! on ne parle pas ici de textes écrits par des Sumériens!

Le rafraîchissement routinier des données nous assure de conserver le flot de bits en bon état mais nous devons également lutter contre l'obsolescence des logiciels : pensons ici au logiciel WordStar, fort populaire il y a à peine 15 ans, pensons aux multiples versions d'un même logiciel qui paraissent à intervalle régulier. Bref, s'ils ne sont pas rendu inaccessibles en raison de l'obsolescence technologique du matériel, les documents électroniques peuvent quand même être endommagés et amputés de certains éléments caractéristiques. " À titre d'exemple, il est possible de conserver le contenu d'un document électronique tout en perdant la mise en page. Il est possible de conserver la présence physique (p. ex., un fichier) sans toutefois arriver à conserver la lisibilité."(97)

Depuis les cinq dernières années plusieurs projets expérimentaux cherchent à trouver et définir les meilleures solutions, et proposer plusieurs modèles relatifs à la question de l'archivage et la conservation des publications électroniques sur le Web. Ces projets proviennent de divers organismes, tels les éditeurs, les bibliothèques nationales, les instituts de recherche, les universités, les archives nationales, les programmes gouvernementaux. Dans notre revue de la littérature, nous avons porté une attention particulière aux projets impliquant des publications scientifiques, à la question des formats et des supports, ainsi qu'aux stratégies employées pour l'archivage et la conservation.


Les formats d'archivage et de conservation les plus utilisés

Dans les diverses expériences étudiées, plusieurs s'accordent pour dire qu'il est primordial de garder l'apparence, le cachet et l'originalité des publications scientifiques électroniques en plus, évidemment, du contenu informationnel.

En faisant le tour des projets, on constate que les plus utilisés sont les HTML, SGML et PDF. Le format XML est encore peu utilisé pour le moment mais il doit dorénavant être considéré (98). JSTOR, pour ne citer qu'un exemple, envisage de migrer ses métadonnées dans une structure XML (99).


ProjetFormats
Pandora (Preserving and Accessing Networked Documentary Resources of Australia)PDF, SGML, HTML
HighWire (États-Unis)SGML, PDF
Muse (États-Unis)HTML, PDF
Allen Press (États-Unis)SGML
Institute of Electrical and Electronic Engineers (États-Unis)SGML, PDF
American Astronomical Society (États-Unis)SGML
American Institute of Physics (États-Unis)PDF, SGML
Danemark, projet de dépôt légal des publications électroniquesASCII Text, format d'image (par exemple TIFF)


Le PDF est un format propriétaire, largement utilisé et accepté par le milieu de l'édition. Son accessibilité à long terme demeure toutefois source d'inquiétude pour les archives nationales et les bibliothèques (100).

Pour le portail, le format de conservation sera le XML. La priorité du portail est d'assurer la conservation de ce type de document électronique. La garantie d'accès à long terme aux fichiers PDF est probable mais ne peut être affirmée d'une façon aussi certaine.


Les supports d'archivage de conservation

Les supports d'archivage et de conservation utilisés par les différents projets étudiés ne sont que très rapidement mentionnés, souvent ils ne le sont pas du tout. La raison est simple, l'accent est mis sur l'augmentation des contenus et, comme le coût des supports magnétiques ne cesse de décroître, on continue de les garder en ligne. Les projets procèdent évidemment à des copies de sécurité routinières sur divers supports magnétiques (ruban, cartouches, disques miroirs) ou optiques (cédérom, le DVD étant encore peu utilisé).

La question des supports mérite réflexion car leur durée est comptée en dizaine d'années et non plus en siècle comme c'est le cas pour le papier de très haute qualité et les microfilms. Les supports magnétiques subissent une double détérioration. D'une part, il y a l'affaiblissement progressif du champs magnétique, qui doit être rafraîchi. D'autre part, il y a la détérioration relative aux conditions environnementales (le taux d'humidité, les variations de température, la pollution, la poussière, etc.) Les supports optiques, sont plus durables mais ils restent sujets à la détérioration due à l'environnement (conditions ambiantes), aux matériaux utilisés pour leur fabrication, à la corrosion des différentes couches de métal, etc.)


Les stratégies employées dans les divers projets

Pour pallier la détérioration rapide des supports, les différents projets que nous avons analysés utilisent différentes techniques telles que la redondance des données, la dispersion géographique, les copies de sécurité de routine, sur une base quotidienne, de façon à ce qu'aucun événement, tels qu'une panne ou un bris du matériel, une attaque de hackers, une catastrophe naturelle, etc., ne puisse détruire toutes les données.

Les bibliothèques ont aussi créé un modèle distribué d'archivage pour le matériel en ligne : LOCKSS (Lots of Copies Keeps Stuff Safe) (101).


LOCKSS is a self-organizing, freeware-based, low-cost, voluntary approach to archiving online material, self-selected by participating institutions, that relies on consensus among several linked servers to determine authoritative states of files and restore lost or damaged files automatically. (102)

Cet outil permet aux bibliothèques de conserver les publications en ligne sur les disques des ordinateurs locaux. Les publications qui ont été téléchargées localement ne sont pas effacées et sont continuellement confrontées aux mêmes publications qui sont en ligne pour s'assurer que leur contenu n'a pas été détérioré ou perdu. Si c'est le cas, les publications sont restaurées. Plus de bibliothèques utiliseront ce modèle distribué assurant une répartition géographique des fichiers, plus il y aura de copies des publications conservées.

Il s'agit d'une approche intéressante, différente de celles des copies de sauvegarde, mais encore trop récente pour tirer des conclusions. Toutefois, le portail devrait s'assurer de produire des documents compatibles avec le système LOCKSS.


L'émulation comme stratégie de conservation à long terme

Différentes approches ont été suggérées pour conserver les documents électroniques à long terme : 1) l'application des normes et des standards pour les formats, 2) la conservation de la technologie (les logiciels et le matériel informatique), 3) la migration des documents dans une forme accessible pour les générations futures, 4) l'impression des documents électroniques sur papier.

Aucune de ces solutions n'est totalement satisfaisante. Certains spécialistes préconisent une cinquième option : l'émulation.

L'émulation est une opération de simulation qui consiste à imiter le fonctionnement d'un ordinateur ou d'un logiciel sur un autre ordinateur généralement plus puissant d'une génération subséquente. On recrée virtuellement l'environnement matériel et logiciel d'origine. Les documents électroniques sont ainsi accessibles et lisibles sous leur forme originelle.

Cette stratégie peut s'avérer intéressante car elle n'altère pas les données et que l'émulation n'est effectuée que lorsque il y a un besoin réel d'accéder aux données, " à la volée ". Elle permet la conservation de l'aspect, du cachet et de l'originalité du document électronique aussi bien que de son contenu. Aucune autre opération n'est requise si ce n'est celle du rafraîchissement du support sur lequel sont les données.

Toutefois, cette solution demeure encore largement théorique et on peut s'attendre à ce que les coûts de recréation d'environnements technologiques complexes soient faramineux. Enfin, il y a encore peu d'études sur le sujet. Nous ne recommandons pas cette stratégie pour le portail dans l'immédiat.


Garantir l'intégrité et l'authenticité des textes

L'authenticité et l'intégrité des textes sont deux éléments essentiels de la communication savante. Les auteurs autant que les lecteurs veulent s'assurer que les documents électroniques n'ont pas été manipulés, altérés ou encore falsifiés après leur création et leur publication.

Afin que les publications électroniques soient protégées et garanties, plusieurs solutions existent tel le cryptage. Le cryptage est l'" opération par laquelle est substitué, à un texte en clair, un texte inintelligible, inexploitable pour quiconque ne possède pas la clé permettant de le ramener à sa forme initiale."(103) "Essentiellement, il s'agit de coder un message de façon à ce que seul un interlocuteur connaissant la " clé " puisse le décoder."(104) Cette problématique fait l'objet d'une analyse détaillée dans le chapitre 5 du rapport Érudit.(105)

Le cryptage apparaît comme une solution adéquate pour la préservation de l'authenticité et de l'intégrité des publications électroniques scientifiques. Cependant, certains auteurs, croient qu'il peut y avoir certaines difficultés pour la conservation à long terme par exemple si un éditeur cesse ses activités et que la clé est perdue.

Signalons une autre solution, présentement en développement, par un groupe de travail du World Wide Web Consortium, le Digital Signature Initiative (106) (Dsign). Il s'agit d'un groupe de travail dont la mission est de développer une syntaxe XML représentant la signature des ressources Internet (tout ce qui peut être référencé par une adresse URL). Le développement de ces signatures permettra d'assurer l'intégrité des données, de même que l'authentification. Cette initiative vise aussi le développement de procédures pour créer et vérifier de telles signatures. À terme l'objectif du Web est d'établir le " Web of trust ".

Le portail devrait opter pour la simplicité et l'élégance de cette dernière solution et chercher à implanter la signature numérique dès que la norme aura atteint le statut de recommandation du W3C.


La responsabilité de la conservation et de l'archivage

Dans le rapport du Task Force on Archiving of Digital Information, il est suggéré que les éditeurs doivent être les premiers responsables de l'archivage et de la conservation de leurs publications. Ce point de vue est récurrent dans plusieurs autres textes sur le sujet. En raison de la complexité de ces tâches, et de leurs coûts inhérents, les éditeurs de revues savantes du Québec préféreront recourir aux services du portail et/ou des Bibliothèques nationales.

Généralement, par la loi du dépôt légal, les bibliothèques nationales s'assurent que toutes les publications de leur pays, soient acquises, conservées et rendues accessibles. Toutefois la législation sur le dépôt légal canadien (et québécois) ne couvre pas encore les publications diffusées en réseau. Comme il n'y a pas encore d'infrastructures nationales reconnues pour assurer l'archivage et la conservation à long terme de ces publications électroniques, qui doit assumer cette responsabilité ?

Le Canada étudie activement cette question et il est évident que la loi sera éventuellement modifiée pour inclure les publications en réseau. Dans l'attente d'une nouvelle législation, le dépôt des publications électroniques diffusées en réseau se fait sur une base volontaire dans de nombreux pays, par exemple au Canada, en Australie, en France, en Suisse, au Royaume-Uni et en Allemagne.(107)

Plusieurs portails assument actuellement des responsabilités d'archivage, mentionnons JSTOR, dont les frais d'abonnements (108) couvrent ce service. Pour les petits éditeurs, l'avantage majeur de cette approche est qu'ils n'ont plus à se soucier de l'archivage et de la conservation et que le tout est fait à meilleur coût.


En résumé

La conservation et l'archivage du patrimoine culturel des revues est au cœur du projet de portail. En premier lieu, le site d'hébergement devra offrir des assurances de sécurité à la fine pointe des technologies disponibles. Également, une redondance des données devra être assurée avec des collaborateurs choisis et répartis géographiquement (autres portails, bibliothèques nationales du Canada et du Québec). De plus, comme dans le cas du projet Muse, les abonnés institutionnels devraient recevoir une copie sur cédérom de la version XML de la base de données (sans le moteur de recherche) à chaque année.

Le portail devra poursuivre sa veille technologique en matière d'intégrité et d'authenticité des textes électroniques. Les groupes de travail du W3C sur la signature numérique et les métadonnées devraient donner sous peu des résultats tangibles, permettant d'assurer la confiance envers les documents distribués électroniquement.

Pour le portail, le format de conservation sera uniquement le XML. La priorité du portail est d'assurer la conservation (109) de ce type de document électronique. La garantie d'accès à long terme aux fichiers PDF est quant à elle probable mais ne peut être affirmée d'une façon aussi certaine. Le portail ne peut s'engager à faire migrer le format PDF vers les versions 5, 6 ou 7 car cela représenterait d'éventuels coûts supplémentaires inutiles. En effet, puisque le PDF est dérivé automatiquement de la version Postscript, il pourra être recréé à volonté. Le mandat de protéger la version Postscript pourra être confié aux Bibliothèques nationales.

En attendant que la loi sur le dépôt légal des documents électroniques soit adoptée, le portail devrait participer, dans les plus brefs délais, au dépôt volontaire de ses publications électroniques à la Bibliothèque nationale du Canada, en prenant des ententes afin que la diffusion ne se fasse qu'à partir du site du portail afin, notamment, de simplifier la compilation des statistiques de consultation.

L'archivage des périodiques du portail est donc vu comme une responsabilité partagée entre le portail et les Bibliothèques nationales. Toutefois, il ne faut pas oublier que la conservation des données telle que définie plus haut est essentielle pour l'utilisation (et donc la survie !) du portail. La conservation est donc au cœur des préoccupations du portail et devra être prise en compte dans les budgets de fonctionnement.


91 Rafraîchissement : action de copier de l'information numérique d'un médium de stockage à long terme vers un autre (source : projet CEDARS - traduction libre )  Retour

92 Migration: La migration est un élément d'une stratégie globale de conservation qui consiste à mettre en œuvre une série de tâches visant à convertir de façon périodique des objets numériques d'une configuration (matérielle/logicielle) vers une autre ou d'une génération de technologie informatique vers une nouvelle génération. Le but de ces opérations est de préserver l'intégrité de l'objet numérique et de conserver la capacité de le récupérer, l'afficher et l'utiliser en dépit des technologies en changement constant. (source : projet CEDARS - traduction libre ) http://www.leeds.ac.uk/cedars/documents/PSW01.htm.   Retour

93 Bibliothèque nationale du Canada, Groupe de coordination des collections électroniques. Politiques et directives relatives aux publications électroniques diffusées en réseau, octobre 1998. http://www.nlc-bnc.ca/pubs/irm/fneppg.htm#annexe   Retour

94 Ibid.  Retour

95 Russell, Kelly. " CEDARS : Long-term Access and Usability of Digital Resources. The Digital Preservation Conundrum ". Ariadne, no 18, décembre 1998. http://www.ariadne.ac.uk/issue18/cedars   Retour

96 Phillips, Margaret E. " Ensuring Long-Term Access to Online Publications ", The Journal of Electronic Publishing, vol. 4, no 4, juin 1999. http://www.press.umich.edu/jep/04-04/phillips.html   Retour

97 Bullock, Allison. " La conservation de l'information numérique : ses divers aspects et la situation actuelle". Flash réseau no 60, 22 octobre 1999. http://nlc-bnc.ca/pubs/netnotes/fnotes60.htm   Retour

98 Hodge, Gail et Carroll Bonnie C. Digital Electronic Archiving : The State of the Art and the State of the Practice. International Council for Scientific and Technical Information, Information Policy Committee, 26 avril 1999, p. 60. http://www.icsti.org/icsti/99ga/digarch99_MainP.pdf   Retour

99 Kenney, Anne R. et Rieger Oya Y.. " Developing a Digital Preservation Strategy for JSTOR ". RLG DigiNews, vol. 4, no 4, 15 août 2000. < http://www.rlg.org/preserv/diginews/diginews4-4.html   Retour

100 Hodge, Gail et Carroll Bonnie C. Digital Electronic Archiving : The State of the Art and the State of the Practice. International Council for Scientific and Technical Information, Information Policy Committee, 26 avril 1999, p. 60. http://www.icsti.org/icsti/99ga/digarch99_MainP.pdf   Retour

101 Pour en savoir plus sur LOCKSS: http://lockss.stanford.edu/projectdescbrief.htm   Retour

102 Ibid.  Retour

103 Office de la langue française. http://www.olf.gouv.qc.ca/   Retour

104 & 105 Rapport Érudit. http://www.erudit.org/erudit/rapport/chap5/chap5.htm   Retour

106 http://www.w3.org/Signature/   Retour

107 Martin, Libby. Gestion des publication sélectroniques diffusées en réseau : état de la question dans divers pays, Bibliothèque du Canada, 31 décembre 1999.   Retour

108 Ces frais peuvent être divisés en deux : d'une part il y a les frais pour accéder aux archives, d'autre part les frais relatifs aux coûts de fonctionnement et de mise à jour des archives.   Retour

109 Dans le sens large, défini en introduction.   Retour



Début de la page

Accueil Précédent Suivant