Chapitre 5
|
|
|
Notons au passage que l'activité de conservation de documents électroniques signifie beaucoup plus que la simple création d'une copie de sauvegarde.
Le but de la conservation des publications électroniques est donc de s'assurer que l'information subsiste et soit accessible sous un format lisible aussi longtemps que possible, même après plusieurs changements technologiques. La conservation inclut aussi toutes les stratégies permettant d'arriver à cet objectif, par exemple le transfert de l'information de supports en supports, etc. On retrouve dans cet objectif une distinction souvent faite en archivistique. D'une part, il y a la notion de préservation de l'information contenue dans un document, soit la protection de cette information, d'autre part, il y a la notion de conservation du support sur lequel se trouve l'information, soit le maintien en bon état physique de ce support. Les deux notions s'avèrent complémentaires pour assurer une stabilité et un accès à long terme aux publications électroniques.
En anglais, archives correspond à une " collection " regroupant des documents dans un domaine particulier. Les sites de prépublications dans Internet ont souvent le terme Archive dans leur appellation, et il s'agit bel et bien d'une collection de prépublications sur un domaine.
Le terme archiving ne correspond pas au terme " archivage ". En anglais, l'accent est mis sur la sélection (identification et regroupement) des documents. La notion d'accessibilité reste présente mais pas celle de conservation. La définition de Margaret E. Phillips le montre bien : " First, the materials have to be identified, collected and made accessible in their current format (the archiving process)."(96)
Finalement, le terme preservation correspond au terme français conservation.
Ces définitions étant posées, il est évident que, dans un monde numérique, la nuance est subtile entre archivage et conservation. Toutes les opérations de conservation nécessaires à son bon fonctionnement devront naturellement être assumées par le portail afin qu'il demeure en activité. Ces activités du portail peuvent donc également être considérées comme de l'archivage. Le portail ne peut toutefois prétendre être aussi durable que des institutions telles que les bibliothèques nationales.
Toutes les mesures de conservation visent à contrer le problème de l'obsolescence technologique, en premier lieu l'obsolescence physique rapide d'abord. Pour comprendre le problème, on n'a qu'à évoquer les disquettes de 8 pouces, introduites sur le modèle 3310 d'IBM en 1979 ou même les disquettes de 51/4 pouces introduites en 1980 sur les premiers ordinateurs personnels qui ne sont plus utilisables avec les ordinateurs d'aujourd'hui et donc illisibles. 20 ans à peine! on ne parle pas ici de textes écrits par des Sumériens!
Le rafraîchissement routinier des données nous assure de conserver le flot de bits en bon état mais nous devons également lutter contre l'obsolescence des logiciels : pensons ici au logiciel WordStar, fort populaire il y a à peine 15 ans, pensons aux multiples versions d'un même logiciel qui paraissent à intervalle régulier. Bref, s'ils ne sont pas rendu inaccessibles en raison de l'obsolescence technologique du matériel, les documents électroniques peuvent quand même être endommagés et amputés de certains éléments caractéristiques. " À titre d'exemple, il est possible de conserver le contenu d'un document électronique tout en perdant la mise en page. Il est possible de conserver la présence physique (p. ex., un fichier) sans toutefois arriver à conserver la lisibilité."(97)
Depuis les cinq dernières années plusieurs projets expérimentaux cherchent à trouver et définir les meilleures solutions, et proposer plusieurs modèles relatifs à la question de l'archivage et la conservation des publications électroniques sur le Web. Ces projets proviennent de divers organismes, tels les éditeurs, les bibliothèques nationales, les instituts de recherche, les universités, les archives nationales, les programmes gouvernementaux. Dans notre revue de la littérature, nous avons porté une attention particulière aux projets impliquant des publications scientifiques, à la question des formats et des supports, ainsi qu'aux stratégies employées pour l'archivage et la conservation.
Dans les diverses expériences étudiées, plusieurs s'accordent pour dire qu'il est primordial de garder l'apparence, le cachet et l'originalité des publications scientifiques électroniques en plus, évidemment, du contenu informationnel.
En faisant le tour des projets, on constate que les plus utilisés sont les HTML, SGML et PDF. Le format XML est encore peu utilisé pour le moment mais il doit dorénavant être considéré (98). JSTOR, pour ne citer qu'un exemple, envisage de migrer ses métadonnées dans une structure XML (99).
| Projet | Formats |
| Pandora (Preserving and Accessing Networked Documentary Resources of Australia) | PDF, SGML, HTML |
| HighWire (États-Unis) | SGML, PDF |
| Muse (États-Unis) | HTML, PDF |
| Allen Press (États-Unis) | SGML |
| Institute of Electrical and Electronic Engineers (États-Unis) | SGML, PDF |
| American Astronomical Society (États-Unis) | SGML |
| American Institute of Physics (États-Unis) | PDF, SGML |
| Danemark, projet de dépôt légal des publications électroniques | ASCII Text, format d'image (par exemple TIFF) |
Le PDF est un format propriétaire, largement utilisé et accepté par le milieu de l'édition. Son accessibilité à long terme demeure toutefois source d'inquiétude pour les archives nationales et les bibliothèques (100).
Pour le portail, le format de conservation sera le XML. La priorité du portail est d'assurer la conservation de ce type de document électronique. La garantie d'accès à long terme aux fichiers PDF est probable mais ne peut être affirmée d'une façon aussi certaine.
Les supports d'archivage et de conservation utilisés par les différents projets étudiés ne sont que très rapidement mentionnés, souvent ils ne le sont pas du tout. La raison est simple, l'accent est mis sur l'augmentation des contenus et, comme le coût des supports magnétiques ne cesse de décroître, on continue de les garder en ligne. Les projets procèdent évidemment à des copies de sécurité routinières sur divers supports magnétiques (ruban, cartouches, disques miroirs) ou optiques (cédérom, le DVD étant encore peu utilisé).
La question des supports mérite réflexion car leur durée est comptée en dizaine d'années et non plus en siècle comme c'est le cas pour le papier de très haute qualité et les microfilms. Les supports magnétiques subissent une double détérioration. D'une part, il y a l'affaiblissement progressif du champs magnétique, qui doit être rafraîchi. D'autre part, il y a la détérioration relative aux conditions environnementales (le taux d'humidité, les variations de température, la pollution, la poussière, etc.) Les supports optiques, sont plus durables mais ils restent sujets à la détérioration due à l'environnement (conditions ambiantes), aux matériaux utilisés pour leur fabrication, à la corrosion des différentes couches de métal, etc.)
Pour pallier la détérioration rapide des supports, les différents projets que nous avons analysés utilisent différentes techniques telles que la redondance des données, la dispersion géographique, les copies de sécurité de routine, sur une base quotidienne, de façon à ce qu'aucun événement, tels qu'une panne ou un bris du matériel, une attaque de hackers, une catastrophe naturelle, etc., ne puisse détruire toutes les données.
Les bibliothèques ont aussi créé un modèle distribué d'archivage pour le matériel en ligne : LOCKSS (Lots of Copies Keeps Stuff Safe) (101).
|
Cet outil permet aux bibliothèques de conserver les publications en ligne sur les disques des ordinateurs locaux. Les publications qui ont été téléchargées localement ne sont pas effacées et sont continuellement confrontées aux mêmes publications qui sont en ligne pour s'assurer que leur contenu n'a pas été détérioré ou perdu. Si c'est le cas, les publications sont restaurées. Plus de bibliothèques utiliseront ce modèle distribué assurant une répartition géographique des fichiers, plus il y aura de copies des publications conservées.
Il s'agit d'une approche intéressante, différente de celles des copies de sauvegarde, mais encore trop récente pour tirer des conclusions. Toutefois, le portail devrait s'assurer de produire des documents compatibles avec le système LOCKSS.
L'émulation comme stratégie de conservation à long terme
Différentes approches ont été suggérées pour conserver les documents électroniques à long terme : 1) l'application des normes et des standards pour les formats, 2) la conservation de la technologie (les logiciels et le matériel informatique), 3) la migration des documents dans une forme accessible pour les générations futures, 4) l'impression des documents électroniques sur papier.
Aucune de ces solutions n'est totalement satisfaisante. Certains spécialistes préconisent une cinquième option : l'émulation.
L'émulation est une opération de simulation qui consiste à imiter le fonctionnement d'un ordinateur ou d'un logiciel sur un autre ordinateur généralement plus puissant d'une génération subséquente. On recrée virtuellement l'environnement matériel et logiciel d'origine. Les documents électroniques sont ainsi accessibles et lisibles sous leur forme originelle.
Cette stratégie peut s'avérer intéressante car elle n'altère pas les données et que l'émulation n'est effectuée que lorsque il y a un besoin réel d'accéder aux données, " à la volée ". Elle permet la conservation de l'aspect, du cachet et de l'originalité du document électronique aussi bien que de son contenu. Aucune autre opération n'est requise si ce n'est celle du rafraîchissement du support sur lequel sont les données.
Toutefois, cette solution demeure encore largement théorique et on peut s'attendre à ce que les coûts de recréation d'environnements technologiques complexes soient faramineux. Enfin, il y a encore peu d'études sur le sujet. Nous ne recommandons pas cette stratégie pour le portail dans l'immédiat.
L'authenticité et l'intégrité des textes sont deux éléments essentiels de la communication savante. Les auteurs autant que les lecteurs veulent s'assurer que les documents électroniques n'ont pas été manipulés, altérés ou encore falsifiés après leur création et leur publication.
Afin que les publications électroniques soient protégées et garanties, plusieurs solutions existent tel le cryptage. Le cryptage est l'" opération par laquelle est substitué, à un texte en clair, un texte inintelligible, inexploitable pour quiconque ne possède pas la clé permettant de le ramener à sa forme initiale."(103) "Essentiellement, il s'agit de coder un message de façon à ce que seul un interlocuteur connaissant la " clé " puisse le décoder."(104) Cette problématique fait l'objet d'une analyse détaillée dans le chapitre 5 du rapport Érudit.(105)
Le cryptage apparaît comme une solution adéquate pour la préservation de l'authenticité et de l'intégrité des publications électroniques scientifiques. Cependant, certains auteurs, croient qu'il peut y avoir certaines difficultés pour la conservation à long terme par exemple si un éditeur cesse ses activités et que la clé est perdue.
Signalons une autre solution, présentement en développement, par un groupe de travail du World Wide Web Consortium, le Digital Signature Initiative (106) (Dsign). Il s'agit d'un groupe de travail dont la mission est de développer une syntaxe XML représentant la signature des ressources Internet (tout ce qui peut être référencé par une adresse URL). Le développement de ces signatures permettra d'assurer l'intégrité des données, de même que l'authentification. Cette initiative vise aussi le développement de procédures pour créer et vérifier de telles signatures. À terme l'objectif du Web est d'établir le " Web of trust ".
Le portail devrait opter pour la simplicité et l'élégance de cette dernière solution et chercher à implanter la signature numérique dès que la norme aura atteint le statut de recommandation du W3C.
Dans le rapport du Task Force on Archiving of Digital Information, il est suggéré que les éditeurs doivent être les premiers responsables de l'archivage et de la conservation de leurs publications. Ce point de vue est récurrent dans plusieurs autres textes sur le sujet. En raison de la complexité de ces tâches, et de leurs coûts inhérents, les éditeurs de revues savantes du Québec préféreront recourir aux services du portail et/ou des Bibliothèques nationales.
Généralement, par la loi du dépôt légal, les bibliothèques nationales s'assurent que toutes les publications de leur pays, soient acquises, conservées et rendues accessibles. Toutefois la législation sur le dépôt légal canadien (et québécois) ne couvre pas encore les publications diffusées en réseau. Comme il n'y a pas encore d'infrastructures nationales reconnues pour assurer l'archivage et la conservation à long terme de ces publications électroniques, qui doit assumer cette responsabilité ?
Le Canada étudie activement cette question et il est évident que la loi sera éventuellement modifiée pour inclure les publications en réseau. Dans l'attente d'une nouvelle législation, le dépôt des publications électroniques diffusées en réseau se fait sur une base volontaire dans de nombreux pays, par exemple au Canada, en Australie, en France, en Suisse, au Royaume-Uni et en Allemagne.(107)
Plusieurs portails assument actuellement des responsabilités d'archivage, mentionnons JSTOR, dont les frais d'abonnements (108) couvrent ce service. Pour les petits éditeurs, l'avantage majeur de cette approche est qu'ils n'ont plus à se soucier de l'archivage et de la conservation et que le tout est fait à meilleur coût.
La conservation et l'archivage du patrimoine culturel des revues est au cœur du projet de portail. En premier lieu, le site d'hébergement devra offrir des assurances de sécurité à la fine pointe des technologies disponibles. Également, une redondance des données devra être assurée avec des collaborateurs choisis et répartis géographiquement (autres portails, bibliothèques nationales du Canada et du Québec). De plus, comme dans le cas du projet Muse, les abonnés institutionnels devraient recevoir une copie sur cédérom de la version XML de la base de données (sans le moteur de recherche) à chaque année.
Le portail devra poursuivre sa veille technologique en matière d'intégrité et d'authenticité des textes électroniques. Les groupes de travail du W3C sur la signature numérique et les métadonnées devraient donner sous peu des résultats tangibles, permettant d'assurer la confiance envers les documents distribués électroniquement.
Pour le portail, le format de conservation sera uniquement le XML. La priorité du portail est d'assurer la conservation (109) de ce type de document électronique. La garantie d'accès à long terme aux fichiers PDF est quant à elle probable mais ne peut être affirmée d'une façon aussi certaine. Le portail ne peut s'engager à faire migrer le format PDF vers les versions 5, 6 ou 7 car cela représenterait d'éventuels coûts supplémentaires inutiles. En effet, puisque le PDF est dérivé automatiquement de la version Postscript, il pourra être recréé à volonté. Le mandat de protéger la version Postscript pourra être confié aux Bibliothèques nationales.
En attendant que la loi sur le dépôt légal des documents électroniques soit adoptée, le portail devrait participer, dans les plus brefs délais, au dépôt volontaire de ses publications électroniques à la Bibliothèque nationale du Canada, en prenant des ententes afin que la diffusion ne se fasse qu'à partir du site du portail afin, notamment, de simplifier la compilation des statistiques de consultation.
L'archivage des périodiques du portail est donc vu comme une responsabilité partagée entre le portail et les Bibliothèques nationales. Toutefois, il ne faut pas oublier que la conservation des données telle que définie plus haut est essentielle pour l'utilisation (et donc la survie !) du portail. La conservation est donc au cœur des préoccupations du portail et devra être prise en compte dans les budgets de fonctionnement.
91 Rafraîchissement : action de copier de l'information numérique d'un médium de stockage à long terme vers un autre (source : projet CEDARS - traduction libre )
Retour92 Migration: La migration est un élément d'une stratégie globale de conservation qui consiste à mettre en œuvre une série de tâches visant à convertir de façon périodique des objets numériques d'une configuration (matérielle/logicielle) vers une autre ou d'une génération de technologie informatique vers une nouvelle génération. Le but de ces opérations est de préserver l'intégrité de l'objet numérique et de conserver la capacité de le récupérer, l'afficher et l'utiliser en dépit des technologies en changement constant. (source : projet CEDARS - traduction libre ) http://www.leeds.ac.uk/cedars/documents/PSW01.htm.
Retour93 Bibliothèque nationale du Canada, Groupe de coordination des collections électroniques. Politiques et directives relatives aux publications électroniques diffusées en réseau, octobre 1998.
http://www.nlc-bnc.ca/pubs/irm/fneppg.htm#annexe Retour94 Ibid.
Retour95 Russell, Kelly. " CEDARS : Long-term Access and Usability of Digital Resources. The Digital Preservation Conundrum ". Ariadne, no 18, décembre 1998. http://www.ariadne.ac.uk/issue18/cedars
Retour96 Phillips, Margaret E. " Ensuring Long-Term Access to Online Publications ", The Journal of Electronic Publishing, vol. 4, no 4, juin 1999. http://www.press.umich.edu/jep/04-04/phillips.html
Retour97 Bullock, Allison. " La conservation de l'information numérique : ses divers aspects et la situation actuelle". Flash réseau no 60, 22 octobre 1999. http://nlc-bnc.ca/pubs/netnotes/fnotes60.htm
Retour98 Hodge, Gail et Carroll Bonnie C. Digital Electronic Archiving : The State of the Art and the State of the Practice. International Council for Scientific and Technical Information, Information Policy Committee, 26 avril 1999, p. 60. http://www.icsti.org/icsti/99ga/digarch99_MainP.pdf
Retour99 Kenney, Anne R. et Rieger Oya Y.. " Developing a Digital Preservation Strategy for JSTOR ". RLG DigiNews, vol. 4, no 4, 15 août 2000. < http://www.rlg.org/preserv/diginews/diginews4-4.html
Retour100 Hodge, Gail et Carroll Bonnie C. Digital Electronic Archiving : The State of the Art and the State of the Practice. International Council for Scientific and Technical Information, Information Policy Committee, 26 avril 1999, p. 60. http://www.icsti.org/icsti/99ga/digarch99_MainP.pdf
Retour101 Pour en savoir plus sur LOCKSS: http://lockss.stanford.edu/projectdescbrief.htm
Retour102 Ibid.
Retour103 Office de la langue française. http://www.olf.gouv.qc.ca/
Retour104 & 105 Rapport Érudit. http://www.erudit.org/erudit/rapport/chap5/chap5.htm
Retour Retour107 Martin, Libby. Gestion des publication sélectroniques diffusées en réseau : état de la question dans divers pays, Bibliothèque du Canada, 31 décembre 1999.
Retour108 Ces frais peuvent être divisés en deux : d'une part il y a les frais pour accéder aux archives, d'autre part les frais relatifs aux coûts de fonctionnement et de mise à jour des archives.
Retour109 Dans le sens large, défini en introduction.
Retour| Accueil | Précédent | Suivant |