Le processus d'édition électronique comporte plusieurs étapes et acteurs. Une fois ce processus complété, nous obtenons un texte dont la qualité porte le sceau de trois groupes d'acteurs : les auteurs de la publication, bien entendu, le comité éditorial de la revue, y compris le comité de lecture qui a accepté le document, et l'éditeur, maître d'oeuvre du processus comme tel.
À un moment précis du processus de publication, ces trois acteurs s'entendent sur un contenu et une présentation. C'est de cette entente que naîtra le document officiel et publié, portant le « sceau de qualité » de l'éditeur et du comité éditorial, ainsi que la réputation et le travail des auteurs. À partir de ce moment, aucune modification ne sera permise, même si parfois on retrouvera des errata lors d'éditions subséquentes d'un périodique, ce qui n'altère en rien le document original. Les différents utilisateurs de cette publication font confiance à ce processus et, lorsqu'ils reconnaissent un document imprimé par les attributs de mise en page d'un périodique, ils supposent qu'il s'agit bel et bien du document original, ou d'une copie conforme. Ce lien de confiance est très fort, même s'il est assez facile de faire des contrefaçons avec des photocopieurs de bonne qualité et un peu de montage.
Dans le monde électronique, où le document officiel et publié existe seulement en format électronique, nous voulons atteindre un niveau de confiance et d'authenticité au moins aussi fort que celui du monde imprimé et nous chercherons des outils et des procédures qui permettent d'y arriver. Heureusement, des solutions existent et permettent d'atteindre un niveau de sécurité et d'intégrité encore plus élevé que les méthodes traditionnelles, basées à la fois sur la confiance, la réputation et la difficulté à produire des impressions de qualité sans utiliser des équipements lourds et dispendieux.
Ces solutions sont basées sur des mécanismes de cryptage informatiques. Nous verrons dans ce chapitre quels genres de cryptage sont possibles et quel type de sécurité ils permettent d'obtenir.
Dans un système informatique, on a besoin essentiellement de cinq éléments de sécurité. Nous allons voir si ces éléments sont importants dans un contexte d'édition scientifique. Ces éléments sont définis en fonction de la présence d'un « message », soit un contenu informationnel qui est stocké ou échangé entre des intervenants, ou encore de la présence d'une « transaction », qui est un acte se déroulant à un moment précis entre au moins deux intervenants.
Lorsqu'une personne reçoit un message, par exemple par courrier électronique ou encore en consultant un document sur le Web, elle peut être intéressée à connaître la provenance exacte de ce message, son auteur ou son créateur, qu'il s'agisse d'une personne physique ou morale. Cet élément de sécurité est très important dans le contexte d'une publication scientifique électronique, car il permet d'assurer aux lecteurs que le document qu'ils consultent provient bien des auteurs et éditeurs mentionnés.
De nos jours, sur Internet, l'authenticité des auteurs et des créateurs d'information n'est généralement pas garantie par des mécanismes de sécurité informatique, mais bien par un environnement de confiance. En effet, prenons le cas d'une personne qui navigue sur le Web et qui consulte un article scientifique publié à l'adresse suivante : http://www.pum.umontreal.ca/gpq/v52n03/tremblay.html . Dans cet article, il verra que l'auteur est un certain « Michel Tremblay » et que l'éditeur est « Les Presses de l'Université de Montréal ».
Quel est cet environnement de confiance qui permet au lecteur d'être suffisamment convaincu qu'il s'agit bel et bien de l'article original publié par l'auteur et les Presses de l'Université de Montréal ? Nous pouvons sommairement identifier ces éléments :
L'article est diffusé sur le site Web des PUM, comme l'atteste le début de son adresse (www.pum.umontreal.ca ). Dans son expérience de navigation, le lecteur a toujours considéré que le nom de domaine était représentatif de l'organisme qui le possède.
Le lecteur fait confiance à son navigateur Web pour lui présenter l'information qu'il demande. Ainsi, lorsqu'il demande une adresse, le navigateur lui présente le document situé à cette adresse, et rien d'autre.
Le lecteur est confiant qu'aucun organisme tiers s'est immiscé entre son ordinateur et le serveur des PUM afin de se substituer à l'éditeur.
Cet environnement de confiance est suffisant pour la très grande majorité des lecteurs et des éditeurs. Toutefois, les technologies de cryptage informatique permettant d'aller beaucoup plus loin et d'augmenter le niveau de confiance, les éditeurs devraient explorer ces avenues puisqu'il s'agit d'un critère important pour eux.
Dans certains contextes, un message sera transmis non pas à toute la communauté, mais seulement à un ou plusieurs intervenants bien établis. Dans de telles situations, nous devons avoir un certain niveau de confiance dans l'identité du récepteur. C'est pourquoi nous voulons un mécanisme permettant de l'authentifier. Dans le monde de l'édition scientifique, cet élément est important non pas à cause de la nature confidentielle de l'information, mais plutôt parce que bien souvent seuls certains usagers ont payé les droits requis pour accéder à l'information et nous voulons nous assurer que ce sont bien ces usagers qui la reçoivent, et non d'autres personnes qui tentent de se faire passer pour eux.
Sur Internet, il existe deux méthodes pour assurer un certain niveau de confiance quant à l'identité du récepteur du message : la protection par mot de passe ainsi que l'utilisation de certificats.
La protection de contenus par mot de passe est très simple à mettre en place sur un serveur Web. Il s'agit de configurer le serveur afin qu'il diffuse certains documents ou groupes de documents seulement si l'usager a entré un code d'usager et un mot de passe valides. Lorsqu'un usager désire obtenir un document protégé de la sorte, on lui demande un code d'usager et un mot de passe, que son navigateur transmet au serveur, et, s'ils sont valides, il pourra consulter le document en question. Il n'a pas à répéter cette opération pour chaque document protégé dans la même « zone » puisque le navigateur retiendra le mot de passe pendant un certain temps. Ce mécanisme peut être fort utile pour restreindre l'accès aux publications à ceux qui ont payé. Il est simple à mettre en place et peu coûteux, sinon gratuit. Toutefois, il devient très difficile de gérer un grand nombre de codes d'usagers et de mots de passe, ce qui rend ce système peu efficace pour un grand nombre d'abonnés. On peut contourner ce problème en fournissant un seul code et un seul mot de passe pour tous les abonnés, mais très rapidement il y aura des fuites et tout le monde le saura.
Le mécanisme des certificats consiste à fournir aux utilisateurs des certificats d'authentification qui seront nécessaires pour accéder à certaines informations. Il est semblable à celui des mots de passe, mais les certificats sont à la fois plus fiables (d'un point de vue cryptographique) et plus simples d'utilisation (pour les utilisateurs, et une fois que le certificat est installé). Toutefois, ils sont plus complexes à mettre en place, plus coûteux, et surtout ils n'apportent pas de solution intéressante au problème de la multiplication des certificats.
La confidentialité d'un message est une caractéristique qui concerne les droits que l'on accorde à des personnes pour consulter un message et, par le fait même, les interdictions que l'on met en place pour d'autres. Ainsi, si le message est destiné à une seule personne, il est confidentiel, et l'émetteur ainsi que le récepteur doivent avoir un mécanisme (ou un environnement de confiance) pour garantir cette confidentialité.
Cet aspect de la sécurité n'est pas dans la nature même de l'édition scientifique. En effet, les résultats de recherche scientifique sont publiés dans le but ultime d'être connus de tous. Toutefois, les éditeurs doivent dépenser de fortes sommes afin de préparer et diffuser ces publications, ce qui les oblige à prévoir une forme de revenu pour poursuivre la publication. La plupart du temps, ce sont les usagers qui génèrent ces revenus, sous la forme d'abonnements, alors les éditeurs doivent s'assurer que seuls les usagers ayant payé peuvent avoir accès aux documents.
Sur Internet, il existe un mécanisme plus ou moins normalisé pour assurer la confidentialité, soit celui des sites sécuritaires à l'aide de la technologie « SSL » utilisée par la plupart des serveurs et navigateurs Web. Le mécanisme utilise des technologies de cryptage afin de rendre un canal de transmission confidentiel. Essentiellement, lorsqu'un usager, à l'aide de son navigateur, se branche sur un site sécuritaire, le navigateur et le serveur s'entendent sur des clés de cryptage afin de rendre la connexion (en terme technique, le « socket » TCP/IP) complètement invisible ou indéchiffrable pour toute autre personne. Dans ce modèle, le message lui-même n'est pas crypté, c'est le canal par lequel il transite qui le sera.
Ces sites sécuritaires sont un peu complexes à mettre sur pied ; leur intérêt premier est de permettre l'échange de données sensibles (par exemple des informations confidentielles facilement identifiables comme des numéros de cartes de crédit) entre deux personnes. Dans l'édition scientifique, l'information transmise n'est pas de nature confidentielle en soi, c'est plutôt un mécanisme de droits d'accès qui est nécessaire. Les sites sécuritaires ne seront donc pas utilisés fréquemment, si ce n'est pour enregistrer des transactions d'abonnement ou de paiement, par exemple.
Un autre élément de sécurité important est la notion d'intégrité d'un message. Nous avons vu qu'avec la confidentialité et l'authenticité, nous cherchons à être certains (ou au moins confiants) de la provenance d'un message et du fait qu'aucun intervenant non autorisé n'a pu le consulter. Toutefois, ce n'est pas suffisant, car ces deux éléments ne nous garantissent pas que le message n'a pas été modifié en cours de route. C'est ici que l'intégrité du message intervient. Lorsque l'intégrité est garantie, cela signifie que le message que nous avons reçu est exactement le même que celui qui a été transmis par l'émetteur, sans un seul bit de différence.
Il est intéressant de noter que cette garantie d'intégrité permet de se protéger contre des intrusions de piratage, mais également contre des dysfonctionnements des réseaux informatiques sur lesquels l'information circule. Par exemple, lorsqu'un serveur transmet un document HTML à un navigateur, le document pourrait fort bien être modifié en cours de route (par exemple à cause d'un mauvais lien réseau) sans que quiconque ne s'en rendre compte. Il existe évidemment des contrôles de qualité de plus bas niveau (avec TCP/IP), mais ceux-ci ne sont pas parfaitement fiables et rien n'est fait pour garantir l'intégrité du contenu du message.
Il s'agit d'un élément de sécurité important dans le domaine de l'édition scientifique. Imaginons, par exemple, que dans un tableau présentant des résultats d'expérience, un nombre soit modifié suite à une erreur de transmission. Un chercheur voulant reproduire ou utiliser ces résultats serait dans l'erreur ou le doute. Toutefois, les éditeurs ont rarement mis en place des mécanismes assurant l'intégrité de leurs publications électroniques jusqu'à maintenant.
Ce dernier élément de sécurité est habituellement associé aux transactions commerciales ; il vient compléter les autres éléments qui entrent en jeu. Imaginons, par exemple, une transaction entre deux personnes. Les deux parties voudront s'assurer qu'ils transigent avec l'interlocuteur auquel ils s'attendent (authenticité), et voudront probablement garder leur transaction confidentielle et s'assurer de l'intégrité des informations échangées pendant la transaction. Toutefois, il est important, qu'une fois la transaction effectuée, il ne soit pas possible de la désavouer, c'est-à-dire de la faire disparaître, sans l'accord préalable des personnes concernées.
Il s'agit habituellement du dernier élément de sécurité développé dans les systèmes. Dans le cas de l'édition scientifique, il pourrait être intéressant seulement lors des transactions commerciales pour s'abonner ou acheter à la pièce l'information. Toutefois, puisque les sommes en jeu ne sont généralement pas tellement importantes (si on compare, par exemple, aux transactions entre des banques), il ne serait pas vraiment efficace de mettre en place un tel système.
Dans un environnement de publication scientifique électronique fiable, complet et très robuste, il faudrait considérer ces cinq aspects de la sécurité informatique. Malheureusement, il est souvent impossible de le faire avec des moyens restreints et surtout les bénéfices ne seraient pas toujours très importants. C'est pourquoi, la plupart du temps, les éditeurs ou diffuseurs vont s'en tenir à un seul aspect : s'assurer que seuls les gens qui ont payé pourront consulter l'information. On cherchera à s'assurer de l'authenticité du récepteur du message, qui est garantie, en général, par l'utilisation d'un mécanisme de codes d'usagers et de mots de passe, facile à mettre en place, mais difficile à gérer par la suite. Il est intéressant de noter, au passage, que dans un modèle économique où l'information est diffusée gratuitement, cette sécurité n'est plus nécessaire.
Maintenant, s'il fallait aller plus loin, et cette fois-ci non seulement considérer les aspects purement commerciaux de l'édition scientifique, mais plutôt réfléchir au caractère fondamental de ce processus, vers quels environnements ou quels systèmes faudrait-il aller ? L'une des grandes caractéristiques du processus d'édition scientifique consiste en la présence d'un « sceau de qualité » apposé par l'éditeur et les auteurs, si bien qu'il faut trouver un moyen sûr de propager ce sceau pour que les lecteurs soient en toute confiance. Pour ce faire, il faut un mécanisme qui garantit l'authenticité de l'information publiée, ainsi que l'intégrité de l'information, sans laquelle l'authenticité n'a pas beaucoup de valeur. Dans la prochaine section, nous allons montrer comment il est possible de mettre en place un tel système à l'aide de mécanismes de signature électronique.
Le cryptage de messages ne date pas d'hier, et encore moins de l'arrivée de l'informatique. Essentiellement, il s'agit de coder un message de façon à ce que seul un interlocuteur connaissant la « clé » puisse le décoder. À partir de cette idée, on peut bâtir des systèmes qui permettent de garantir les cinq éléments de sécurité mentionnés dans la section précédente.
Pour qu'un tel système fonctionne correctement, deux conditions doivent absolument être remplies :
Une personne ne possédant pas la clé de décodage ne peut pas, dans des limites de temps raisonnables, déchiffrer le message ;
Il existe une façon fiable (un « canal sécuritaire ») pour transmettre la clé de décodage entre les personnes concernées.
Dans le monde informatique, il existe deux grands modèles de cryptage qui puissent répondre à ces conditions, celui des « clés secrètes » et celui des « clés publiques ».
Le modèle des clés secrètes est simple. Le message est codé à l'aide de la clé (secrète) et la clé est transmise (via un canal sécuritaire) à l'interlocuteur, qui peut ainsi décoder le message. Il s'agit d'un modèle très efficace mais qui demande un canal sécuritaire pour transmettre la clé en toute confiance. Ce canal sécuritaire pourrait être, par exemple, l'échange de main à main d'une disquette contenant la clé. Dans le contexte d'un éditeur qui veut diffuser à un large public, il est impossible de mettre en place de tels canaux sécuritaires pour chaque interlocuteur, ce qui nous amène à rejeter ce modèle.
Le deuxième modèle, celui des clés publiques, vient combler cette lacune de façon très astucieuse. Il est maintenant très utilisé, notamment sur Internet. Pour bien le comprendre, il faut d'abord connaître ses trois concepts centraux :
Chaque interlocuteur possède une paire de clés : l'une « publique », l'autre « privée ». Comme leur nom l'indique, seul le propriétaire de la paire de clés doit connaître sa clé privée, alors que la clé publique est destinée à être connue de tous ;
Un message crypté à l'aide de la clé publique peut seulement être décrypté à l'aide de la clé privée correspondante. Inversement, un message crypté à l'aide d'une clé privée peut seulement être décrypté par la clé publique correspondante ;
Il existe une relation (algorithmique) entre les deux clés, mais il n'est pas réaliste d'espérer trouver une clé privée à l'aide de la clé publique correspondante. En l'occurence, le terme réaliste signifie que même en utilisant tous les ordinateurs du monde en parallèle, il faudrait beaucoup de temps pour y arriver, ce qui ne pourrait pas passer inaperçu.
Prenons un exemple concret pour illustrer ce modèle. Supposons qu'un éditeur veut faire passer un « message » (un document qu'il publie) à un lecteur.
S'il veut authentifier ce message, c'est-à-dire faire en sorte que le lecteur puisse vérifier si le message provient bien de cet éditeur, il le cryptera à l'aide de sa clé privée. Le lecteur pourra utiliser la clé publique de l'éditeur pour le décrypter, et si cela fonctionne, c'est parce que c'est l'éditeur qui a crypté le document car seul cet éditeur connaît cette clé privée. À l'inverse, s'il veut rendre son message confidentiel et empêcher toute autre personne de lire le document, il utilisera la clé publique du lecteur en question pour crypter le message. Par conséquent, seule la clé privée correspondante pourra être utilisée pour décrypter le message, et donc seul le lecteur pourra le faire.
Ce modèle, puissant en théorie, souffre toutefois d'une lacune importante. Même si les clés publiques sont faites pour être diffusées, on doit avoir un moyen de s'assurer qu'une certaine clé publique est bel et bien associée à la personne ou à l'organisme que l'on croit. Dans le modèle de clés secrètes, nous avions besoin d'un canal sécuritaire afin d'éviter que des espions n'interceptent la clé, alors qu'ici nous avons un problème d'authentification de l'origine de la clé. Toutefois, ce problème est moindre car nous pouvons établir un environnement de confiance pour diffuser les clés publiques. Par exemple, un organisme qui diffuse sa clé publique sur son site utilise la relation de confiance qui se crée entre les utilisateurs du site et lui-même. Si les utilisateurs sont confiants de bel et bien naviguer le bon site, ils seront convaincus que la clé publique est la bonne.
Même s'il a des failles, le modèle des clés publiques est préférable pour le genre de sécurité qu'un éditeur scientifique recherche. Il permet d'assurer l'authenticité des documents, de même que l'intégrité de leur contenu, avec un très grand niveau de confiance. Ces précisions étant faites, nous pouvons décrire brièvement comment nous avons mis en place un tel système pour l'une des publications des Presses de l'Université de Montréal.
La revue Surfaces est publiée par les Presses de l'Université de Montréal sur support électronique seulement. Elle est disponible sur le Web[ 1 ] en format HTML et SGML. Nous avons mis en place un système basé sur le cryptage par clé publique pour assurer à la fois l'authenticité des articles ainsi que l'intégrité de leur contenu. Il faut noter que dans ce contexte, l'authenticité est associée à l'éditeur et non à l'auteur. Ainsi, ce système permet de vérifier si l'article est bien édité par la revue Surfaces, et non s'il a été écrit par un auteur particulier.
Nous utilisons un logiciel pour le cryptage par clé publique appelé Pretty Good Privacy, ou PGP. PGP est disponible gratuitement dans la plupart des pays du monde[ 2 ]. La revue Surfaces a d'abord utilisé PGP pour se générer une paire de clés. Elle diffuse maintenant sa clé publique sur son site Web, en supposant que les lecteurs aient confiance en la provenance des informations du site. Par la suite, tous les articles de Surfaces ont été « signés » à l'aide de PGP et de la clé privée de la revue. Pour PGP (et généralement dans le modèle des clés publiques), une signature électronique consiste à utiliser une clé privée pour authentifier à la fois la provenance du message et l'intégrité de son contenu. Concrètement, PGP insère, au début et à la fin du document (SGML ou HTML), certaines informations qui lui sont propres. Nous nous sommes assurés que ces informations n'interfèrent pas avec le contenu et la structure des documents, ce qui est assez facile avec SGML ou HTML puisque les informations sont du texte simple et qu'on peut les insérer en tant que commentaires.
Par la suite, un lecteur peut utiliser sa propre installation de PGP pour vérifier l'authenticité et l'intégrité de l'article et ce, de la façon suivante. Tout d'abord, il s'assure d'ajouter dans son environnement PGP la clé publique de la revue qu'il pourra trouver sur le site. Ensuite, il va utiliser PGP en lui demandant de vérifier la signature de l'article, et PGP répondra qu'il provient de la revue Surfaces (si c'est bien le cas) et précisera si le document a été modifié de façon quelconque depuis le moment où il a été signé.
Si on est certain que la clé publique provient bel et bien de la revue Surfaces, et si la paire de clés de la revue est générée avec suffisamment de sécurité, ce mécanisme est inviolable en pratique. En théorie, c'est très facile à contourner, puisque les algorithmes sont connus, mais il faudrait une trop grande puissance informatique pour y arriver. Nous disposons là d'un mécanisme gratuit pour atteindre un niveau intéressant de sécurité pour un éditeur scientifique. De plus, ce mécanisme peut facilement être automatisé pour l'éditeur, étant donnée la nature même du logiciel PGP.
Du côté de l'usager, de tels outils ne sont malheureusement pas implantés directement dans les navigateurs Web par exemple, et très rarement aussi dans les logiciels de courrier électronique. Il est toujours possible de le faire, et ce avec d'excellentes interfaces, mais malheureusement il s'agit d'une installation supplémen-taire que peu d'utilisateurs sont prêts à effectuer.
Nous avons montré qu'il existe des technologies et des modèles de cryptage informatique qui permettent d'atteindre de hauts niveaux de sécurité. Toutefois, peu ou pas d'éditeurs utilisent de tels outils afin de garantir l'authenticité et l'intégrité des documents qu'ils publient, deux éléments qui seraient pourtant les premiers soucis de l'édition scientifique en matière de sécurité. Pourquoi si peu d'exemples dans le monde de l'édition ? Probablement parce que ces solutions sont encore trop « coûteuses », par rapport aux bénéfices qu'elles peuvent générer, même si elles sont « gratuites » en termes d'investissement. À ce sujet, voici les principaux problèmes rencontrés :
Les outils standards de navigation sur le Web ou de courrier électronique n'incluent pas de systèmes d'authentification et d'intégrité des contenus, et lorsqu'ils le font ce ne sont pas des systèmes nécessairement compatibles entre eux ;
Il n'existe pas de techniques ou d'outils de cryptage informatique qui soient réellement acceptés comme des standards de l'industrie. Il existe des modèles (comme celui à clé publique) ou encore des algorithmes, mais pas d'outils normalisés utilisant ces modèles et algorithmes.
Bien entendu, ces deux problèmes sont liés entre eux, et la solution viendra de l'évolution commune des deux problèmes : plus il y aura d'applications utilisant ces outils, plus ils seront normalisés, et plus ces outils seront normalisés, plus les fabricants d'applications seront intéressés à les inclure dans leurs logiciels.
Un troisième facteur pourrait venir briser ce cercle vicieux. En effet, si des organismes (par exemple des éditeurs scientifiques) commencent dès maintenant à proposer des documents authentifiés dont l'intégrité est assurée, les producteurs d'applications et les organismes de normalisation des produits normalisés les commercialiseront sans doute plus rapidement.
En attendant, rien n'empêche les éditeurs de se familiariser avec ces concepts dès maintenant, comme nous l'avons fait dans le cas de la revue Surfaces. Dans ce cas, il faudrait vérifier la réaction des utilisateurs avant de s'assurer du bien-fondé de cette approche, mais puisqu'elle entraîne des coûts négligeables pour l'éditeur, il serait étonnant qu'elle ne soit pas « rentable ».
2. Pour en savoir plus sur la disponibilité de PGP, sur les détails techniques de son utilisation, ainsi que sur la façon de l'utiliser avec Surfaces, consulter l'aide disponible sur le site : <URL:http://www.pum.umontreal.ca/revues/surfaces/pgp_aide.html >