Au cours des dernières années, les réseaux, et en particulier Internet, nous ont permis de réaliser de nombreux projets de « diffusion électronique d'information », c'est-à-dire d'utilisation du support électronique pour la production et surtout la diffusion d'information. Plusieurs techniques nous permettent d'y arriver, et presque toutes ont comme point commun l'utilisation des formats de documents popularisés par Internet, soit HTML en grande partie, mais aussi PDF à l'occasion. Ces initiatives ont eu pour effet de constituer un immense réservoir d'information en format électronique, soit le World Wide Web, réservoir intéressant mais difficile à exploiter.
Les éditeurs, pour qui la diffusion d'information n'a plus de secrets depuis fort longtemps, se sont bien entendus lancés dans cette grande aventure, la plupart embrassant les techniques habituelles : production et diffusion de HTML sur le Web, ou encore production de documents PDF à partir de leur chaîne de traitement traditionnelle, et diffusion de ces documents sur le Web.
Mais ces techniques sont-elles suffisantes pour assurer une édition de qualité, en particulier dans le monde de l'édition scientifique ? Ce chapitre est consacré à cette question et passe passe en revue certains critères importants, en plus d'expliquer les différentes techniques utilisées pour chaque aspect de l'édition scientifique.
Nul n'a besoin aujourd'hui de justifier les raisons pour un éditeur scientifique de diffuser son information non seulement sur support imprimé, mais également sur support informatique. La question se pose plutôt ainsi : quels sont les moyens à mettre en oeuvre pour y arriver de façon plus ou moins novatrice ? Nous allons aussi considérer l'importance d'y arriver efficacement, car il est peu probable que les éditeurs disposent de budgets plus importants parce qu'ils ont un nouveau support de diffusion à gérer. C'est habituellement la situation inverse que l'on observe depuis quelques années.
Au cours des 20 ou 30 dernières années, les éditeurs ont pu profiter des développements technologiques dans le domaine de l'informatique. Dans un premier temps, ils ont utilisé l'informatique dans la chaîne de production, à l'aide des techniques de publication assistée par ordinateur (PAO), que ce soit au moyen de logiciels de traitement de texte ou de mise en page. D'ailleurs, plusieurs éditeurs fonctionnent toujours avec ces moyens de production.
Nous n'aborderons pas en détail les questions reliées à la production de l'information à l'aide d'outils informatisés, si ce n'est que pour rappeler ces faits importants :
La quasi-totalité de la production dans le monde de l'édition se fait à l'aide d'outils informatiques ;
Très souvent, les derniers détails de l'impression sont ajustés de manière non informatique, par exemple le traitement de certaines images.
Nous pouvons en tirer deux conclusions en apparence contradictoires : tous les documents imprimés, même ceux produits de façon traditionnelle, existent sous une forme électronique mais pour plusieurs documents imprimés nous n'avons pas de version finale et définitive en format électronique. Par conséquent, même si en apparence les outils de PAO nous permettent de faire un pas vers de la véritable édition électronique, des ajustements doivent être faits afin d'obtenir un document électronique qui soit fidèle à la version imprimée.
Cette utilisation de la PAO n'est donc pas suffisante pour obtenir un document électronique de qualité, et donc pour assurer la diffusion ainsi que la conservation sur support électronique. Cette approche est donc nettement insuffisante, ce qui demande aux éditeurs de remettre en question non seulement leurs façons de diffuser et de conserver leur information, mais également de la produire.
La PAO sera toujours nécessaire pour la production de la version imprimée des documents, donc pour l'un des supports d'information. Toutefois, il faut maintenant considérer le support papier comme l'un des produits dérivés de l'acte d'édition, et non comme le seul produit final. Pour y arriver, il faut mettre en place une chaîne de traitement qui peut non seulement produire les différentes versions sur support électronique, mais également la version imprimée.
Un modèle intéressant consiste à orienter les étapes de production dans le but d'obtenir un document unique, riche, à partir duquel on pourra dériver un ensemble de produits qui seront diffusés aux lecteurs. Ces produits dérivés pourraient être, par exemple, une version imprimée et reliée, un document HTML sur le Web, une version sommaire de l'article (titre, auteurs, résumé) envoyée par courrier électronique à une liste de diffusion, etc.
Pour arriver à implanter un tel modèle de traitement et de production, il est nécessaire d'utiliser une technologie qui permet de créer des documents suffisamment riches pour représenter toutes les informations nécessaires aux traitements à effectuer, immédiatement ou dans les années à venir. Heureusement, une telle technologie existe, et il s'agit de la norme SGML (Standard Generalized Markup Language), et de sa cousine XML (Extensible Markup Language).
Ces normes permettent de créer des documents structurés, c'est-à-dire des documents (nécessairement électroniques) qui contiennent de l'information à propos de leur contenu et de leur structure, plutôt que des informations de formatage en fonction d'un contexte particulier. Par exemple, pour un article scientifique, un document destiné à l'impression pourrait contenir de l'information sur la taille de police, la famille de police, l'interlignage, etc., alors qu'un document structuré contiendra de l'information sur la signification de ses différentes parties, par exemple un titre, un chapitre, un auteur, etc.
À partir de ce document structuré, il est possible de dériver différents produits, car tous ces produits contiennent ou bien moins d'information que le document structuré, ou bien de l'information plus détaillée mais facile à déduire à partir de la structure. Par exemple, il est facile de convertir une information telle que « ceci est un titre de section » en une série d'instructions telles que « mettre en caractères gras, 12 points, police Arial, espace de 12 points avant le paragraphe ». Il faut noter, et c'est important, que l'inverse n'est pas vrai : les instructions de formatage peuvent difficilement être converties en informations sur la structure, sauf si les instructions de formatage sont très précises et surtout très cohérentes à l'intérieur du document.
Ce modèle de production centré sur l'exploitation du document structuré est donc fondamentalement différent du modèle de la publication assistée par ordinateur traditionnelle, car il nous permet de considérer les différents supports ou formats de diffusion, ainsi que les différents formats de conservation, comme étant des produits dérivés à partir d'une même source. Cette dérivation est en général facile, et surtout elle peut être automatisée.
Dans le cadre du projet Érudit, nous avons implanté une chaîne de traitement basée sur une telle approche, laquelle sera décrite en détail dans une section ultérieure de ce chapitre.
Les méthodes de publication assistée par ordinateur et l'exploitation des documents structurés ne sont pas les seules approches possibles pour l'édition électronique et imprimée. Il est possible de jumeler ces deux approches, ou certains aspects de ces approches, afin d'en définir de nouvelles. En nous soumettant à cet exercice, nous avons identifié trois approches d'édition électronique et imprimée possibles :
L'électronique après le papier. Conserver les techniques de PAO traditionnelles, et à partir des résultats de celles-ci créer des versions électroniques des documents ;
Les chaînes parallèles. Continuer à travailler avec les outils de PAO pour les versions imprimées, mais « remonter » à la source (par exemple, des documents de traitement de texte produits par les auteurs) pour créer des versions électroniques ;
Le document structuré et les produits dérivés. Produire d'abord un document structuré (en format électronique) et, par la suite, dériver des produits, y compris l'utilisation de la PAO pour des versions imprimées.
La première approche souffre de deux lacunes importantes. D'abord, elle ajoute des étapes à la chaîne de traitement, ce qui la rend nécessairement plus coûteuse que le modèle traditionnel avec l'imprimé comme seul support. De plus, puisque la chaîne de traitement est d'abord et avant tout orientée vers l'imprimé, il sera difficile d'exploiter les possibilités des documents électroniques.
La deuxième approche permet, peut-être, d'exploiter les possibilités des documents électroniques, mais encore une fois elle vient ajouter des étapes à la chaîne de traitement, ce qui la rend nécessairement plus coûteuse. De plus, une autre difficulté s'ajoute, car le fait de mener deux chaînes en parallèle rend les étapes de correction plus difficiles et les erreurs plus probables.
La troisième approche, comme nous venons de le voir dans la section précédente, peut s'avérer intéressante et surtout efficace, puisqu'une seule chaîne de traitement est utilisée et qu'il n'y a pas répétition de l'information. De plus, elle peut utiliser toute la puissance des outils de PAO pour produire la version imprimée des documents, si nécessaire.
Dans les sections suivantes, nous allons discuter des autres aspects de l'édition, en nous concentrant sur les impacts de l'utilisation de la première et de la troisième approche seulement.
L'information, imprimée ou électronique, doit nécessairement être consignée sur un support pour que l'on puisse parler d'édition ou encore de publication. Traditionnellement, le seul support utilisé était le papier, ou plus généralement, toute forme de document imprimé. Ce support était utilisé pour la production, la diffusion ainsi que la conservation des informations. Maintenant, nous devons avoir comme objectif la diffusion sur plusieurs supports, imprimé et électroniques, ainsi que la conservation sur support électronique.
La première distinction est bien entendu établie entre les supports imprimés et les supports « électroniques » que l'on devrait plutôt appeler « informatiques ». Les supports imprimés sont connus depuis fort longtemps. Nous connaissons très bien les impacts du type de papier, de la taille de papier, du type de police, de la taille des polices, sur des aspects comme la conservation, la lisibilité, etc. Nous n'allons pas nous étendre davantage sur ce sujet, mais il faut tout de même mentionner deux points. D'abord, malgré la reconnaissance de la nécessité de la diffusion électronique de l'information, il y a toujours un grand intérêt pour le support imprimé. Le papier sera utilisé pour un temps encore indéterminé, qu'il est très difficile d'évaluer pour plusieurs types de documents. Il est donc encore nécessaire de mettre en place des outils qui permettront de produire de l'information sur support imprimé. Ensuite, à court ou moyen terme, il sera plus efficace et plus sûr de conserver l'information sur support électronique, même si présentement tout se fait (ou presque) sur support imprimé.
Nous allons donc maintenant nous concentrer sur les supports électroniques, en discutant de leurs caractéristiques à la fois pour la diffusion et la conservation.
Cette section pourrait très bien s'appeler « Internet », car aujourd'hui il est impensable d'utiliser un autre réseau informatique pour diffuser de l'information à un large public. Nous pouvons bien entendu rêver d'un réseau différent ou encore d'un Internet amélioré, mais dans la réalité il faut utiliser ce réseau dès maintenant, avec ses limites mais surtout ses possibilités.
Un réseau est le support idéal pour atteindre des utilisateurs rapidement et leur offrir de l'information à jour. Par exemple, si on ajoute un document sur un site Web, il est automatiquement visible pour tous les usagers naviguant sur ce site. Il s'agit du principal avantage des réseaux. Avec ce support de diffusion, les flux d'information peuvent demeurer purement informatiques, sans jamais être matérialisés en « atomes », comme ce serait le cas sur papier ou sur un cédérom transmis entre différentes personnes.
Il est inutile de justifier l'utilisation d'Internet pour la diffusion de l'information scientifique en format électronique, puisque cela a déjà été fait. Mais réfléchissons tout de même aux possibilités de conservation à l'aide d'Internet. La conservation et l'archivage des documents électroniques, une préoccupation au même titre que le souci de pérennité des documents sur support papier, impliquent plusieurs conditions. Les problèmes, que nous rencontrons très fréquemment, de conversion d'un format à un autre nous font réaliser l'importance du format de stockage des données, condition qui sera développée dans une autre section de ce chapitre. Les supports ont toutefois une très grande importance pour la conservation de l'information.
En effet, pour conserver à long terme des documents électroniques, pour être en mesure de récupérer facilement un fichier, l'information devant être stockée sur un support fiable qui sera encore en bon état pour les besoins de consultation à venir. Cependant, cette condition n'est pas suffisante. Déjà pour les documents sur support papier, la conservation et l'archivage ne sont pas assurés par la seule qualité « non-acide » du papier et l'entreposage dans des conditions convenables, voire optimales. Dès son apparition, une des caractéristiques importantes du livre, qui a amené des répercutions importantes dans les sociétés, a été la diffusion de plusieurs exemplaires, sur plusieurs continents, assurant ainsi la pérennité de l'information en la protégeant des événements, catastrophes, guerres ou désastres localisés. De la même façon, le document numérique doit être dupliqué et stocké en plusieurs copies qui seront dispersées géographiquement. Cette condition de dispersion, couplée aux autres que nous exposons, diminue la probabilité que l'ensemble des exemplaires disparaisse au même moment.
Internet peut être très utile pour assurer la conservation des documents électroniques, car on peut facilement utiliser l'architecture même de ce réseau afin de copier les fichiers sur un grand nombre de serveurs répartis sur la planète et se fier sur cette multiplicité des copies et la dispersion géographique comme gages de sécurité à long terme. De plus, contrairement au livre où une reproduction implique un travail de fabrication non négligeable, la duplication d'un document électronique se fait en quelques secondes. Là encore, en autant que toutes les conditions nécessaires à la conservation électronique soient réunies, nous avons en cette matière une autre manifestation de l'universel du cyberespace, non seulement en ce qui a trait aux potentialités de joindre l'ensemble de la planète, mais également de porter l'universel aux documents.
Les documents électroniques peuvent tous être représentés par un ou plusieurs fichiers informatiques. Le fait qu'ils le soient en plus d'un fichier ne change rien à notre discussion, c'est pourquoi nous allons, pour simplifier, associer un document électronique à un fichier informatique.
Les documents électroniques peuvent être conservés et diffusés sur tout support de données utilisable dans l'industrie de l'informatique, y compris les supports amovibles tels que disquettes, cédéroms, cartouches, disques amovibles, rubans magnétiques ou même, jusqu'à un certain point, disques durs externes que l'on peut déplacer d'un ordinateur à l'autre.
Le choix d'un support amovible se fera donc en fonction de critères que l'on rencontre habituellement dans cette industrie, comme la capacité de stockage, les coûts de stockage, la rapidité d'accès, le taux de transfert, etc. Nous ne discuterons pas de ces critères ici.
La véritable question qui nous intéresse est celle-ci : y a-t-il un intérêt à offrir des revues scientifiques électroniques sur supports amovibles, si ces mêmes documents sont aussi disponibles par réseau ? La réponse est oui, et la plupart des raisons peuvent être associées à l'une de ces trois grandes justifications :
L'utilisation de l'information se fait dans un milieu où l'accès au réseau est impossible. Par exemple dans un endroit désertique ou presque (recherches scientifiques dans les déserts, les zones polaires, etc.) ;
L'utilisation de l'information est plus facile lorsque celle-ci est sur un support amovible et local. Par exemple lorsqu'on a un réseau trop lent ou peu fiable ;
La gestion de l'information sur support amovible est plus facile. Par exemple, une bibliothèque qui offre des périodiques électroniques à ses usagers pourrait contrôler plus facilement l'accès à un cédérom qu'à Internet.
Il est intéressant de noter que, plus le temps avance, plus le nombre de situations où l'une ou l'autre de ces justifications s'appliquent diminue. En effet, le réseau Internet est de plus en plus présent, y compris via satellite pour les régions éloignées ou désertiques, les réseaux deviennent de plus en plus rapides et fiables, et les outils de gestion de l'information intègrent de plus en plus l'information disponible en réseau et non seulement sur support local.
Mais la diffusion sur support amovible est toujours nécessaire, et dans la plupart des cas l'utilisation du cédérom semble être le meilleur support, à la fois grâce à la capacité de stockage, l'omniprésence des lecteurs, ainsi qu'aux faibles coûts de production.[ 1 ] En théorie, mettre de l'information sur un cédérom n'est pas différent de le stocker sur un serveur réseau. Toutefois, en pratique, on voudra offrir sur le cédérom les mêmes services que sur le réseau, par exemple la recherche dans les documents à l'aide de requêtes. La plupart des cédéroms documentaires utilisent des environnements de création et de diffusion spécifiques à ce support, et l'utilisateur doit installer une application sur son poste de travail. Cette approche permet d'offrir des environnements très sophistiqués, mais à condition d'utiliser des technologies habituellement propriétaires et qui ne permettent pas nécessairement la diffusion sur toutes les plates-formes informatiques.
De plus en plus, nous voyons des cédéroms documentaires qui se présentent comme un site Web, comprenant des fonctions interactives comme la recherche. Des outils permettent d'inclure sur le cédérom de petits serveurs Web et, par exemple, des logiciels de recherche, recréant ainsi l'univers familier du Web sur un support amovible. Cette approche est très intéressante car elle permet d'utiliser une interface unique entre les produits réseaux et cédérom, ce qui simplifie les coûts de développement et diminue le temps d'apprentissage des usagers qui utilisent les deux supports. Nous croyons que cette façon de produire des cédéroms devrait être de plus en plus utilisée, non seulement pour la simplification qu'elle permet, mais aussi parce qu'elle permet peut-être d'en arriver à un modèle d'interface (celui du Web) plus normalisé pour différents cédéroms documentaires provenant de différents éditeurs, car l'un des problèmes actuels est la multiplicité des interfaces de navigation des cédéroms.
Du point de vue de la conservation, les supports amovibles peuvent être intéressants, à condition de bien connaître deux paramètres importants : la durée de vie utile du support lui-même, ainsi que la probabilité qu'il existe encore des lecteurs au moment où l'on voudra s'y référer.
La durée de vie d'un support n'a pas besoin d'être très longue, l'important c'est de la connaître. En effet, même si un support n'est fiable que pendant cinq ans, on peut copier l'information sur un autre support dans cinq ans, et des copies de fichiers peuvent habituellement se faire automatiquement, ce qui est peu coûteux. En fait, une courte durée de vie peut parfois même s'avérer bénéfique, car elle nous force à penser continuellement aux problèmes de conservation, et en particulier au problème de conversion de formats que nous verrons plus loin.
Quant à l'existence de lecteurs dans le futur, c'est difficile à évaluer, mais on peut se rassurer en utilisant des technologies très répandues, ou encore en conservant tout l'équipement nécessaire sur une longue période. En fonction de ces deux critères, le cédérom peut s'avérer intéressant.
Peu importe les moyens de production utilisés, les supports réseaux et amovibles permettront de diffuser des documents électroniques car ils permettent de stocker et diffuser des fichiers informatiques. Ils offrent aussi des possibilités intéressantes de conservation à long terme. Le support de diffusion n'est donc pas le critère majeur pour choisir un moyen de production, ou pour choisir entre une technique de PAO ou celle des documents structurés.
Tout document électronique sera représenté par un fichier informatique, mais le contenu exact de ce fichier sera déterminé par le format utilisé pour représenter l'information. Très souvent, les formats de documents sont associés à l'application qui produit le document, par exemple les formats Word ou WordPerfect.
La question des formats est probablement la plus importante dans un contexte d'édition scientifique électronique. Elle a des impacts majeurs sur la production, la diffusion ainsi que la conservation des documents. Une section sera consacrée à chacun de ces aspects.
Puisque les documents électroniques doivent être stockés en fonction d'un certain format, il est nécessaire de s'interroger sur les critères à utiliser dans le choix d'un format de document électronique, en ayant pour objectif la conservation à long terme.
Dans un premier temps, nous voulons un format qui puisse se représenter aisément dans un fichier informatique, mais puisque c'est le cas de tous les formats nous n'en discuterons pas plus longuement.
Ensuite, nous voulons que ce format soit capable de représenter correctement l'information contenue dans le document. Par exemple, s'il y a du texte et des images, il est nécessaire d'utiliser un format qui permet d'intégrer à la fois des informations textuelles et graphiques. De nos jours, ce n'est plus un véritable problème, car la plupart des formats de document permettent d'intégrer différents types d'information, et sont à proprement parler des formats de documents « multimédias ».
Nous voulons également un format qui pourra être « lu » par une application et ce, aussi longtemps que nous le souhaitons. Et c'est ici que les difficultés se présentent : les conversions d'un format à l'autre ou encore d'une version à l'autre d'un même format ne sont pas une solution à ce problème.
Prenons par exemple un format de traitement de texte comme Word. Un document stocké dans la version « 97 » de Word pourra être conservé pendant un certain temps, et on peut être confiant qu'il existera des applications qui pourront lire des documents Word pour encore un grand nombre d'années, ne serait-ce que Word lui-même. Toutefois, ces logiciels auront évolué, tout comme les formats associés, et, même si en apparence le logiciel lira notre document, en fait il effectuera une conversion dans son format « natif ». Et rien ne garantit que cette conversion fonctionnera correctement à tout coup. Peut-être y aura-t-il pertes d'information, ou changements dans la présentation, ou autres problèmes du genre.
Heureusement, il existe une façon intéressante de contourner ce problème. Il s'agit d'utiliser à la fois un format de représentation de l'information très simple et très universel, et d'utiliser une technique qui rende ces documents « lisibles par l'humain ». Un document structuré représenté à l'aide de SGML est un bel exemple d'un tel document.
En effet, on peut représenter un document SGML à l'aide de caractères faisant partie du jeu de caractères ASCII. Concrètement, le fichier produit sera un pur fichier ASCII, soit le type de fichiers le plus universel que l'on trouve dans le monde informatique. Il y a de fortes chances qu'il existera encore des plates-formes informatiques et des applications qui nous permettront de « voir » un fichier ASCII, et ce pour encore une très longue période.
De plus, un document structuré utilisant SGML contient de l'information du genre « <titre>Introduction</titre> ». Même sans application particulière, même sans connaissance informatique ou de SGML, il est assez facile de s'imaginer que le mot « Introduction » est un titre, et non le nom d'un auteur. Cette facilité de lecture par l'humain est impossible avec des formats binaires tels que Word, ou même avec des formats textuels comme RTF (Rich Text Format), qui ne sont pas destinés à être compris par l'humain. Par conséquent, même si on a perdu toute possibilité d'utiliser des applications pouvant faire un traitement intéressant de nos documents SGML, un seul lecteur de documents ASCII permettra de consulter le document et de le comprendre.
Les documents structurés stockés en format SGML ont donc la grande qualité, parmi d'autres, d'être très bien adaptés pour la conservation à long terme, ce qui peut être fort intéressant dans le monde de l'édition scientifique.
Les formats de diffusion de documents électroniques sont multiples et variés. Toutefois, il y a présentement une assez forte convergence vers deux formats associés au Web : HTML et PDF. Le format PDF est particulièrement bien adapté pour la représentation exacte de documents imprimés dans un format facilement diffusable sur le Web. Il est donc tout à fait naturel d'utiliser ce format à des fins d'impression à distance ou encore d'impression sur demande, ce qui répond à de nombreux besoins pour l'édition scientifique, qui a souvent de faibles tirages ou encore parce que les usagers n'ont besoin que des parties des documents (un article plutôt qu'un numéro d'une revue, par exemple).
À partir du moment où on utilise des moyens informatisés pour produire nos documents imprimés, il est relativement facile et efficace d'en tirer des versions PDF et de les diffuser sur le Web. Pour nos deux scénarios (PAO et documents structurés), nous utilisons de tels outils, sans que cela ne cause de problème.
Il y a toutefois deux points importants à retenir. D'abord, nous avons déjà mentionné qu'à cause de contraintes techniques, les fichiers de PAO ne sont pas nécessairement les versions finales des documents imprimés, car certains ajustements sont faits par l'imprimeur, notamment pour le traitement des images. Il faudra donc s'assurer d'effectuer ces ajustements ou de les compenser dans nos outils de PAO avant de produire le PDF. Ensuite, cette façon de procéder, très efficace, n'a pour but que de créer des documents pour l'impression à distance, et non pour leur consultation ou exploitation en ligne. Si on veut rendre la consultation en ligne agréable, il faudra y effectuer des traitements habituellement manuels et coûteux, ce que l'on veut éviter. Dans un modèle de diffusion électronique de l'information, la seule façon efficace d'intégrer le format PDF est donc de le considérer comme un format d'impression à distance, sans plus. C'est beaucoup, mais ce n'est pas suffisant.
L'autre format de convergence est évidemment le format HTML, né avec le Web et popularisé avec l'évolution de ce réseau. Presque toutes les applications documentaires peuvent maintenant lire ou produire des documents HTML. Il s'agit véritablement du format de l'heure, et cette mode n'est pas un hasard, car il s'agit d'un très bon format de diffusion.
Lorsqu'on associe HTML avec Javascript (langage de programmation), par exemple, il est possible de créer de véritables interfaces de consultation et non de simples documents électroniques. L'utilisateur pourra naviguer aisément dans le document, interagir (par exemple avec des formulaires), etc. HTML est donc un format de document qui peut être compris par un très grand nombre d'applications et qui, en plus, permet de créer des interfaces très intéressantes pour les documents électroniques. Il n'y a aucune raison de s'en passer, et un éditeur doit même le considérer comme le plus populaire de ses formats de diffusion, sinon le plus important.
Il faut mentionner deux points importants au sujet du HTML. D'abord, il s'agit d'un excellent format de diffusion dans le contexte actuel, mais d'un très pauvre format de gestion ou de production. Ensuite, pour produire un document HTML de qualité, c'est-à-dire une interface de qualité, on doit travailler à partir d'une source d'information très riche, sinon le travail sera fait à la main et sera fastidieux.
Ces deux remarques nous amènent à conclure que le format HTML s'avère un format de diffusion à privilégier, en autant que l'on utilise un autre format de gestion et que l'on puisse produire des documents HTML de qualité facilement. Ajoutons que les formats de PAO ne remplissent ni l'une ni l'autre de ces conditions, mais que la norme SGML, elle, nous permet d'y arriver.
Au moment de la production de l'information, nous devons travailler avec un format qui nous permettra d'atteindre tous les objectifs fixés dans les sections précédentes, et ce de façon efficace. En résumé, nous voulons un format d'encodage de l'information qui nous permet de répondre à nos besoins :
manipuler aisément les documents pour effectuer toutes les activités de production ;
permettre l'exploitation de toutes les possibilités qu'offrent les documents électroniques
obtenir des documents électroniques dans d'autres formats (par exemple HTML) et ce, en exploitant toutes les possibilités de ces formats ;
permettre la diffusion sur différents supports, y compris le support papier à l'aide d'applications de PAO ;
conserver à long terme et dans des conditions optimales l'information et sa structure afin d'en assurer la pérennité.
Les documents structurés constituent la meilleure façon d'arriver à faire tout cela efficacement.
À l'opposé, les formats associés à la PAO ne peuvent nous permettre d'y arriver, car ils contiennent de l'information en fonction d'un support seulement. Par exemple, même si nous pouvons faire une conversion vers HTML à partir de n'importe quel logiciel de PAO, ce document HTML ne sera pas nécessairement intéressant pour la consultation en ligne car il est produit à partir d'un document fait pour le papier.
Les éditeurs scientifiques ne peuvent plus se permettre de produire pour le papier seulement et ils sont confrontés à l'obligation de faire plus avec moins de ressources. Un modèle technique basé sur les documents structurés peut leur permettre d'atteindre leurs objectifs.
Il y a plusieurs types de publications électroniques. On peut penser, entre autres, à ce que l'on peut appeler des versions électroniques de publications imprimées. Ces documents électroniques n'offriront guère plus que leurs cousins imprimés, si ce n'est, peut-être, une plus grande accessibilité, et certaines fonctions comme la recherche de mots dans le texte. Il peut donc y avoir des avantages à produire de tels documents électroniques, et dans bien des cas il s'agit d'une première étape très importante, mais il faut aussi chercher à exploiter les caractéristiques propres aux documents électroniques.
Pour discuter de ces caractéristiques, nous allons présenter quatre grands types d'information et voir lesquels peuvent être exploités sur quels supports. Par la suite, nous verrons quel modèle technologique est nécessaire afin d'exploiter ces types d'information.
L'information statique est la plus évidente, mais aussi la seule qui peut être véritablement représentée sur une feuille de papier. Il s'agit de textes ou d'images qui, une fois « imprimés » ou « stockés » dans le document, ne changeront pas. La plupart des documents existants ne contiennent que de l'information statique, car ils ont été produits d'abord et avant tout pour un support qui ne permet que ce genre d'information, soit l'imprimé.
Dans un modèle de traitement où l'on obtient des documents électroniques à partir d'une chaîne qui vise à produire du papier, on se retrouve souvent avec ce type d'information seulement. La pertinence du format électronique se limite alors à une plus grande accessibilité et (peut-être) à la recherche en texte intégral dans les documents.
L'information dynamique est celle qui peut changer, qui « bouge », qui s'anime. Ces animations ne sont pas contrôlées par les utilisateurs (ou si peu), mais plutôt par les producteurs de l'information. Le meilleur exemple est le vidéo ou les images en mouvement. La plupart du temps, l'interaction de l'utilisateur se limite à des fonctions telles que « marche avant » ou « arrière », « pause », « arrêt », etc. Les séquences sonores font également partie de ces informations dynamiques.
L'information dynamique peut apporter beaucoup aux documents électroniques, entre autres, aux articles scientifiques. Certains objets ou certains concepts se représentent beaucoup mieux par une séquence animée que par du texte ou des images fixes.
Un véritable périodique scientifique électronique devrait à tout le moins permettre aux auteurs de diffuser de l'information dynamique telles que des séquences vidéo ou sonores. Les éditeurs devront mettre en place des outils et des formats afin de prendre en compte ces nouveaux types d'information.
L'information interactive est celle qui peut prendre différentes formes ou valeurs en fonction du désir de l'utilisateur. Elle se distingue de l'information dynamique par l'importance qu'elle accorde au contrôle par l'utilisateur.
Par exemple, la simulation d'une molécule en trois dimensions, avec la possibilité pour l'utilisateur de manipuler la molécule dans tous les sens pour la voir sous tous ses aspects, constitue de l'information fortement interactive. Un autre exemple consiste en la publication d'un algorithme auquel l'utilisateur peut fournir des valeurs de départ et vérifier les résultats et ce, de façon instantanée ou presque. Cela peut aller d'une simple calculatrice d'intérêts composés à la simulation de la puissance d'un moteur.
Ce type d'information, de plus en plus présent dans les sites Web commerciaux ou scientifiques, devrait normalement faire partie des possibilités offertes par les revues savantes.
Les actions présentes dans un document sont un type d'information bien particulier, car elles permettent d'effectuer des opérations précises en fonction d'un contexte particulier. Le meilleur exemple est sans contredit les liens hypertextuels, qui permettent de passer rapidement d'un endroit à un autre dans un document ou une base d'information (par exemple le Web). Les formulaires interactifs constituent un autre bel exemple d'actions présentes dans des documents électroniques. Un sondage publié dans un article scientifique pourrait être mis à jour dynamiquement par des lecteurs qui pourraient laisser leur opinion à partir du document même.
Ces informations, comme les deux précédentes, ne peuvent pas être représentées exactement dans une version imprimée. Toutefois, on peut parfois décrire l'action qui serait effectuée, par exemple, l'adresse de destination dans le cas d'un lien hypertextuel simple.
Déjà, les documents sur le Web contiennent de telles information. Les liens hypertextuels sont généralisés, y compris dans les articles scientifiques, et les formulaires interactifs font partie du paysage normal des sites Web. Aux éditeurs maintenant d'en faire une utilisation efficace et novatrice.
La tâche de mettre en place une infrastructure technologique qui puisse supporter tous ces types d'information dans un document électronique peut s'avérer très complexe. En particulier, on doit tenir compte des facteurs suivants :
Un des problèmes majeurs pour les éditeurs, et par le fait même pour les utilisateurs, est l'absence ou la surabondance de normes pour certains types d'information. Dans le cas du texte et des images simples, la situation est assez facile avec l'omniprésence du format HTML et de ses formats d'image associés, GIF et JPEG.
Mais au-delà de ces quelques formats, la situation devient plus difficile car le support n'est habituellement pas natif dans les navigateurs communs, et il faut donc inciter les utilisateurs à installer des modules externes ou des applications supplémentaires afin de pouvoir consulter certaines parties de documents. Un utilisateur sera enclin à installer un tel module s'il en a besoin au moins occasionnellement ou si l'information manquante est très importante pour lui. Sinon, il va aller voir ailleurs ou il s'en passera.
Le défi technologique est double : trouver des formats adéquats pour chaque type d'information susceptible de se présenter et trouver un format de base qui puisse lier tous ces types d'information et qui serve de «ciment» aux différentes parties du document électronique.
Dans le cas du format de base, un modèle de traitement centré sur SGML peut s'avérer suffisant. En effet, SGML permet d'intégrer des parties de documents en différents formats. Ainsi, assembler un document ayant des composantes textuelles, iconographiques, vidéo, sonores et des algorithmes n'est pas un réel problème. De plus, si on utilise HTML comme principal format de diffusion pour la consultation électronique de l'information, nous avons aussi un format qui peut assembler des documents très complexes comprenant des parties très différentes et stockés dans des formats variés. Bref, SGML et HTML sont tous deux des formats « hypermédias », et constituent des solutions intéressantes pour la gestion et la diffusion de tels types de documents.
L'autre partie du défi est plus problématique : quel(s) format(s) utiliser pour les différentes types d'information? À ce sujet, un grand effort de normalisation reste à faire avant de s'assurer que les navigateurs habituels puissent présenter tous les types d'information sur toutes les plate-formes. Toutefois, soulignons certains aspects encourageants, tels que les quelques formats vidéo (QuickTime, RealVideo), qui semblent prédominer, et l'utilisation croissante de Java pour les applications dynamiques (ce qui pourrait être utile pour les algorithmes et les simulations).
Aujourd'hui, un éditeur qui prend au sérieux l'édition électronique et l'exploitation optimale des possibilités qu'offrent les documents électroniques devrait entreprendre ces différentes démarches :
Sensibiliser les auteurs potentiels aux possibilités des documents électroniques. Sans matière première, il est inutile de mettre en place des systèmes sophistiqués ;
Sensibiliser les utilisateurs aux possibilités des documents électroniques. Sans demande, l'offre ne sera pas nécessaire. À noter que, dans la communauté scientifique, les utilisateurs sont souvent bien sensibilisés, plus que les auteurs, même si paradoxalement il s'agit du même bassin de chercheurs ;
Identifier les formats de diffusion les plus adéquats. Il y a deux questions fondamentales à se poser : est-ce que le format choisi permettra de représenter adéquatement l'information à diffuser ? et est-ce que les utilisateurs possèdent les équipements et logiciels nécessaires pour pouvoir consulter des documents utilisant ce format ?
Établir des protocoles pour l'échange de tels documents. Les auteurs et les éditeurs doivent être en mesure de se transmettre efficacement ce genre d'information. Dans bien des cas, s'échanger des fichiers n'est pas suffisant et ce, même pour des types d'information simples comme des images ;
Mettre en place une infrastructure de gestion pour ces types de documents. L'éditeur doit être en mesure de manipuler et gérer ces parties de documents, et bien souvent les formats de diffusion et/ou d'échange ne sont pas les meilleurs pour y arriver, surtout si l'on considère la nécessité de conservation à long terme, par exemple. L'éditeur doit aussi travailler à mettre en place des procédures et des conventions pour lier ces différentes parties de documents entre elles ;
Participer aux efforts de normalisation des formats et des applications. Les éditeurs ont leur mot à dire dans de tels efforts, car ils pourraient en être les premiers bénéficiaires.
Il s'agit donc d'un agenda très chargé pour une tâche qui n'est pas simple. L'expérimentation pourrait être la solution dans bien des cas, et pour y arriver la meilleure méthode consiste probablement en la création d'une nouvelle revue savante purement électronique, dans une discipline qui se prête bien à la diffusion de différents types d'information.
Ce chapitre avait pour objectif de présenter les différents techniques reliées à l'édition électronique. Nous avons surtout cherché à montrer que sans un modèle technologique solide et orienté vers le document électronique et la réutilisation de l'information, il est impossible d'exploiter un tant soit peu les possibilités des documents électroniques. Heureusement, un tel modèle existe, et il a été expérimenté dans le cadre du projet Érudit. Il s'agit de baser la chaîne de traitement sur un document structuré, en format SGML, à partir duquel les différents formats de diffusion, y compris sur support imprimé, sont produits. Les détails techniques de ce modèle seront présentés dans le chapitre qui suit.
L'existence d'un tel modèle ne signifie malheureusement pas l'absence de tout problème ou la réalisation sans douleur de projets d'édition électronique. Les véritables documents électroniques, qui incluent de l'information dynamique et interactive, sont des objets avec lesquels ont doit continuer à se familiariser afin de trouver des applications et des formats adéquats. Mais, surtout, il est important de revoir notre conception de ce qu'est un document, et de le considérer plutôt comme une interface à un réservoir d'information. Cela demande un changement de culture important chez les éditeurs et les auteurs, et, à un degré moindre, chez les lecteurs-utilisateurs. Ce changement s'exprime, bien entendu, par de nouvelles chaînes de traitement ou de nouveaux modèles techniques, mais il doit également s'exprimer par de nouvelles mentalités.
1. À court ou moyen terme, la technologie DVD viendra supplanter le cédérom en assurant une compatibilité de lecture pour ce dernier. Reste à savoir à quel moment il sera pertinent de changer pour le DVD, ou pour utiliser les deux supports. Ce qui s'applique, dans cette section au cédérom, s'applique dans les mêmes termes au DVD.