L'histoire nous a montré que tout nouveau média a débuté en tentant d'abord de calquer un moyen de diffusion existant. Éventuellement, le nouveau média évolue et arrive à se définir et à développer ses propres caractéristiques devenant ainsi réellement novateur. Ainsi, pour la plupart des initiatives et des innovations dans le domaine de la publication scientifique, le modèle de la revue savante sur le Web commence par une transposition du modèle imprimé déjà existant.
Pour en assurer la réussite, la « transition » du format papier à l'électronique implique, d'une part, de travailler selon des façons de faire déjà existantes et, d'autre part, de graduellement en implanter de nouvelles, propres aux impératifs et aux possibilités d'un traitement électronique. Dans le cadre du projet Érudit, cette nouvelle chaîne de production a été réalisée parallèlement au processus de production courant des revues. Il a été établi qu'on tenterait de reproduire le plus fidèlement possible la signature (apparence) et la structure (construction) qu'affichaient la forme imprimée des revues participantes, tant afin d'assurer une transition en douceur de même que pour respecter l'intégrité des contenus. D'un point de vue technique, cela s'apparente à faire un traitement rétrospectif des documents puisqu'aucune intervention de notre part ne pouvait être faite préalablement ou parallèlement à la création du document. Ainsi, la méthodologie mise en place et exposée ici est-elle le fruit d'un mélange de conditions, de contraintes et de possibilités dictées par cette situation. Cette méthodologie, on le comprendra aisément, est bien différente de celle qui pourrait être mise en place pour la production d'une revue uniquement électronique, et cela serait d'autant plus vrai s'il s'agissait d'une toute nouvelle revue. Dans ce dernier cas, toutes les conventions et interventions nécessaires à la production d'une revue électronique peuvent être considérées et implantées dès le début de la conception de la revue.
Au début d'un projet basé sur le SGML, le choix ou la création d'une Définition du type de document (DTD) est une étape primordiale. Les réponses aux questions suivantes justifieront la création ou le choix d'une DTD :
Quels sont les types de documents à traiter? Quels sont les types de documents semblables?
Quelles sont les composantes structurelles des documents? Quels sont les autres types d'éléments logiques apparaissant dans chaque type de document?
En plus des contenus textuels, quelles autres informations ou propriétés peuvent être assignées à chaque type d'élément?
Quelles sont les relations logiques entre chacun des éléments?
Que veut-on faire de l'information? Quelles sont les types de structures et de relations que l'on veut encoder dans le balisage SGML de façon à pouvoir répondre aux besoins d'échange (partage), de repérage, de diffusion et de réutilisation de l'information?
Cet exercice en est un d'analyse de besoins en fonction des coûts encourus et des bénéfices retirés. Ainsi un balisage fin et hautement structuré, insufflant de ce fait une «intelligence» aux documents, permettra une exploitation plus performante des données tandis qu'un balisage plus grossier, effectué à moindre coût, trouvera une possibilité de réutilisation réduite ou demandant certaines interventions.
On doit également considérer, toujours selon un rapport coûts/bénéfices, la possibilité d'utiliser une ou plusieurs DTD. Dans le cadre du projet Érudit, tout en étant conscients des particularités de chaque revue, nous avons choisi de ne développer et de n'utiliser qu'une seule DTD et non plusieurs. Nous avons estimé la DTD PUM suffisamment générale pour représenter la macrostructure de tous les articles, ou plus précisément tous les types de documents (articles de fond, articles courts, comptes rendus, critiques, débats, bibliographies, etc.). Ce choix était motivé par des raisons pratiques et économiques. En effet, un tel choix facilite le traitement et contribue à augmenter l'efficacité de la chaîne de traitement.
En matière de revues savantes, l'équipe des publications électroniques des Presses de l'Université de Montréal a eu, dans des projets antérieurs à celui-ci, l'opportunité d'étudier la question du choix de la DTD pour ce type de publication[ 1 ]. La DTD ISO 12083 Article ayant été décrétée trop limitée, on a jugé souhaitable d'adapter cette dernière aux besoins des revues savantes. Du noyau de la DTD ISO 12083, auquel on a greffé des fragments d'autres DTD normalisées -- CALS (Continous Acquisition and Life Cycle Support), TEI (Text Encoding Initiative), DTD de la revue Earth Interactions[ 2 ] --, nous en sommes arrivé à créer la DTD des Presses de l'Université de Montréal (alias DTD PUM), laquelle devait décrire la structure d'un article de périodique d'une revue savante. On a également procédé à certains ajouts maison, concernant entre autres la gestion des différentes langues, le découpage des références bibliographiques, etc.
Avant d'utiliser la chaîne de traitement proprement dite, un examen attentif de plusieurs numéros déjà parus doit être mené pour chaque revue. Cet examen doit être fait pour chaque nouvelle revue. Idéalement, l'analyse doit porter sur une période rétrospective suffisamment longue et un nombre de numéros suffisamment important pour englober l'ensemble des caractéristiques et variations de la revue. Cette analyse servira à identifier les types de documents (articles, comptes rendus, notes, études, etc.) et leur structure sémantique (titres, résumés, sections, subdivisions, tableaux, équations, illustrations, citations, renvois, références, notes infra-paginales, etc.).
C'est aussi l'occasion d'observer la régularité et la conformité de l'application du protocole de rédaction en vigueur, ce qui a un impact important sur la qualité. En principe, si les documents présentent une structure uniforme et constante (à l'intérieur d'un même document et d'un document à l'autre), si le protocole de rédaction a dûment été respecté et si l'étape du choix ou de la création de la DTD a été bien fait, les composants sémantiques rencontrés devraient tous être conformes à la DTD, dans leur présence, leur nombre et leur ordonnance. Dans la situation où la correspondance entre la DTD et certains éléments logiques se retrouvant dans les documents est impossible, il faudra apporter des modifications soit à la DTD, soit aux documents, soit à la fois à la DTD et aux documents. Cette intervention mérite une réflexion importante puisqu'elle est riche de conséquences. Dans un contexte de conversion rétrospective, il est impossible d'intervenir sur le contenu des documents. Les changements à la DTD doivent être faits en considérant un éventail de besoins et non seulement le besoin précis qui nous amène à vouloir modifier la DTD. Aussi, les changements à la DTD doivent être additifs et non correctifs, de façon à garder une certaine compatibilité avec les documents produits antérieurement à ces changements.
Outre les modifications de nature sémantique, les amendements doivent s'inscrire plus largement dans l'utilisation souhaitée, tant à court qu'à plus long terme, des documents. En effet, la mise en page en fonction de différents médias (papier, écran, etc.), la recherche structurée, la réutilisation de certaines parties de documents, etc. dépendront tous d'une indication SGML (un élément spécifique, une valeur d'attribut, etc.).
Par exemple, pour attribuer un formatage différent au prénom et au nom de l'auteur, les deux composants doivent se retrouver dans deux éléments SGML différents : le prénom et le nom de famille. Autre exemple : pour effectuer une recherche sur le nom d'un auteur cité, les références bibliographiques doivent être balisées comme telles, et non comme de simples éléments paragraphes au même titre que les autres paragraphes du texte.
Il faut également discerner les caprices de la mise en page papier actuelle, faite de façon manuelle la plupart du temps, des véritables besoins de discernement visuel des composants logiques. Ainsi, une information SGML doit être prévue pour faire en sorte qu'une liste ordonnée soit rendue de façon différente d'une liste à puces (par exemple un attribut type="numero" ou type="puce" pour l'élément liste). On pourra ainsi, à l'étape de production d'une sortie papier, produire respectivement un numéro séquentiel ou un symbole tel un rond plein (« * ») devant chaque item de liste. De plus, on peut s'interroger sur la nécessité de prévoir l'inclusion d'une valeur d'attribut différente pour désigner une liste à puce dont les items sont précédés d'un rond plein (« * »), celles dont les items sont précédés d'un rond vide (« ○ »), ou encore celles dont les items sont précédés d'un astérisque (« * »). Il y a fort à parier que les différents symboles observés pour mettre en retrait une liste à puce relèvent davantage d'un quelconque hasard au moment de la mise en page que d'un véritable besoin d'exprimer un élément logique spécifique.
En théorie, la production du SGML et les ajustements à la DTD ne devraient pas être faits en fonction des limites des outils employés ; cependant, en pratique, on ne peut ignorer cet aspect. Par exemple, une formule mathématique peut être finement balisée selon un modèle de DTD approprié (fonction, numérateur, dénominateur, arguments, etc.). En pratique cependant, plusieurs logiciels de notre chaîne de traitement ne peuvent reconnaître et traiter adéquatement une formule reproduite sous cette forme. On se rabattra alors sur une représentation graphique de la formule, c'est-à-dire l'insertion d'un fichier image. Ceci peut demander des modifications à la DTD. Autre exemple : l'emploi de jeux de caractères étrangers, bien qu'ils puissent être représentés en SGML (entre autres par l'emploi d'entités caractères codées en Unicode[ 3 ]), peut nous faire rencontrer les limites des outils de traitement. Ici, encore, on préconisera une solution de rechange impliquant des modifications au SGML produit et, conséquemment, à la DTD. Si le nombre de limitations rencontrées par les outils est très important, on décidera, afin de ne pas « corrompre » abusivement la source SGML, de produire des versions SGML transitoires.
Nous avons recours à une version SGML transitoire pour la production du PDF (une étape plus en aval de la chaîne qui sera expliquée plus loin). Cette version transitoire sert à réordonner et qualifier certains éléments de façon à accommoder certaines caractéristiques propres aux revues (par exemple, le fait de présenter les résumés à la toute fin de l'article plutôt qu'au début).
Figure 1
Mise en styles et préparation des textes. La chaîne de traitement proposée comporte une étape de pré-traitement des documents originaux. Cette étape consiste à appliquer un ensemble de styles, contenus dans un modèle de document (feuille de style), à un document original en format Word. L'utilisation de styles sur des parties de texte inscrit, dans le format natif du traitement de texte, des codes qui nous permettront d'automatiser le balisage en SGML.
C'est à cette étape que l'on insuffle une certaine «intelligence» au document. Ainsi, le modèle de document et les styles qu'il contient ne sont pas destinés à modifier l'apparence des documents, comme l'ont d'abord pensé les concepteurs de cette fonctionnalité, mais plutôt à identifier certaines parties des documents. Par exemple, nous chercherons à identifier les titres, les auteurs, les références bibliographiques, les résumés, etc. Il est important de comprendre que nous n'utiliserons pas les styles à des fins de mise en page, mais bien d'identification des différents composants du texte.
Outre l'application des styles, l'uniformisation et la normalisation des textes doivent être effectuées. Ainsi, les tableaux, les listes et les notes infra-paginales doivent avoir été produits avec les fonctionnalités appropriées du traitement de texte (en d'autres mots, que ce soient de vrais tableaux et non des chaînes de texte séparées par des tabulations, par exemple). Nous analysons, à l'étape de la programmation, l'ensemble des codes du traitement de texte : les liens entre les appels de notes et les notes, la largeur relative des colonnes des tableaux, l'alignement des contenus des cellules des tableaux, etc., et nous reproduisons cette information dans les documents SGML. Au besoin, certains composants doivent être réordonnés (par exemple, si l'auteur a ajouté son résumé à la fin, on devra le repiquer au début du document, à la suite des éléments de titres et d'auteurs, tel que le prévoit la DTD).
Nous avons développé un modèle de document pour chacune des revues. Ces modèles contiennent en moyenne de 30 à 50 styles différents en fonction du nombre de composants retrouvés. Parmi ces styles, certains sont de type paragraphe (blocs de texte) et d'autres de type caractère (chaînes de texte à l'intérieur des blocs).
L'étape de mise en styles pourra être réalisée par la personne responsable de la préparation des textes à publier, soit habituellement une personne faisant partie du comité de production de la revue. À cet effet, nous avons, dans le cadre du projet Érudit, entrepris de donner des séances de formation personnalisée aux responsables des revues, lesquelles portaient sur la préparation des documents et l'application des feuilles de styles.[ 4 ] Le lecteur trouvera en annexe une copie du document accompagnant cette formation. Notre expérience démontre que cette étape est plus facilement réalisable par des personnes maîtrisant bien leur outil de traitement de texte. Un certain contrôle de qualité doit être effectué sur les premiers documents stylés.
Une fois stylé, le document servira d'intrant (input) à l'étape de conversion SGML. C'est pourquoi il doit s'agir d'une version finale du texte, c'est-à-dire qu'il doit être complet et déjà comprendre toutes les corrections nécessaires. À cet effet, nous avons rencontré quelques problèmes puisque le traitement traditionnel des revues comporte une ou plusieurs étapes de correction d'épreuves une fois le document mis en page à l'aide d'un logiciel d'éditique (tel PageMaker ou QuarkXPress). Les corrections sont alors effectuées directement dans ces logiciels et ne sont pas repiquées dans la copie de traitement de texte initiale. Une copie d'exportation en format RTF (consistant en une représentation ASCII du format binaire de Word) peut habituellement être obtenue à partir de ces logiciels. Il s'agit cependant d'une copie incomplète puisque tout composant qui n'est pas à l'intérieur du flot principal de texte (tels légendes de figures et notes de bas de page) doit être ajouté un à un au texte principal. On perd également les liaisons dynamiques entre les notes et les appels de notes, de même que les fonctionnalités de tableaux lors de l'exportation. Bref, pour chaque revue, nous avons dû évaluer la somme de travail que représentait le repiquage des corrections dans la version Word versus celle que représentait le reformatage d'un document Word provenant d'un logiciel d'éditique. Dans les deux cas, cela a constitué une tâche supplémentaire, non prévue à l'origine, causée directement par la poursuite de deux systèmes parallèles de publication pendant la durée du projet pilote.
Notre système de traitement, préconise une utilisation de fonctionnalités appropriées du traitement de texte (styles, notes, tableaux, etc.). De plus, les corrections de nature textuelle (orthographe et syntaxe, de même que la plupart des corrections de nature typographique) doivent être faites dans le fichier de traitement de texte. Il faut prendre en considération le fait que ce fichier sert à la production de documents d'archivage, de documents dérivés (sommaires, tables des matières, listes de résultats de recherche, etc.) ainsi que de plusieurs formats de diffusion. Ce fichier source, de par son contenu et sa structure, doit donc être le plus achevé possible. Cela exige de la personne qui prépare les textes, de bonnes connaissances linguistiques et typographiques. Les erreurs révélées en aval dans la chaîne de production doivent être repiquées dans les fichiers de traitement de texte.
Galées électroniques. Depuis la fin du projet Érudit, nous avons testé l'intégration du processus de révision des épreuves dans la chaîne de traitement. Dans un processus plus traditionnel, cette révision se fait habituellement sur les épreuves papier des articles, une fois la mise en page effectuée à l'aide de logiciels d'éditique. Les corrections apportées peuvent être à la fois de nature orthographique, syntaxique, typographique, et peuvent aussi concerner des aspects du montage. La diffusion du même contenu sur plusieurs supports de diffusion nous amène à discerner en les corrections devant être repiquées dans le fichier initial de traitement de texte (de façon à ce que l'ensemble des formats de diffusion profitent de ces modifications), des corrections s'appliquant uniquement à la mise en page papier. Nous produisons donc maintenant des « galées électroniques »[ 5 ], c'est-à-dire des sorties papier obtenues à partir de FrameMaker+SGML sans avoir à effectuer d'importantes interventions manuelles au niveau du montage. Sur ces galées sont apportées les corrections se rapportant au texte (et non à sa mise en page en vue de l'imprimé), lesquelles seront ensuite être repiquées dans le fichier Word initial qui servira à la regénération des différents formats produits. Dans la perspective où plusieurs formats différents (SGML, HTML, PDF) sont produits à partir d'un même fichier initial, on comprendra l'intérêt d'effectuer un maximum de corrections en amont (donc dès la révision du fichier Word) et non en aval, sur un format en particulier plutôt qu'un autre.
Traitement des images. Les illustrations que peuvent comporter les articles parviennent habituellement aux responsables des revues sous différentes formes: photos, impressions laser, velox, etc. et plus rarement sous forme électronique : fichiers vectoriel ou bitmap provenant de logiciels graphiques et images numérisées (scans). Traditionnellement, ces images sont insérées dans le texte au moment du montage de la copie à imprimer par le typographe qui les numérise et les retouche, ou encore par le technicien de l'atelier de pré-impression qui les reproduit par procédé photographique.
L'intégration des images dans la chaîne de traitement Érudit est de beaucoup facilitée si ces documents nous parviennent en format numérique. Les images sont traitées comme des fichiers séparés qui sont référés à partir des documents.
Les secrétariats des revues n'étant habituellement pas équipés en matériel et savoir-faire pour manipuler des images, ce type d'intervention sera effectué par le fournisseur de service, en l'occurrence l'équipe d'Érudit. Cependant, les comités de revues devraient tenter d'obtenir des auteurs, autant que faire se peut, une version des images en format électronique. Ces images devraient toujours être de très bonne qualité (avec une haute résolution et, si possible, en couleur) afin de servir à l'archivage. C'est à partir des images de bonne qualité qu'on effectuera le traitement (surtout des modifications de formats de fichiers, des baisses de résolution, des sauvegardes en noir et blanc) en vue des différents modes de diffusion (archivage, Web et papier). Afin de standardiser le processus de traitement des images, nous avons établi des procédures normalisées.[ 6 ] Enfin, bien que cela ne se soit pas encore produit, un type d'intervention de même nature est à préconiser pour d'autres formats non textuels (vidéo, son, images 3D, etc.).
Nous avons exposé dans cette section les différents éléments portant sur le pré-traitement des textes, soit l'application des styles et le traitement des images. Une fois le document pré-traité, il est prêt à être converti en SGML.
Figure 2
Puisque la feuille de style utilisée pour styler les documents a été conçue en fonction d'un passage efficace vers un document SGML respectant la DTD PUM, une conversion relativement automatique est possible. Cette conversion, qui consiste en l'interprétation des informations existantes et l'ajout d'informations dérivées, requiert cependant un outil spécialisé. Il serait, à ce point-ci de la discussion, important d'expliquer la différence entre une conversion de données au sens SGML et une traduction de données.
Une traduction est une opération qui consiste à prendre un ensemble de données (information et mise en forme confondus) d'un format propriétaire et le traduire en un ensemble équivalent qui peut être interprété et édité dans un autre logiciel utilisant un format propriétaire (par exemple, passer un document de Word à WordPerfect). Au contraire, une conversion vers SGML implique d'établir un lien entre un document dans un format propriétaire (où la structure logique est habituellement perçue de façon visuelle par le lecteur) à un document SGML «intelligent» (où la structure logique est codée de façon explicite, suivant une DTD donnée).
Une conversion enrichie (traduction libre de up conversion) est une conversion d'un format plat vers un format sémantique structuré (par exemple, d'un format WordPerfect vers un format SGML) ou, plus précisément, une conversion de données textuelles d'un format d'encodage arbitraire vers une instance SGML valide. Une conversion appauvrie (traduction libre de down conversion), quant à elle, consiste en une conversion d'un format logique vers un format propriétaire (par exemple, d'un format SGML vers un format MS Word). Ce type de conversion est la clé du succès de SGML puisqu'elle assure une complète réutilisation des données. À partir d'un format SGML, la conversion peut être facilement automatisée tout en conservant l'intégrité des données.
Il existe plusieurs produits logiciels aptes à convertir des textes d'un format à un autre. Ces produits sont disponibles essentiellement sous la forme de programmes ou de solutions programmatiques[ 7 ]. Après avoir, par le passé, expérimenté un outil de ce genre, soit FastTAG de Microstar, nous avons finalement opté pour le convertisseur OmniMark®, de la firme OmniMark Technologies Inc[ 8 ]. basée à Ottawa.
Avant d'exposer les caractéristiques de cette étape du traitement, nous aimerions présenter cet outil en raison de son rôle prépondérant dans la chaîne de traitement. Omnimark est un convertisseur apte à traiter à la fois du SGML et du non-SGML. Dans un processus de « conversion enrichie » le traitement du non-SGML est accompli grâce à un puissant langage d'expressions régulières. Le traitement du texte est effectué en étroite relation avec le parseur SGML interne à l'outil, de sorte que la reconnaissance de patrons peut être dépendante du contexte SGML. Ces patrons, tout comme les autres variables (compteurs [counters], commutateurs [switches] et canaux [streams]), peuvent être nommées puis réutilisées, ce qui permet des constructions complexes. À l'inverse des langages de programmation les plus connus (Perl, C++, etc.), qui se définissent comme étant des langages procéduraux, OmniMark est un langage basé sur des règles (rule-based language). Il convient tout à fait au traitement du texte et plus particulièrement au SGML, puisque celui-ci nécessite l'exécution d'une action lorsqu'un événement particulier est rencontré. Ces actions étant dictées sous forme de règles, l'essentiel d'un programme OmniMark est donc composé d'une suite de règles de reconnaissance d'événements, auxquelles on fait correspondre une ou des action(s) en fonction de conditions données.
Nous utilisons dans un premier temps un programme en langage OmniMark disponible gratuitement[ 9 ] pour faire la transformation des documents en une première forme de SGML. Ce SGML est conforme à une DTD décrivant exactement la structure et le contenu d'un document RTF. On retrouve, par exemple, des indications SGML (éléments ou attributs) relatives aux jeux de caractères, polices de caractères, styles, tableaux, notes, mise en page (multi-colonnes, sauts de page, sauts de section, alignement, etc...). Il s'agit donc d'une DTD surtout attachée à l'apparence physique du document et non à la sémantique de ses composants. Cette forme de représentation ne prétend pas élever le niveau informationnel du document mais plutôt constituer un point de départ vers un effort de conversion enrichie. En effet, ce premier effort de conversion nous offre comme avantage non négligeable de faire l'interprétation des codes RTF et la génération un document SGML valide. Il devient alors plus aisé d'effectuer une seconde conversion, celle-ci d'un format SGML (avec DTD traduisant la structure RTF) à un autre format SGML (conforme à la DTD PUM).
Cette seconde conversion va, non seulement convertir le document d'une DTD axée sur le formatage à une DTD axée sur la structure sémantique, mais également ajouter de l'information au document. Ainsi nous ajoutons, sans aucune intervention manuelle, des liens entre les appels de références dans le texte et les références bibliographiques à la fin du texte. Pour ce faire, il faut analyser méticuleusement les syntaxes de références utilisées par chaque revue (par exemple « (Vaugeois et Hubert, 1993a) ou « (VaHu93a) ») afin d'établir des patrons de reconnaissance sur lesquels ont peut ensuite bâtir des règles de programmation.
Le développement de règles de conversion doit être fait par un programmeur possédant de solides notions de SGML et de manipulation de contenu textuel. Cette étape est donc assurée par les Presses de l'Université de Montréal.
Mentionnons au passage que OmniMark sert également à effectuer des opérations de gestion interne sur les fichiers (contrôle d'erreur, création de structure de répertoires, énumération des éléments et attributs retrouvés pour l'ensemble des documents d'un numéro, etc.).
Figure 3
Les formats de diffusion choisis doivent permettre de satisfaire les habitudes de lecture et les besoins de consultation qui différent d'un usager à l'autre. Ainsi, nous préconisons la diffusion des documents en plusieurs formats. Notre modèle de diffusion est basé sur le document dans sa version SGML. Ce document électronique unique constitue la source de plusieurs sous-produits qui sont autant de formats de sortie possibles. Les supports de diffusion qui sont compatibles avec ces formats sont divers : diffusion en ligne (Web), diffusion sur cédérom, diffusion sur papier. Dans le cadre du projet Érudit, nous avons considéré trois formats de sortie (HTML, SGML et PDF). Le format HTML est le format de base du Web; tous les navigateurs Web sont en mesure d'afficher correctement des documents HTML. Qui plus est, les lecteurs connaissent déjà les fonctionnalités de leur navigateur et n'ont donc pas à apprendre un nouvel outil. Nous avons également décidé de rendre disponible le format SGML, ce dernier se prêtant très bien à la consultation dans la mesure où les navigateurs SGML sont capables d'exploiter la structure des documents de façon à offrir un environnement de lecture plus sophistiqué et complet. Enfin, le format PDF (Portable Document Format), conçu par la compagnie Adobe, permet la diffusion de documents électroniques reproduisant la mise en page choisie par les diffuseurs. Ce format est tout à fait approprié pour l'impression à distance.
Nous envisageons à moyen terme offrir également le format XML (Extensible Markup Language), qui est un format dérivé et simplifié de SGML. Ce format, issu des travaux du W3C[ 10 ], provoque un grand engouement de la part de la communauté Internet qui y voit un format d'échange de documents structurés plus puissant que HTML sans toute la complexité du SGML.
Un principe de base de la philosophie SGML voulant que l'information, une fois balisée en SGML, puisse être réutilisée plusieurs fois et cela avec différentes saveurs, tant dans l'intégralité du contenu (en tout ou en parties) que dans la forme du contenant (dans un format particulier), il est tout naturel de convertir les fichiers SGML en fichiers HTML. Il s'agit en fait d'une conversion SGML (DTD PUM) vers SGML (DTD HTML). OmniMark s'est présenté comme l'outil tout désigné pour ce type de conversion d'autant plus qu'à cette étape du processus, nous étions beaucoup plus familiers avec son langage de programmation. Ainsi, les articles sont convertis automatiquement en HTML. Nous produisons, de la même façon, une table des matières pour chaque numéro de revue. Cette table des matières ne provient pas d'un document initial unique saisi sous forme de table des matières, mais plutôt de la concaténation d'informations récupérées dans l'ensemble des articles (titres, sous-titres, auteurs) en format SGML. C'est un bon exemple de réutilisation de l'information.
Puisque l'ensemble des documents produits sont basés sur la DTD PUM, la conversion du SGML vers le HTML est réalisée par un seul programme de conversion pour l'ensemble des revues. Ce programme comporte cependant quelques particularités de présentation propres à chaque revue, et d'une telle pratique résulte une apparence assez semblable pour chacune des revues. La fabrication d'une signature, d'une maquette complètement différente pour chaque revue est maintenant réalisée à l'aide des CSS (Cascading Style Sheet), fonction de plus en plus supportée par les navigateurs Web.
La version SGML comportant explicitement des indications sur les liens entre les appels de notes et les notes, entre les citations et les références bibliographiques, et entre les appels de tableaux et figures et les tableaux et figures eux-mêmes, nous avons traduit ces caractéristiques en liens hypertextuels dans la version HTML afin de procurer plus d'aisance de navigation à l'intérieur du document. Nous avons également implanté un mode de référence aux images à partir d'images « timbre-poste » qui en révèlent un aperçu. Le lecteur peut alors décider de télécharger l'image plein format en cliquant sur l'aperçu. Ceci évite d'avoir des articles (fichiers) trop gros, donc trop longs à télécharger.
Pour l'instant nous stockons sur notre serveur Web la version HTML préconvertie. Cependant, la conversion, tant pour les articles que pour la table des matières, pourrait aisément être faite « à la volée » (on the fly) puisqu'il n'y a aucune intervention manuelle sur les fichiers HTML. Dans un mode d'accès client/serveur, on pourrait facilement faire en sorte que l'utilisateur, par le biais son client Web, fait la demande d'un fichier HTML (par exemple un article donné) et qu'alors seulement le serveur (sur lequel est installé OmniMark) convertit, au moment de la demande, le fichier SGML en HTML. Ceci aurait pour avantage d'occuper moins d'espace disque (environ la moitié de moins, puisque seule la version SGML serait stockée). Il faudrait cependant tester les délais de réponses.
Les utilisateurs peuvent visionner les documents SGML à l'aide de Panorama Viewer de Interleaf[ 11 ], un navigateur SGML qui s'installe comme module externe (plug-in) d'un navigateur Web, tel Netscape.
Panorama Viewer permet de créer des liens entre différentes parties des documents ou différents documents. Il permet également de présenter des tables des matières dynamiques qui constituent des aides à la navigation. Une autre fonction de Panorama offre la possibilité d'annoter n'importe quelle partie d'un document, y compris une zone d'une figure déterminée par le lecteur. Enfin, il permet d'ajouter des signets dans un document.
Pour le centre de services, la diffusion des articles en format SGML requiert peu d'efforts puisqu'il s'agit du format natif des documents. Pour être plus exacts, nous diffusons une version SGML à peine différente de la version produite lors de l'effort de conversion enrichie décrite précédemment. Cette différence minime tient exclusivement à la non-reconnaissance, par le navigateur SGML, de certains caractères étrangers et symboles particuliers. Panorama Viewer étant en mesure de lire du SGML, il faut simplement lui indiquer la mise en forme propre aux différents éléments rencontrés. Ces instructions de formatage sont données sous la forme d'une feuille de style. La création d'une feuille de style ne s'effectue normalement qu'une seule fois par revue (voire même par DTD utilisée si on désire des produits normalisés et identiques). Ainsi nous avons créé des feuilles de style et des formats de tables des matières dynamiques (navigators) pour chaque revue, de manière à donner à chacune une signature caractéristique.
L'intérêt du PDF réside dans l'obtention d'un document électronique arborant un format de présentation semblable à l'imprimé. Un tel format permet aux lecteurs d'imprimer une version «mise en page papier» des articles diffusés en ligne. Les navigateurs SGML ou HTML dont nous avons discutés précédemment permettent également l'impression, mais la qualité de la mise en page n'est pas aussi complexe et soignée puisque les feuilles de style des navigateurs Web sont destinées avant tout à la présentation à l'écran.
La grande majorité des logiciels d'éditique (desktop publishing) sur le marché (les plus connus étant PageMaker et QuarkExpress) permettent une sauvegarde en format PDF pour diffusion sur le Web. Ces logiciels ne sont cependant pas en mesure de lire en intrant (input) un fichier SGML et l'interpréter correctement. Il existe toutefois des outils performants capables à la fois de prendre en intrant du SGML et de permettre une mise en page professionnelle (FrameMaker+SGML[ 12 ] de Adobe, Interleaf 6 SGML[ 13 ] de la compagnie Interleaf, et ADEPT Publisher[ 14 ] réalisé par ArborText). Il s'agit toutefois de produits dispendieux et assez complexes à manipuler.
Notre choix s'est arrêté sur le logiciel FrameMaker+SGML en raison de son coût abordable et de sa plus grande facilité de paramétrage. FrameMaker+SGML permet la création, la modification et la publication de documents SGML dans un environnement convivial. Dans le cadre du projet Érudit, nous utilisons uniquement les fonctionnalités d'importation du SGML et de mise en page sophistiquée offertes par l'outil. Il s'agit, ici aussi, de définir un mécanisme d'application de style pour chaque élément en fonction de son contexte SGML. Cette feuille de style est dirigée vers la mise en page sur papier (et non à l'écran) et, à cet effet, FrameMaker+SGML offre la possibilité de paramétrer plusieurs des caractéristiques requises par l'imprimé (par exemple, la gestion des veuves et orphelins, paragraphes solidaires, multi-colonnes, notes en bas de page, patron de césure à la fin des lignes, forme des en-têtes et bas de pages, etc.).
Chaque revue possède une feuille de style différente, laquelle a été conçue en se basant sur la maquette de la forme imprimée des revues participantes. Les fonctionnalités de FrameMaker+SGML nous permettent sans difficulté de reproduire de façon presque identique l'aspect habituel des revues. L'application d'une feuille de style exhaustive et bien conçue (qu'on arrive généralement à obtenir après un processus de réajustement lors des premières productions) permet d'automatiser à 90 % le montage du document, ce qui constitue un excellent rendement. On doit toutefois faire certaines interventions manuellement afin de compléter le travail (par exemple, déplacement des figures, condenser de l'espacement du texte ça et là pour forcer un saut de page, fractionner des notes de bas de page trop longues, etc).
Une fois le document monté avec FrameMaker+SGML, il ne reste qu'à produire une version PDF à l'aide du logiciel Acrobat de Adobe. Il s'agit là d'une opération sans grande difficulté qu'on peut apparenter à un simple « sauvegarder sous PDF ». On peut ainsi produire un premier fichier PDF de basse résolution, destiné à être visionné sur le Web, et un second fichier PDF de meilleure résolution, celui-ci destiné à être acheminé à l'atelier de pré-impression en vue de l'impression des exemplaires papier.
Pour les usagers, la consultation des documents PDF se fait avec le logiciel Acrobat Reader, qui existe comme module externe (plug-in) pour les navigateurs Web. On peut consulter les documents PDF à l'écran avec ce logiciel, mais ils sont plutôt destinés à être imprimés.
Dans le cadre du projet Érudit nous avons exclusivement produit des documents PDF pour le Web, à raison d'un fichier unique par article (et non d'un fichier regroupant tout un numéro d'une revue), puisque les revues poursuivaient pendant la même période, le traitement habituel pour la production de la version papier de la revue.
Pour diffuser des documents sur le Web, nous avons créé un site Web[ 15 ] qui est hébergé sur notre serveur Web. Ce site est la porte d'entrée principale pour l'accès aux articles. Techniquement ceci a demandé l'installation d'un serveur (Sun), le paramétrage du système d'exploitation, l'installation de logiciels serveurs et la mise en place d'une procédure de sauvegarde des données du site.
La diffusion en ligne (et également sur cédérom) permet, pour le lecteur, d'accéder aux textes à l'aide d'un outil de recherche. Pour ce faire, on doit implanter un outil de recherche en texte intégral qui peut indexer des documents SGML, tout en conservant l'information sur la structure, de façon à permettre aux usagers d'exprimer des contraintes sur la structure dans leurs requêtes. On peut, par exemple, préciser la recherche de textes comportant le nom d'un chercheur mais uniquement lorsque celui-ci se retrouve dans une bibliographie et non en tant qu'auteur de l'article. Dans le cadre du projet Érudit, nous avons installé, sur le site Web, un prototype de moteur de recherche qui doit encore être amélioré. Il s'agit de Harvest[ 16 ]. La collection indexée comprend l'ensemble des articles ayant été publiés par les revues pendant la durée du projet pilote. Il s'agit d'un mode d'accès au texte très performant que seule la version électronique permet d'obtenir.
Dans la mesure où notre mandat consistait moins en la mise au point d'une solution théoriquement optimale qu'en la conception d'une chaîne de traitement adaptée aux besoins du projet (reproduction de la forme papier déjà existante, impossibilité d'intervenir en amont de la chaîne de production, optimisation du traitement par l'adoption d'une DTD unique, production de divers formats de diffusion), nous avons opté pour une solution comprenant plusieurs sorties intermédiaires, et cela de façon à atteindre de bons résultats en termes d'automatisation et de qualité des textes produits. Nous estimons avoir atteint à 95% ces objectifs de production.
Il va sans dire que la DTD a dû être constamment remaniée afin de s'adapter à l'ensemble des documents à produire. Nous avons dû opter pour une DTD qui, au fur et à mesure de l'avancement du projet, devenait plus permissive, de manière à générer, en bout de ligne, du SGML valide, respectant l'intégrité et la présentation des contenus des articles.
Le projet Érudit aura mis en lumière l'extrême importance, dans une perspective d'automatisation des opérations de la chaîne documentaire, de définir une structure, une présentation et, dans une certaine mesure, un contenu normalisé des documents à traiter. La production même de textes destinés à être balisés en SGML peut donc faire l'objet de certaines recommandations, dont plusieurs s'avèrent applicables dans une optique de sensibilisation des comités de revues et de formation du personnel chargé de la révision et de la correction des textes. C'est ainsi qu'il y aurait lieu de définir (ou renforcer), pour chaque revue, un modèle normalisé quant à la présentation des textes et surtout de l'appliquer de façon rigoureuse.
Cet aspect, d'une importance capitale, pourrait s'effectuer notamment via l'élaboration de documents du type « guide ou protocole de rédaction » et l'encouragement des auteurs à utiliser une feuille de style calquée sur la DTD, laquelle serait rendue disponible par la revue. Mentionnons également l'importance d'inciter fortement, voire d'exiger des auteurs, des versions électroniques de bonne qualité des illustrations accompagnant les articles. Ces versions électroniques existent souvent mais pour plusieurs raisons, seules les versions imprimées parviennent aux comités des revues.
Nous avons entièrement basé notre chaîne de production sur le fait que les documents initiaux sont en format de traitement de texte, en l'occurrence Word, parce qu'il s'agit de l'environnement de saisie pour la majorité des auteurs. Cependant, nous avons constaté qu'un nombre très important d'interventions est fait sur le texte au cours du processus éditorial, de sorte que la somme des modifications, des corrections et des ajouts équivaut à la ressaisie d'une grande partie du texte. Puisque de toute façon on devra allouer beaucoup de temps et d'efforts au remaniement du texte, on pourrait également envisager dès le début de la chaîne de traitement qu'un responsable de l'édition ouvre puis travaille le document dans un éditeur SGML et produise ainsi une version SGML des textes.
Tel que mentionné au tout début de cette section, la chaîne de traitement mise en place par l'équipe d'Érudit s'apparente plus à une transposition, plutôt qu'à une transition, du processus de production de l'imprimé à la production de la forme électronique. Nous sommes persuadés que nous devons aller de l'avant vers la création de véritables produits électroniques qui, tout en respectant les principes de base de la communication savante, tirent tous les avantages de l'hypermédia et des réseaux. On pense à l'ubiquité des publications, à la recherche plein texte (recherche structurée), au court délai de parution des articles, à la diffusion d'articles en devenir (articles en versions intermédiaires, work in progress), à la diffusion sélective de l'information (DSI), au multimédia, à l'ajout de matériel supplémentaire tel données brutes, images couleurs, vidéo, etc., à la mise en place de forums d'échanges, à la publication interactive («Scholarly Skywriting » de Harnad[ 17 ]) qui permet l'ajout de commentaires par les pairs et fait de l'article un séminaire permanent, au monitoring des utilisations par les usagers, à l'inclusion de « données actives » telles équations et modèles de simulation pouvant être manipulées par l'utilisateur, etc. Certaines de ces valeurs ajoutées sont déjà implantées, d'autres devront être optimisées, d'autres encore relèvent d'un avenir plus ou moins lointain.
1. Voir Un nouveau modèle de publication électronique ; <URL:http://www.pum.umontreal.ca/publ_electr/vision.html >
2. <URL:http://EarthInteractions.org >
3. La norme Unicode est un jeu de caractères étalé sur 16 bits, ce qui permet la représentation d'un maximum de 65 536 caractères différents. Elle correspond au premier plan à 2 octets (le BMP, Basic Multilingual Plane), d'une norme plus universelle (basée sur 4 octets) soit la norme ISO 10646. Voir <URL:http://www.unicode.org >.
4. Voir l'Annexe 2.
5. Voir l'Annexes 3.
6. Le lecteur pourra consulter ces spécifications à l'Annexe 4.
7. Pour une liste exhaustive de ce genre de produit, consulter la rubrique « Conversion Program« dans Survey of software for structured text par Eila Kuikka et Erja Nikunen ; <URL:http://www.cs.uku.fi/~kuikka/systems.html >
8. <URL:http://www.omnimark.com >
9. Il s'agit de RTF2XML (auparavant RTF2SGML), développé par Rick Geimer. <URL:http://www.sesha.com/omlette/rtf2xml/ >
10. World Wide Web Consortium. <URL:http://www.w3.org/XML/ >
15. <URL:http://www.erudit.org >
17. Voir Scholarly Skywriting and the Prepublication Continuum of Scientific Inquiry par Stevan Harnad, 1990 ; <URL:http://www.cogsci.soton.ac.uk/~harnad/Papers/Harnad/harnad90.skywriting.html >