Chapitre 3
|
|
Une discussion détaillée des contenus multimédias dépasse le cadre de ce document, mais quelques principes importants à respecter doivent être soulignés.
D'abord, la question des formats se pose tout aussi naturellement aux contenus multimédias qu'aux contenus textuels. Ces formats doivent être choisis en fonction de la pérennité de l'information et de la structuration.
Ensuite, il faut essayer, le plus possible, d'inclure des métadonnées dans les documents multimédias, afin de faciliter leur repérage et leur manipulation. Cette pratique est encore peu courante, mais différents standards sont en train de se développer à ce sujet (14). Enfin, bien entendu, il faut relier le document maître (en format XML) avec les fichiers externes de façon à être indépendant du stockage physique des différentes ressources.
Un document encodé en format image est en quelque sorte une représentation assez près d'une photographie d'un texte, d'une image ou d'un objet. En ouvrant un tel type de fichier, ce que nous avons à l'écran est bel et bien l'image d'un texte, par exemple. Cela implique que pour tous les formats images, aucune manipulation de texte n'est possible, que ce soit " copier-coller " ou encore la recherche plein texte.
Il existe deux grandes familles de formats images : les formats vectoriels et les formats image en mode point (15). Les formats vectoriels permettent de décrire l'image en une série d'objets géométriques (lignes, ellipses, polygones, etc.) dont les propriétés sont précisées. L'information contenue dans le fichier d'un format vectoriel décrira, par exemple, la position, l'épaisseur et la couleur d'une ligne à tracer. Il s'agit donc d'une série d'instructions qui sont réutilisées par l'outil de visualisation pour reconstruire l'image. Ce type de format permet d'éditer les différents objets d'une image indépendamment : les images peuvent être modifiées sans perte de résolution et la taille des fichiers est relativement petite.
Les fichiers image en mode point sont faits d'une mosaïque d'éléments d'image appelés pixels. Chaque pixel contient les informations concernant la couleur d'un point de l'image en particulier. La combinaison de tous les pixels forme l'image. Les fichiers image en mode point sont habituellement très lourds à cause de la quantité d'information que contient chaque pixel et du grand nombre de pixels nécessaires pour obtenir une image de qualité. Il faut toujours privilégier un format vectoriel à un format image en mode point, sauf lorsque le type d'information ne s'y prête pas.
Pour la production des revues, comme en témoignent le nombre de formats différents qui sont acheminés aux rédactions de revue, une multitude d'outils sont utilisés par les auteurs et leurs assistants. Pour ce qui est de la diffusion électronique, les formats les plus utilisés sont GIF et JPEG. Le GIF (Graphics Interchange Format), créé par CompuServe en 1987 et amélioré en 1989, est un format très utilisé dans le Web. La compression du format GIF ne permet d'utiliser que 256 couleurs ou tons de gris, ce qui offre comme avantage de générer des fichiers très légers. Le GIF est utilisé en général pour les figures.
Le JPEG (Joint Photographic Expert Group) permet l'utilisation de 16 millions de couleurs et est surtout employé pour représenter des photographies. C'est également un format très répandu dans le Web, particulièrement reconnu pour son excellent algorithme de compression.
Le format TIFF (Tagged Image File Format) a été développé par Aldus et Microsoft. Le principal avantage du TIFF est son algorithme de compression qui assure aucune perte d'information. Ce format de type image en mode point est reconnu par les archivistes et plusieurs guides des meilleures pratiques pour l'archivage des documents en formats images (16). Les fichiers TIFF sont particulièrement lourds avant compression et ne peuvent être lus par les navigateurs Web. Ce format est surtout utilisé comme format de capture dans les projets de numérisation rétrospective. Le TIFF est encore pour le moment le format recommandé pour l'archivage des documents sous forme image.
L'équipe du portail devra suivre le développement et les utilisations de nouveaux formats images. Le SPIFF (Still Pictures Interchange File Format) a été commandé par l'ISO afin de garantir l'interopérabilité des systèmes manipulant les images (17). Ce format, créé par le Joint Photographic Expert Group, fait partie du domaine public. Il s'agit d'une amélioration de leur norme JPEG. Le PNG (18) (Portable Network Graphics) est la nouvelle étoile filante des formats d'images. Il est destiné à remplacer le GIF et le TIFF. Il s'agit également d'un format non propriétaire.
Il est possible d'obtenir des fichiers en PDF Image lors de la numérisation d'une image (19). Pour ce faire, il faut utiliser le logiciel Adobe Capture. Ce format peut être utile pour les projets de numérisation rétrospective de revues savantes, comme on le verra dans une prochaine section de ce chapitre.
La production et la diffusion électroniques de revues savantes impliquent des opérations humaines et informatiques effectuées avec rigueur et efficacité. La chaîne de traitement décrite dans cette section de l'étude permet la publication de revues savantes en vue de leur diffusion sur plusieurs supports (électronique et imprimé). Bien qu'une simple translation du contenu de la version papier vers l'électronique puisse déjà contribuer à la plus grande diffusion des revues, la chaîne de traitement proposée conduira éventuellement à créer de véritables publications électroniques. En effet, la version principale sera destinée à la consultation en ligne, ce qui amènera les auteurs à penser en termes de publication électronique : cette nouvelle tendance pourrait notamment avoir pour effet de modifier, à moyen terme, le type de représentation du contenu, en plus du texte, que l'on retrouve dans ces revues.
Cette section ne contient pas toutes les questions relatives à la chaîne de traitement. Nous avons plutôt voulu soulever les principales questions, et y apporter les premiers éléments de réponses. Lorsque c'est possible, nous avons proposé des pistes de solution, voire des systèmes, mais le but premier n'était pas de donner une liste précise et exhaustive des étapes et outils de la chaîne documentaire. À ce point-ci du projet, trop d'informations sont encore inconnues ou imprécises pour être en mesure d'effectuer des choix définitifs, pensons aux ressources financières disponibles, au nombre de revues à publier et à diffuser, au modèle économique retenu ainsi qu'à l'expertise disponible pour la réalisation du projet.
Une chaîne de traitement documentaire
Une chaîne de traitement documentaire comprend l'ensemble des processus, humains et technologiques, nécessaires pour produire et transformer de l'information. Dans le projet qui nous intéresse, l'objectif de ces processus est bien entendu de publier des revues savantes sur différents supports. Il est possible de regrouper les processus en trois grands ensembles que nous présentons brièvement ici.
La production de l'information consiste à consigner sur support informatique des idées, concepts, relations, réflexions issus d'un travail intellectuel. Il s'agit, en quelque sorte, de prendre le résultat de la création humaine et de l'enregistrer dans un fichier. Très souvent, un tel processus se limite à démarrer un logiciel de traitement de texte, à saisir l'information, puis à enregistrer le fichier correspondant. Toutefois, la publication électronique de revues savantes exige un processus un peu plus complexe.
La gestion de l'information consiste à organiser un ensemble d'unités d'information logiquement reliées dans le but de pouvoir les manipuler facilement ou les conserver de façon sécuritaire. La gestion de l'information implique l'archivage, sujet dont il est question dans un autre chapitre de cette étude.
La diffusion de l'information consiste à transférer l'information consignée sur support informatique vers des personnes qui ont besoin de la consulter. Il s'agit d'un processus de transfert d'information depuis un ordinateur vers une personne. Il est très important de réaliser que la mise en ligne d'une revue ne signifie pas nécessairement qu'elle sera consultée. Là comme pour les autres aspects de la chaîne documentaire qui nous occupe, des moyens concrets et précis doivent être mis en œuvre pour répondre aux besoins des lecteurs en matière de diffusion.
La notion de publication est au cœur de ce projet car elle conditionne plusieurs aspects de la chaîne de traitement. En effet, l'objectif du portail est de produire des versions publiées des articles de revues, puis de les diffuser et de les archiver.
Les principes qui sous-tendent le modèle
La chaîne de traitement est basée sur certains principes fondamentaux permettant d'atteindre les objectifs reliés à la publication de revues savantes dans un contexte électronique. Nous allons présenter brièvement ces principes afin d'aider à comprendre les différents aspects de la chaîne.
La normalisation
La chaîne de traitement utilise des formats normalisés pour la représentation de l'information et tente d'utiliser le plus souvent possible des mécanismes de traitement normalisés, sans mettre en péril l'efficacité et la souplesse de l'ensemble. Toutefois, aucune normalisation des outils n'est proposée, au contraire, l'indépendance par rapport aux logiciels et systèmes doit toujours être gardée.
La normalisation des formats de représentation est nécessaire, car elle permet d'atteindre une certaine indépendance par rapport aux outils utilisés, mais aussi d'assurer la pérennité de l'information. La normalisation des mécanismes de traitement de l'information est intéressante et de plus en plus en vogue, même si, en général, ces normes sont moins pérennes que celles concernant les formats. En effet, les " langages " de manipulation de l'information évoluent sans cesse, poussés par l'expérimentation de nouvelles approches mais surtout par l'augmentation de la capacité des ordinateurs.
Exploitation de l'electronique
Les documents numériques amènent des changements aux façons de faire tout en ouvrant des perspectives nouvelles pour la création, la diffusion et l'exploitation des résultats de la recherche. La chaîne de traitement proposée permet d'exploiter facilement l'information électronique selon les besoins et les outils actuels et futurs, tout en réduisant au maximum les inconvénients qu'amène invariablement l'introduction de ce nouveau mode de production.
Deux aspects fondamentaux distinguent l'information imprimée de l'information électronique. D'abord, cette dernière permet d'inclure différents types d'information, du texte à l'animation 3-D en passant par l'image, la vidéo, le son et la réalité virtuelle. La chaîne de traitement proposée doit donc permettre d'exploiter le caractère multimédia et interactif de l'information électronique. Ensuite, la publication imprimée s'effectue dans un contexte où l'on connaît et contrôle le support de diffusion de l'information. Dans le monde électronique, il existe une variété de supports de diffusion, mais surtout une grande variété de qualités ou de caractéristiques techniques de ces supports. La chaîne de traitement adoptée par le portail doit être d'une grande souplesse dans la production de l'information, électronique ou imprimée, afin de satisfaire le plus grand nombre de supports de diffusion, actuels et futurs, ainsi que le plus grand nombre d'expériences de consultation de l'information.
Une source, plusieurs produits
Le principe précédent nécessite de fournir l'information aux lecteurs sous différentes formes, en différentes versions (20). Il est impensable de produire en parallèle ces différentes formes ou versions. La modification du processus, ou sa ré-ingénierie, vise à produire une source d'information unique qui sera déclinée en différentes versions.
Cette source d'information devra être suffisamment riche pour que toutes les versions de diffusion s'obtiennent par appauvrissement, c'est-à-dire par la suppression d'information plutôt que par l'ajout. C'est la seule façon d'automatiser la chaîne de traitement : un traitement automatique peut difficilement ajouter de l'information, alors qu'en enlever est une opération assez simple.
Les documents structures
Les documents structurés contiennent de l'information sur leur structure logique et sémantique. Par exemple, on y identifiera explicitement les différentes sections du document et leur titre, ou encore certaines parties du texte comme des lieux géographiques ou des noms de personne. Cette structure leur confère une grande richesse, car il est aisé de traduire une information de structure en une information de restitution. Ainsi, convertir une information telle que " ceci est un titre de section premier niveau " en une instruction telle que " ceci doit être imprimé en caractères gras et un corps de 14 pts " peut se faire aisément et surtout automatiquement.
L'utilisation de documents structurés est la seule façon de respecter le principe " une source, plusieurs produits " dans un contexte électronique. La chaîne de traitement permettra donc d'obtenir, pour chaque article, un document structuré, suffisamment riche pour permettre toutes les exploitations envisagées. Il existe deux normes permettant de représenter des documents structurés : le SGML et le XML.
L'automatisation
L'intérêt économique de la chaîne de traitement repose sur l'automatisation des différents traitements effectués sur l'information. La création de l'information demeurera toujours un processus intellectuel. Une fois cette information créée, sa déclinaison en différents produits de gestion et de diffusion devrait toujours être réalisée automatiquement.
Transition en douceur
Les revues auxquelles s'adressera le portail existent déjà en tant que publications imprimées. Il est donc important de leur offrir une transition vers l'électronique qui s'effectue le plus simplement possible, tout en ne limitant pas les possibilités offertes par ce nouveau support. La chaîne de traitement proposée relève le défi de respecter les pratiques issues de l'imprimé, tout en permettant une exploitation intéressante de l'électronique.
La production de l'information
La première étape de la chaîne de traitement consiste à obtenir un document électronique structuré, suffisamment riche pour servir de source unique aux multiples formes de publication et de diffusion. Ce sont les revues qui " approvisionnent " la chaîne de traitement. Il devient essentiel que les équipes éditoriales des revues acheminent des textes dont le contenu est prêt à publier, de sorte que les corrections soient saisies une seule fois dans la source unique, pour ensuite servir à la production des différents formats de diffusion.
Afin de tenir compte de ce contexte, la chaîne de traitement utilise une approche indirecte et à deux étapes pour obtenir le document structuré (en format XML (21)) qui est la source unique d'information. Dans une première étape, l'information est saisie (ou récupérée) dans un document de traitement de texte conventionnel (nous préconisons le traitement de texte Microsoft Word, le plus utilisé) en respectant des règles d'écriture assez strictes. Ensuite, ce document Word est converti automatiquement en format XML, sans aucun traitement manuel ou intellectuel.
Cette procédure permet de faire un compromis optimal entre la bonne connaissance du traitement de texte chez les différents contributeurs et la souplesse ainsi que la normalisation du format XML. Le facteur qui permet ce compromis, et sur lequel cette partie de la chaîne de traitement repose, est le respect des règles d'écriture du document Word. Puisque le document Word peut être converti automatiquement vers le format XML, il devient en quelque sorte la source unique d'information, sur laquelle les corrections seront effectuées, et à partir de laquelle (indirectement) les différents produits seront élaborés.
Le document Word
Le format Word (comme tous les formats de traitement de texte) ne se prête pas à la représentation de documents structurés, et ce, pour deux raisons principales :
Ce dernier point est très important, car une bonne utilisation des documents structurés implique la notion de validation (de la structure), validation qui permet d'obtenir des documents à structure homogène ; cela permet leur exploitation de façon structurée par la suite. Il s'agit exactement du même principe que l'on applique aux bases de données, où l'on sépare en champs les différentes unités d'information, pour ensuite pouvoir les exploiter très facilement et efficacement. Les documents structurés appliquent ce principe aux documents textuels.
Même si le traitement de texte ne permet pas de valider la structure d'un document, il permet d'identifier (en partie) cette structure, et ce, à l'aide des feuilles de styles. On peut facilement indiquer qu'un paragraphe est le titre d'une section de niveau deux en lui appliquant le style " Titre 2 ", par exemple. Les styles de type caractères permettent d'obtenir le même effet sur quelques lettres ou quelques mots dans le texte, à l'intérieur d'un paragraphe.
La validation de la structure devra donc être effectuée d'une façon détournée, soit par la formation des personnes qui appliqueront les styles, mais aussi par des programmes informatiques. L'application des styles doit nécessairement être effectuée par des personnes qui comprennent à quoi cette étape peut servir, qui connaissent les documents qu'elles s'apprêtent à " styler " et qui connaissent la feuille de style à appliquer. Leurs connaissances de la revue et de leur discipline constituent donc la première validation.
Une validation humaine n'est toutefois pas totalement fiable, et c'est pourquoi une validation informatique est nécessaire. Celle-ci sera obtenue lors de la conversion du document Word au format XML, ce dont nous parlerons dans la prochaine section.
Le document XML
La norme XML n'est pas à proprement parler un format de document. Il s'agit plutôt d'un langage permettant de définir des formats de document (22). Ces formats sont en fait des modèles de documents, que l'on appellera ici des schémas (23). Ces schémas permettent d'exprimer l'ensemble des contraintes que doit respecter un document XML pour qu'il soit valide dans un certain contexte. Par exemple, à l'aide d'un schéma défini pour des articles de revues savantes, il est possible de vérifier si un article en format XML est valide en fonction de ce schéma.
Les schémas, qui sont les véritables formats de documents, et le respect de leurs contraintes constituent le cœur d'un système de gestion documentaire basé sur la norme XML. C'est pourquoi il faut leur accorder une grande importance lors de la conception et lors du développement des différents outils. Une des premières activités du portail sera de définir un schéma spécifique aux revues savantes. Les parties génériques du schéma devraient être inspirées de schémas de référence tels que Docbook (24), TEI (25) ou ISO 12083 (26). Normalement, un seul schéma devrait être suffisant pour l'ensemble des revues, car les caractéristiques communes des articles sont plus nombreuses que leurs différences. De plus, en utilisant une approche générique pour certaines caractéristiques des documents, il est possible d'en arriver à un schéma unique. Toutefois, il faudra évaluer l'intérêt et la nécessité d'utiliser un schéma de référence modulaire et de l'adapter pour obtenir un schéma spécifique pour chaque revue. En définissant correctement le schéma de référence et les schémas dérivés, il serait possible d'obtenir des outils uniques pour l'ensemble des revues et ainsi rendre les traitements efficaces. Le choix entre un seul schéma ou bien un schéma de référence plusieurs fois adapté devra être fait après une étude plus approfondie.
La production du document XML se fait à partir du document Word, automatiquement. Pour y arriver, il est beaucoup plus facile de passer par le format RTF (27). La conversion d'un document RTF au format XML (respectant un schéma spécifique) n'est pas une tâche générique pour laquelle il existe des outils déjà préparés. En effet, le XML n'étant pas un format, il est impossible de créer un outil de conversion du format RTF vers n'importe quel schéma XML.
Il existe deux types d'outil pour effectuer cette conversion. Les solutions basées sur la programmation tirent profit d'un langage de programmation pour manipuler les différentes structures du format RTF pour les convertir au XML. D'autres solutions basées sur des règles (par exemple " les paragraphes qui sont en style Titre 2 sont des titres de section ") sont en général plus faciles à mettre en place, mais moins souples, moins puissantes.
L'utilisation d'un langage de programmation s'avère nécessaire si le contenu du document Word doit être manipulé de façon à changer l'ordre des éléments, à ajouter du contenu, à intégrer de l'information provenant de sources externes, etc. Une telle solution sera nécessaire dans le cas où, par exemple, les documents Word ne sont pas conçus en fonction du document XML à produire, mais plutôt en fonction d'autres impératifs, tels que les pratiques antérieures. Le langage de programmation Omnimark (28) peut s'avérer une solution intéressante pour ce genre de conversion, tout comme le langage de transformation XSLT (29). Dans ce dernier cas, il faudra d'abord convertir le document Word vers un format XML quelconque (30), générique.
L'utilisation d'un outil basé sur des règles sera suffisant si les documents Word sont construits de façon très similaire aux documents XML. Dans un tel cas, la structure peut être induite directement des styles utilisés, peu de contenu devra être déplacé et l'écriture de règles de structuration devient très efficace. Les outils les plus connus pour effectuer ces transformations sont Majix (31) et UpCast (32).
Le choix final de l'approche et des outils dépasse le cadre de ce document et devra tenir compte de critères comme les connaissances et l'expérience des personnes qui programmeront les conversions ou établiront les règles.
Le contenu non textuel
La discussion précédente a porté exclusivement sur le contenu textuel des documents. Le contenu textuel des documents hypermédias est habituellement celui qui sert de ciment pour l'ensemble des composantes, un peu comme dans une page HTML où l'on trouve le texte et des références aux images et autres objets multimédias stockés à l'extérieur du document.
Dans le contexte du XML, les solutions sont les mêmes : le document XML contient le texte et des références aux objets multimédias. Un document XML est souvent constitué de plusieurs fichiers informatiques : la chaîne de traitement propose l'utilisation de Word pour la création de l'information textuelle et toutes les informations non textuelles seront stockées non pas dans Word mais dans des fichiers externes. Toutefois, le document Word contient l'information nécessaire pour pouvoir faire référence aux objets externes.
Le processus de travail dans son ensemble
La description qui précède a volontairement évité d'intégrer l'intégralité du processus de travail pour se concentrer sur les deux objets manipulés dans cette partie de la chaîne de traitement, le document Word et le document XML. Cette section fait un survol du processus de la soumission des projets d'articles aux revues jusqu'aux dernières corrections d'épreuves. Ce survol effectué, il ne restera qu'à intégrer à la chaîne de traitement la création des métadonnées dans les documents, ce dont nous parlerons plus loin.
De façon générale, un projet de publication s'enclenche par la soumission, normalement en format électronique, d'un article par un auteur au comité éditorial d'une revue. Ce comité, voire le ou la secrétaire de rédaction, peut demander des ajustements si le protocole de rédaction n'a pas été respecté. Dans ce cas, l'article retourne à l'auteur puis reviendra au comité.
Par la suite, l'article est acheminé à quelques personnes qui forment le comité de lecture, dans le but d'approuver ou de rejeter la publication de l'article. Ces évaluateurs font des commentaires et suggèrent des modifications avant de retourner l'article au comité de la revue. Le comité éditorial et le rédacteur en chef de la revue déterminent, selon le projet éditorial de la revue et à la lumière des commentaires et évaluations des pairs, quels articles seront publiés. Une fois le choix fait, les auteurs reçoivent les commentaires, questions et demandes de modifications de leur article.
Une fois les modifications effectuées et le protocole de rédaction de la revue appliqué, le contenu de l'article est considéré comme final et l'article est prêt à entrer dans le circuit de fabrication. C'est précisément ici que le portail interviendrait. Des épreuves sont alors produites et acheminées au secrétariat de la revue ainsi qu'à l'auteur. S'il y a lieu, des corrections sont apportées aux épreuves et l'article est finalement publié.
Ce processus traditionnel a fait ses preuves et fait l'objet de conventions dans la communauté universitaire. Dans l'état actuel des choses, on doit l'adapter et le rendre plus efficace, notamment en utilisant l'informatique et les réseaux pour échanger les différents documents (ce que nous n'aborderons pas ici), mais aussi en accélérant la production des épreuves. De plus, ce processus doit être adapté pour permettre la correction non seulement des épreuves destinées à l'impression, mais également celles destinées à la consultation en ligne.
La chaîne de traitement proposée adaptera ce processus de la façon suivante. Tout d'abord, aucun changement n'est à prévoir entre le moment où l'auteur soumet l'article et le moment où le comité éditorial détermine que l'article est prêt à publier. Ainsi, tout ce travail est effectué à l'extérieur du portail, par les responsables de la revue, les auteurs et les évaluateurs. Ces acteurs travaillent tous sur le document Word.
Par la suite, une version Word du document est produite en respectant un modèle établi spécifiquement pour permettre une publication électronique sur plusieurs supports. La production de cette version " Word++ " devrait être effectuée par les secrétariats des revues ou éventuellement par le portail pour les revues où cette étape est difficile à intégrer. La création de la version " Word++ " est une tâche manuelle et intellectuelle qui consiste à baliser le document pour y ajouter de la valeur en identifiant la structure pour qu'elle soit manipulable par des outils informatiques.
Une fois cette version " Word++ " créée, une version XML est obtenue automatiquement. Le reste du processus consiste à créer des épreuves, imprimées et électroniques, des articles et à vérifier ces épreuves pour identifier et corriger les dernières erreurs. Les épreuves sont produites automatiquement, avec les différents outils de la chaîne de traitement qui seront présentés plus loin. Soulignons toutefois que dans le cas des épreuves imprimées, c'est un document PDF qui sera utilisé et transmis aux personnes qui effectueront la vérification. La saisie des dernières corrections dans la version " Word++ " terminée, le document XML de référence sera produit et, de là, toutes les versions de diffusion.
Le point le plus important de cette partie de la chaîne consiste en l'équivalence (à court terme) des versions " Word++ " et XML des articles, équivalence obtenue par la réalisation d'un puissant outil de conversion et qui permet de tirer partie des forces de chacun des formats, soit l'utilisation presque généralisée dans le cas de Word et la pérennité et la facilité de manipulation du format XML. La figure 3 illustre cette partie de la chaîne de traitement.
Les articles de revues déjà publiés pourraient sans problème être intégrés dans une telle chaîne de traitement. Les articles dont nous possédons la source électronique devraient être convertis au format " Word++ " et suivre le reste de la chaîne. Les articles dont nous ne possédons pas la source doivent être numérisés et traités par la reconnaissance optique de caractères, ou encore ressaisis, puis amenés dans le format " Word++ " et suivre le reste de la chaîne.
Les efforts à consentir sont très grands et les implications économiques de cette dernière solution ne permettent peut-être pas de faire de grands projets de numérisation rétrospective et d'application de la chaîne de traitement compte tenu des priorités. Par exemple, gardons à l'esprit que la numérisation rétrospective en format image coûte entre 30 et 40¢ la page et que le coût de la numérisation + ROC se situe entre 3 et 4 $ la page. Pour cette dernière formule, il faut ajouter les coûts de traitement pour la vérification des fichiers (coquilles ROC) et la conversion vers le XML. Pour cette seule considération, on peut être porté à utiliser une approche différente, qui consiste à diffuser en mode image les articles déjà publiés, dans un format PDF par exemple, permettant ainsi aux lecteurs de les consulter assez aisément. Cette solution temporaire doit être implantée en pensant à l'avenir, afin de rendre possibles de futurs traitements en reconnaissance optique de caractères, voire de conversion vers le XML. Il est donc important de s'assurer de la qualité de la numérisation et de la production d'un format image reconnu pour l'archivage à long terme, le format TIFF par exemple, qui rendra possible aisément la récupération des fichiers pour les traitements futurs.
Un format image, comme nous l'avons vu plus haut, ne permet toutefois pas la recherche plein texte. Des métadonnées doivent donc être associées aux articles ainsi numérisés pour permettre l'intégration des collections courante et rétrospective par l'outil de recherche et l'interface de navigation. L'ajout de ces métadonnées constitue toutefois une tâche manuelle qui peut être fastidieuse, même s'il est probablement possible de récupérer une partie des métadonnées depuis une base de données bibliographiques.
La notion de prépublication peut connaître plusieurs usages. Il s'agit, au départ, d'un document qui n'a pas été arbitré par des pairs, contrairement aux procédures suivies par les revues savantes. Certains auteurs parlent plutôt de solutions d'auto-archivage et de diffusion mises en place par les auteurs (33) ou de Skywriting (34), faisant ici référence à la libre circulation des résultats de la recherche pour toutes les personnes ayant accès au Web.
Agissant a priori comme véhicules informels de communication de prépublications ou d'autres types de littératures grises non arbitrées, quelques serveurs de prépublications sont devenus, pour les communautés de chercheurs de certaines disciplines, des lieux incontournables et essentiels pour la diffusion des résultats de la recherche (35). On ne saurait parler de ce nouveau mode de communication des résultats de la recherche sans souligner le succès de arXiv (36), créé par Paul Ginsparg en 1991, au Los Alamos National Laboratory. Ce serveur de prépublications, principalement en physique, reçoit des millions d'accès par mois. Les succès en boucle de la mise en ligne de centaines de serveurs de prépublications depuis 1991, ainsi que la coordination entre ces différents sites qui s'organise avec notamment l'Open Archives initiative (37), font penser à plusieurs que la généralisation de ce mode de communication est la solution à la crise des revues savantes.
Open Archives Initiative
L'objectif de l'Open Archives Initiative (38) (OAi) est de contribuer de façon concrète à la transformation de la communication savante. Depuis la première rencontre des participants à l'OAi à Santa Fe en octobre 1999, plusieurs outils sont en développement pour arriver à réaliser l'interopérabilité entre les différents serveurs de prépublications. En effet, les serveurs de prépublications ayant des pratiques et des modes de fonctionnement très différents, les membres de l'OAi voient, dans l'application de solutions concrètes pour réaliser l'interopérabilité entre les différents serveurs, le moyen de promouvoir ce nouveau mode de communication des résultats de la recherche. La Convention de Santa Fe recommande trois mécanismes pour permettre l'interopérabilité entre les serveurs : 1° la création et l'adoption d'un modèle simple de métadonnées appelé Open Archives Metadata Set (OAMS) qui permettra de décrire les documents, 2° l'utilisation du XML pour l'encodage et l'échange de ces métadonnées, et 3° la définition d'un protocole commun pour réaliser l'extraction des métadonnées OAMS des serveurs participant au projet. L'objectif étant de permettre l'accès simultané à toutes les prépublications des serveurs reliés à l'OAi par une même interrogation.
Des prépublications et des revues
Malgré la reconnaissance du grand intérêt des serveurs de prépublications, à part l'exemple de Los Alamos pour la communauté des chercheurs en physique, " les serveurs des autres disciplines ne contiennent qu'une minuscule portion du corpus annuel d'articles publiés (39)" (notre traduction). De plus, on ne constate aucun impact négatif depuis la création de Los Alamos sur la revue Physical Review dont les champs d'intérêts recoupent largement ceux des prépublications déposées sur le serveur (40). C'est dire que les auteurs valorisent les revues savantes comme mode de validation et de reconnaissance de leurs travaux qui va au-delà de la communication entre chercheurs (41). Car, à ce jour, une prépublication n'est pas une publication, notamment en ce qui a trait à la reconnaissance des auteurs par les pairs et à l'importance des publications arbitrées dans le processus de promotion des professeurs et des chercheurs.
On peut estimer que nous assistons à la transition qui va du modèle actuel de communication scientifique, qui s'appuie sur la revue, vers un modèle ayant pour centre un serveur de prépublications avec ou sans arbitrage. On peut se demander aussi si la véritable question n'est pas plutôt, certes à court terme, mais peut-être aussi à plus long terme, celle d'une cohabitation des prépublications et des revues. Ce n'est souvent pas parce qu'une nouvelle technologie ou une nouvelle forme de communication émerge qu'elle doit nécessairement remplacer celle qui était utilisée auparavant. La communication de messages sonores ou textuels par satellite entre les capitaines des bateaux a eu raison du code Morse mais on utilise aujourd'hui le téléphone et la messagerie vocale sans penser que le courriel seul suffit.
Un aperçu des serveurs de prépublications
La revue des serveurs de prépublications permet d'observer certaines tendances qu'il faut considérer dans l'élaboration d'un portail de diffusion de l'information scientifique. Ces tendances touchent les services et types de documents diffusés sur ces sites, les domaines couverts et les normes utilisées pour la gestion de ce type de document. Bien que la très grande majorité de sites de prépublications soit dans le domaine des sciences, avec en tête la physique et les mathématiques, plusieurs sites de prépublications en sciences humaines et sociales existent depuis plus ou moins longtemps. La psychologie, l'économie et la philosophie sont les disciplines des sciences humaines et sociales qui semblent utiliser le plus les possibilités de ce mode de communication.
La majorité de ces serveurs ne distribuent que des prépublications. Toutefois, certains diffusent également des thèses et des articles (42). Il n'existe aucune norme quant aux formats d'encodage des prépublications. Les serveurs de prépublications donnent généralement des directives assez précises aux auteurs (43). Les formats de fichier les plus fréquemment demandés sont : PDF, Postscript, Tex/LaTex et HTML. Tous les sites de prépublications sont à accès libre pour les lecteurs. Certains sites, tels Los Alamos (44), RePEc (45) et Cogprints (46), demandent aux auteurs de s'enregistrer pour obtenir un code d'usager et un mot de passe afin de déposer des prépublications sur le serveur.
Dans la majorité des cas, les prépublications se trouvent sur le même serveur ou dans le même environnement que le site Web d'entrée. Toutefois, certains projets tels GrayLit Network (47) et MPRESS (48) font plutôt office de portail fédérateur pour un ensemble de serveurs de prépublications. Les services offerts permettent alors de chercher à travers plusieurs bases de données qui se trouvent sur plusieurs sites. En plus de l'utilisation d'un outil de recherche ou d'un plan de classement disciplinaire, plusieurs sites offrent la possibilité de s'inscrire à une liste de diffusion qui signale les dernières prépublications mises en ligne.
Les prépublications et le portail québécois
Compte tenu de l'intérêt que suscitent les serveurs de prépublications pour plusieurs communautés de chercheurs dans diverses disciplines, il apparaît fondamental d'accorder une attention particulière et une place à ce mode de communication dans la conception et la réalisation du portail. Les dimensions que nous avons traitées portent sur le type de documents que l'on pourrait déposer et recueillir sur le serveur, les implications techniques pour l'intégration des prépublications au portail, les développements à suivre dans ce milieu, ainsi que la nécessité de connaître les besoins et l'intérêt des chercheurs québécois pour ce nouveau mode de communication.
Le portail devrait devenir le point d'entrée à toutes les formes de communication savante. Malgré une nette démarcation des différentes zones qui composeront le portail, les lecteurs auront accès à des outils qui permettront de chercher par sujets à travers des collections comprenant tout autant des articles publiés sous forme papier qu'on retrouve en version électronique sur le portail que des thèses ou encore des notes de recherche. Le critère principal de recherche est ainsi le sujet, sans limite quant au type de documents.
Les documents de la zone prépublications
Les prépublications rejoignant les mêmes auteurs et lecteurs que ceux des revues savantes, nous proposons qu'une section du portail soit construite pour recevoir, archiver et diffuser des prépublications, certes, mais également d'autres types de documents que l'on qualifie de littérature grise. Les prépublications, quant à elles, sont le plus souvent des articles destinés à une publication dans un autre média et pour lesquels la diffusion rapide permettra à la communauté des chercheurs d'une discipline de contribuer de façon plus active et efficace aux développements de travaux de recherche. Cette partie du portail pourrait également donner accès à des thèses, à des notes de recherches, à des rapports, à des textes et à du matériel de conférence, à des discours, à des articles non destinés à la publication sur un autre média, et autres documents qui pourraient intéresser la communauté de chercheurs d'une discipline visée (49).
Le portail pourrait se porter garant de la conservation (50) et de la diffusion des documents qui lui seraient acheminés. De plus, différents moyens techniques pourraient permettre d'intégrer des collections qui ne se trouvent pas nécessairement sur le serveur du portail. Par exemple, on peut penser que l'outil de recherche du portail permettra de chercher dans la collection des thèses québécoises accessibles dans le Web. De la même façon, d'autres collections de prépublications rattachées tantôt à des centres de recherche ou à d'autres serveurs pourraient être accessibles à partir du portail. Cette zone du portail serait, comme la zone " revues savantes ", reliée à d'autres collections se trouvant sur d'autres portails.
Comme nous l'avons indiqué plus haut, les outils techniques permettant l'interopérabilité des différents serveurs de prépublications sont en voie de réalisation à la suite des travaux de la Convention de Santa Fe de l'OAi. Il sera donc d'une importance capitale pour le portail de suivre les développements de ces travaux de façon à développer des outils et des protocoles compatibles avec ceux de l'OAi, notamment le modèle de métadonnées à adopter.
Implications techniques
Une fois que l'on dispose de l'espace disque requis pour le dépôt et la diffusion des prépublications, les implications techniques du développement d'une zone de prépublications pour le portail sont d'abord reliées à la sécurité. Le dépôt par qui le veut bien d'un fichier sur un serveur implique nécessairement des mesures de sécurité très strictes et le contrôle quotidien des répertoires ouverts au public. De plus, comme les fichiers déposés proviennent d'une foule de sources différentes et qu'habituellement plusieurs formats d'encodage sont acceptés, des mesures particulières pour la détection des virus doivent être mises en place pour des raisons évidentes.
Ensuite, compte tenu du coût de conversion des documents vers un format structuré, il est absolument impensable qu'un traitement vers XML soit appliqué à tous les documents déposés sur un serveur de prépublications. L'investissement que nécessite le traitement doit nécessairement être justifié par la reconnaissance du document dans un milieu donné.
Toutefois, de façon à permettre l'accès aux différentes zones du portail par un même outil de recherche, des métadonnées doivent être créées. Les métadonnées pourraient être créées par les auteurs eux-mêmes au moment du dépôt de leur document en remplissant un formulaire Web où les informations concernant entre autres le nom de l'auteur, son affiliation, le titre du document, le résumé et les mots-clés seraient saisis. L'équipe du portail aura donc à définir un modèle de métadonnées et à développer l'interface de saisie pour les auteurs.
Toutes les opérations, tels le dépôt et la mise en ligne des textes, le traitement et l'intégration à la base des métadonnées, devront s'effectuer automatiquement, sans intervention humaine. Il faut atteindre un taux de 100% d'automatisation pour l'ensemble des opérations techniques du système. À cet effet, les auteurs seront incités à utiliser les meilleures pratiques, non seulement pour la saisie de leurs métadonnées mais également pour la présentation de leurs textes. Des directives précises devront être transmises aux auteurs.
Besoins et intérêt des chercheurs québécois pour un serveur de prépublications
Autant il apparaît essentiel d'intégrer les prépublications dans l'architecture générale du portail dès le moment de sa conception, autant il est capital de mieux connaître les besoins et l'intérêt des chercheurs québécois pour la création d'un tel serveur.
Contrairement aux comportements et activités des chercheurs québécois vis-à-vis leurs revues, que nous connaissons assez bien, nous avons très peu d'informations sur leurs habitudes en ce qui a trait aux serveurs de prépublications existants. On sait déjà que plusieurs d'entre eux utilisent ces moyens pour communiquer rapidement leurs résultats de recherche. Toutefois, nous avons peu d'informations sur la place que prend ce moyen par rapport aux autres modes de communication et, particulièrement, de publication des articles produits dans des revues. De plus, certains sites de prépublications (51) créent un comité d'arbitrage des documents soumis. Est-ce le genre de sites qui serait privilégié ? Cette possibilité doit également être soumise aux chercheurs pour évaluer l'intérêt de mettre en place une pareille structure d'évaluation des documents.
Sur ces aspects, cités à titre d'exemples, il convient d'ouvrir une discussion plus large pour connaître l'ordre de priorité que l'on doit accorder à ce service, sa nature et sa place dans l'infrastructure de la communication savante. Cet exercice permettrait de définir une action qui correspond au mieux aux attentes du milieu.
La chaîne de production permet l'utilisation de plusieurs formats de diffusion, chacun ayant ses avantages et ses inconvénients. Les formats retenus pour l'avenir prévisible ne sont pas limitatifs : d'autres formats pourraient s'ajouter pour répondre à d'autres besoins ou pour s'adapter à de nouvelles technologies. La richesse des documents sources (documents de production) permettra de produire ces formats assez facilement. Après avoir défini les formats au début de cette section, nous verrons ici comment il sera possible de les convertir des documents XML.
Les formats de diffusion sont tous produits à partir d'une seule source, soit le document XML de référence. Les différentes étapes de conversion, de même que les outils préconisés pour les réaliser, sont identifiées dans la figure 4.
On peut affirmer que la consultation des articles à l'écran n'est pas toujours d'un grand confort et que, comparativement à l'imprimé, la vitesse de lecture est réduite et la capacité de rétention de l'information est plus faible (52). Mais ce serait faire peu de cas du fait que l'ordinateur peut fournir des outils très utiles et performants pour l'exploitation des informations disponibles dans le Web. Cela est d'autant plus vrai lorsque l'environnement de consultation offre des aides à la lecture comme des annotations personnelles ou partagées ou encore des signets.
De plus, cette consultation à l'écran est en quelque sorte indépendante de l'encodage initial du document en format XML. En effet, à partir d'articles de revues encodés en XML selon le même schéma, il est possible d'obtenir des présentations visuelles très variées pour les articles des différentes revues. Ainsi, cette consultation à l'écran permet aussi de respecter les chartes graphiques des revues, et même de les mettre en valeur en utilisant les avantages de l'électronique.
Le format HTML - plus précisément le Dynamic HTML (DHTML) - constitue, encore pour quelques années au moins, le format de choix pour la diffusion d'information électronique. Judicieusement utilisé, il permet une mise en page intéressante et efficace, un dynamisme utile ou agréable, et une efficacité de transfert et d'affichage. La conversion des documents XML vers un format DHTML ne pose aucun problème : plusieurs outils permettent de l'effectuer automatiquement, moyennant un effort initial de programmation.
Depuis novembre 1999, la norme XSLT, issue du W3C, est un langage de choix pour de telles transformations, en particulier dans le contexte d'un portail de revues savantes. Plusieurs raisons militent en ce sens. D'abord, les processeurs XSLT sont particulièrement efficaces pour des documents de taille petite ou moyenne, ce qui est tout à fait approprié pour les articles de revues. Cette norme, de plus, facilite la création de feuilles de styles modulaires qui permettent de créer plusieurs variations d'une même transformation. Ce dernier aspect est important, car pour offrir un grand confort de navigation aux différents utilisateurs, il y a probablement lieu de préconiser la production de plus d'une version DHTML des articles. Ensuite, d'une revue à l'autre, la mise en page des articles pourra varier mais, fondamentalement, de nombreux aspects de la conversion seront identiques. Cela fait en sorte que la mise en place de cette partie de la chaîne de traitement demandera la création d'un grand nombre de conversions légèrement différentes, d'où l'importance d'une approche modulaire et par conséquent d'une technologie qui le permette. Ajoutons à ces facteurs favorisant le choix du XSLT le fait qu'il s'agit d'une norme.
Les conversions au format HTML peuvent être effectuées de façon dynamique, c'est-à-dire à chaque fois qu'un article est demandé sur le serveur de diffusion. Elles peuvent aussi être faites d'avance. La première approche minimise les besoins en espace disque, mais demande une plus grande puissance du serveur. La deuxième approche inverse ces besoins. Puisque les articles, une fois publiés, ne sont pas modifiés, et que le coût de l'espace disque est peu élevé, le prétraitement des articles semble l'avenue la plus appropriée. Toutefois, si on veut offrir aux utilisateurs une représentation HTML qui dépend de certains paramètres inconnus à l'avance, une approche dynamique sera nécessaire. Par exemple, un utilisateur pourrait saisir un ou plusieurs mots, et on pourrait lui présenter un document où ces mots sont mis en évidence dans le texte, afin de faciliter la lecture. Ou encore, si le serveur offre des outils d'annotation publique et privée, la présentation des documents dépendra des annotations et des préférences d'affichage, ce qui exclut le prétraitement des articles.
Concurremment, la diffusion des documents XML directement dans le Web est possible, et ce, de deux façons. D'abord, on peut associer à ces documents une feuille de style CSS. Pour l'instant, les navigateurs Internet Explorer, Opera et Netscape - encore en version beta - permettent de les afficher. Cette approche est peu recommandée en raison de ses limites : les feuilles de styles CSS permettent de mettre en page correctement un document XML, mais offrent peu d'intérêt en matière de dynamisme des pages ou de mise en contexte de l'information dans l'ensemble d'un site. L'autre approche consiste à associer une feuille de style XSLT au document et, dans ce cas, la transformation s'effectue sur le poste client. Pour l'instant, seul le navigateur Internet Explorer offre cette fonctionnalité, mais il est probable que le navigateur Netscape 6 la permettra, même si cette dernière n'est pas présente dans la version beta qui est actuellement disponible. À moyen terme, il s'agit d'une stratégie intéressante, pour minimiser à la fois les traitements du côté du serveur et l'espace disque requis.
L'impression à distance
L'impression à distance consiste à fournir aux lecteurs, habituellement via Internet, un document mis en page et destiné à être imprimé sur leur imprimante personnelle. Cette approche permet d'éviter la lourdeur de l'impression professionnelle et de répondre à une diversité de besoins. De plus, les lecteurs peuvent imprimer seulement les pages ou les articles dont ils ont besoin, ce qui évite une consommation démesurée de ressources.
Les logiciels de consultation de documents électroniques permettent normalement d'imprimer les documents consultés. Cette impression n'est pas de bonne qualité, car les documents n'ont pas nécessairement été préparés pour l'impression. C'est le cas, entre autres, des documents en format HTML. Le meilleur format d'impression à distance reste le format PDF d'Adobe. C'est pour cette raison que le portail de revues produira et diffusera des versions PDF des articles. La production de ces documents implique les mêmes opérations que la production des documents Postscript (que nous allons voir dans la rubrique suivante). Puisque l'impression professionnelle est encore d'actualité, il est tout à fait logique d'utiliser le produit intermédiaire de l'impression professionnelle, soit le document Postscript, pour obtenir un document PDF. Cette conversion est automatique et ne pose pas de problème particulier.
Par conséquent, la production des versions pour l'impression professionnelle et l'impression à distance est semblable ; seule une étape automatique s'ajoute pour obtenir des documents PDF à partir des documents Postscript. Notons au passage que lors de cette conversion, des ajustements peuvent être effectués pour, notamment, réduire la qualité des images, évitant ainsi de trop grands temps de téléchargement des articles.
L'impression professionnelle
L'impression professionnelle permet d'obtenir des articles sur support papier, avec une très bonne qualité d'impression et habituellement reliés en numéros. Cette impression demande une expertise et des équipements particuliers. C'est pourquoi cette tâche est habituellement effectuée par des sociétés spécialisées. Pour ce faire, on doit pouvoir fournir à l'imprimeur les documents ayant une mise en page adéquate. Le format Postscript (53) est bien souvent utilisé pour l'échange de documents destinés à l'impression.
La technique la plus intéressante pour produire des documents Postscript à partir des documents XML est d'utiliser un logiciel de mise en page. Il s'agit d'importer l'information (les articles) dans ce logiciel et de produire un document Postscript ; cela se fait sans problème. Mais en raison de la complexité de la mise en page pour l'impression, cette opération peut difficilement se réaliser de façon purement automatique, mais on peut s'en approcher. Par exemple, les logiciels Quark XPress (54) et FrameMaker (55) permettent d'importer de l'information dans un langage balisé (XPress Tags pour XPress, MIF pour FrameMaker) que l'on peut obtenir assez facilement par conversion d'un document XML. Il existe également des solutions entièrement automatisées, avec par exemple 3B2 (56) ou Adept Publisher (57), mais les efforts de paramétrage et de programmation à faire sont très grands. Il existe une version de FrameMaker (FrameMaker+SGML) permettant d'importer directement des documents SGML, mais cette option n'est pas particulièrement intéressante pour notre chaîne de traitement basée sur XML, entre autres parce qu'il faut de toutes façons manipuler le XML pour le convertir en SGML et l'adapter aux exigences de l'impression.
Il est difficile de produire un document entièrement imprimé de façon automatique, sans vérification manuelle, mais la chaîne de traitement proposée permet de minimiser ces interventions humaines. Si bien que les premières épreuves pour l'impression se font presque automatiquement, avec seulement quelques petits ajustements manuels. Éventuellement, il sera possible de créer les épreuves papier avec la version XML et une feuille de styles CSS appropriée mais, pour l'instant, le support CSS est trop peu développé dans les logiciels pour utiliser cette approche.
Nous venons d'identifier tous les éléments qui permettent de produire des articles. Or, comme on le soulignait plus haut, on ne peut prétendre diffuser une collection d'articles simplement en la rendant accessible dans le Web. C'est l'équivalent d'ouvrir les portes d'une immense bibliothèque sans fournir de catalogue : on se doute bien qu'elle contient des informations intéressantes mais aurions-nous le temps de les chercher dans ces conditions? Le Web ressemble actuellement à cette " bibliothèque ". Le portail devra mettre en place plusieurs outils pour assurer la diffusion efficace et optimale des articles. L'un de ces outils s'appelle " métadonnées ".
Le processus traditionnel de la communication savante mobilise plusieurs acteurs : des auteurs produisant des textes, ces textes sont par la suite édités et publiés après que les éditeurs leur aient conféré une importante valeur ajoutée - grâce au contrôle de la qualité, à la révision par les pairs et à leur diffusion -, les bibliothèques les achètent et apportent également une valeur ajoutée - qui permet l'identification, la sélection, le catalogage, l'organisation physique et la conservation du " contenant " qu'est ce périodique - et, enfin, des banques de données spécialisées indexent ces ressources pour permettre le repérage d'un contenu tout aussi spécialisé et offrent aux chercheurs des outils de consultation efficace des sources.
L'édition savante électronique transforme ce processus, notamment au niveau du repérage. L'exploitation des métadonnées appliquées à des articles de revue en version électronique permettra de tirer de grands avantages dans le repérage et la mise en réseau de sources documentaires diverses.
Les métadonnees : raison d'être et usages
Que sont les métadonnées?
L'analogie classique pour décrire les métadonnées, c'est la fiche de carton d'un catalogue de bibliothèque. Cette petite fiche servait de substitut au document original et permettait de faire un choix sans voir le document qu'elle décrivait. Les informations bibliographiques, les résumés, les termes d'indexation, les abstracts, tout ce qui peut être un substitut au document original et qui libère les usagers potentiels de la nécessité de connaître à l'avance l'existence et les caractéristiques de ce document sont des métadonnnées.
Dans l'univers électronique, les métadonnées sont des renseignements, des informations, des ensembles d'énoncés à propos d'objets numériques qui peuvent être soit des articles, soit d'autres objets numériques insérés dans ces articles (par exemple des fichiers image ou son). Les métadonnées décrivent les attributs et le contenu de ces objets. Elles sont utiles au repérage mais également à l'administration, à la description, à l'accès et à la conservation de l'information. Elles identifient le contenu de l'objet ou son sujet, son contexte (le qui, le quoi, le pourquoi) et sa structure.
Pourquoi utiliser des métadonnées?
L'utilisation des métadonnées est rendue nécessaire par une simple raison de logique mathématique. En juin 1993, on comptait 130 sites Web (58), en août 2000, la société Netcraft en comptait 19,8 millions (59), soit une augmentation de 14 800 000 %! (60) Les chiffres sont encore plus impressionnants si on considère les documents électroniques présents sur ces sites : quelque 800 millions de documents publiquement accessibles par les robots de recherche dans le Web étaient recensés en 1999 (61). Michael Dahn, sans contester l'enquête de Lawrence et Giles, en vient à la conclusion qu'en novembre 1999 le Web publiquement indexable comprend 1,16 milliards de documents, mais que le Web publiquement accessible se chiffre plutôt entre 1,45 et 2,33 milliards de documents (62). De leur côté, les producteurs du moteur de recherche Inktomi ont atteint leur milliardième document le 18 janvier 2000 (63). Plusieurs motifs plaident pour le recours à des métadonnées dans cet univers à la fois riche et pléthorique.
Tout d'abord, l'accessibilité et l'utilisation accrues des documents électroniques, grâce notamment aux facilités de recherche, doivent être supportées de façon conséquente par les outils offerts aux utilisateurs, ce que permettent au premier chef les métadonnées. Elles améliorent aussi grandement la recherche d'information dans de multiples collections et permettent, par exemple, l'interopérabilité entre différents portails. De même, nous avons là la capacité de restituer le contexte de création d'une source électronique et de lier différentes pièces au même fonds d'archives, par exemple en indiquant, aujourd'hui et dans cent ans, que tel auteur est relié à tel article et à tel périodique. Il s'agit, de plus, d'un outil précieux pour diversifier les points d'accès à l'information, la présentation des résultats et les possibilités de manipulation de l'information, et ce, sans toucher à l'intégrité du document (il devient aisé de trier avec les métadonnées les articles par date de création, par thèmes, par critères linguistiques, intellectuels ou autres). Elles sont aussi précieuses pour garder la trace des différentes déclinaisons d'un même document (par exemple, en XML, HTML ou PDF) lorsque celui-ci a plusieurs versions. Ajoutons que, dans la problématique de la conservation et de la " migration de l'information ", les métadonnées techniques et descriptives, qui décrivent le contexte de création du document, permettront de procéder avec toutes les informations nécessaires. Enfin, en considérant la question des droits et la dimension légale, on doit noter que, par les métadonnées, il est possible de garder la trace des diverses couches de droits attachés à l'information, à la protection des droits, aux restrictions de consultation, etc.
Même si l'utilisation des métadonnées peut être vue comme une procédure supplémentaire, avec des coûts inhérents, on doit reconnaître qu'il s'agit d'un instrument particulièrement précieux pour un portail de revue, tant pour les services offerts, pour les liens à entretenir avec d'autres portails que pour la gestion interne des documents produits et conservés. À cela, il faut ajouter une autre dimension, en s'appuyant sur la distinction entre le Web accessible et le Web indexable.
Web accessible VS Web indexable
En inventoriant le Web indexable, c'est-à-dire le Web librement accessible par les robots de recherche qui le sillonnent, on passe à côté des pages accessibles uniquement à l'aide d'un formulaire de recherche, les pages protégées par des mots de passe, les pages dans des répertoires d'où les robots sont exclus, les pages utilisant des cadres (frames) mal définis, les pages non HTML ou en texte ou en PDF, etc. Certains estiment que ces pages représentent la moitié du Web indexable. Cette " nuance " entre le Web accessible et indexable est capitale pour définir une caractéristique essentielle du portail.
Afin d'atteindre la plus grande diffusion possible, la " fiche descriptive " des articles (mentionnée dans le chapitre sur le système de diffusion) sera située dans une partie du portail accessible aux moteurs de recherche. Nous prévoyons mettre en place une structure de répertoire permettant une navigation par " bouquinage " (browsing), comme on peut le faire sur les rayons d'une bibliothèque. Cette structure de répertoire faciliterait la sélection, dans un premier niveau, des titres de périodiques présents dans le portail. En cliquant sur un titre, on atteindrait les volumes (l'année), d'où l'on pourrait sélectionner un numéro, où serait placée la " fiche descriptive " de chaque article. Un hyperlien permettrait alors d'atteindre le texte intégral de l'article. En tout temps, un bouton permettrait d'accéder au moteur de recherche. Si on choisit l'accès par moteur de recherche, le système nous fournira, en réponse à nos requêtes, les fiches descriptives des articles correspondants.
Les métadonnées recueillies pour chaque article permettront de créer de la façon la plus automatisée possible la " fiche descriptive ", du côté " Web indexable ". Elles détermineront également, du côté " Web accessible ", les zones qui seront cherchables grâce à un puissant moteur de recherche qui indexera la structure XML et le texte intégral des articles.
Le torrent et le sas
On estime que seulement 6 % du Web est à caractère scientifique ou éducatif ; la plus grande masse du contenu (83%) étant à caractère commercial (64). Dans ces conditions, le simple fait de rendre un texte savant disponible dans le Web équivaut aujourd'hui à verser un verre d'eau de plus dans l'océan.
De là, deux tendances lourdes se dégagent pour mettre un peu d'ordre dans ce chaos : la création de portails spécialisés et l'utilisation de métadonnées. On assiste de plus en plus à une spécialisation du Web. Bientôt, on retrouvera des Webs à l'intérieur du Web. Une de ces manifestations est la création de portails : portails de divertissement, portails de services financiers, portails de revues savantes, etc. Lorsque les portails scientifiques et l'infrastructure de navigation et d'interopérabilité entre ces portails seront implantés et consolidés, les chercheurs n'auront plus à naviguer sur tout l'océan Web ; on s'orientera vers la qualité plutôt que vers la quantité. À cet égard, les métadonnées sont le moyen pour assurer cette mise en ordre du Web.
Les métadonnées : les créer, les stocker
Dans un environnement de documents structurés, un certain nombre de métadonnées sont déjà présentes grâce à la structure des documents. Par exemple, le titre d'un article est déjà identifié comme tel par les balises XML. Il est possible d'extraire ces éléments d'information du contenu du texte pour générer des schémas normalisés de métadonnées, comme le Dublin Core. Il est également possible de récupérer des éléments de métadonnées se trouvant dans les " propriétés du document " ; dans ce cas une extraction est nécessaire. Tous les éléments de description bibliographique de l'article, de même que différents types d'indexation matière, devraient se retrouver dans les métadonnées.
Les métadonnées ne sont pas nécessairement toutes connues au même moment ; elles seront créées à divers moments dans la chaîne de production du document. Idéalement, il faut chercher à rapprocher le plus possible la création des métadonnées des créateurs de l'information ; le principe à suivre est d'associer les métadonnées le plus tôt possible, car elles peuvent être utiles dans la chaîne de traitement elle-même. Cela dit, en raison de la rigueur requise pour cette opération, nous privilégions, au stade actuel, de confier aux éditeurs de revues savantes plutôt qu'aux auteurs la création des métadonnées bibliographiques dans le document " Word++ " et dans les propriétés du document Word, et ce, au tout début du processus de mise en forme du document reçu des auteurs.
Le format XML nous permet d'associer des métadonnées très facilement, et de façon très structurée, aux documents qui utilisent ce format, et donc aux articles des revues du portail. Ainsi, toute métadonnée propre à l'article devrait s'y retrouver en premier lieu, par insertion, quitte à ce qu'elle soit reprise ailleurs dans le système, par souci d'efficacité.
Pour les articles rétrospectifs, les métadonnées devraient être associées au moment de la numérisation, à l'aide d'un traitement manuel ou encore par récupération semi-automatique des informations depuis des bases de données bibliographiques. Concernant les prépublications, les auteurs pourraient eux-mêmes fournir les métadonnées de base nécessaires à la gestion et la diffusion des articles, à l'aide de formulaires disponibles dans le Web par exemple.
Les métadonnées : les superposer
Rien n'est simple en ce bas monde, fût-il virtuel. Il n'y a (malheureusement) pas un schéma universel de métadonnées. Toutes les fonctions des métadonnées, mentionnées plus haut, nécessitent un format spécialisé : par exemple, fonction bibliographique, Dublin Core ; fonction évaluation, PICS ; fonction contrôle de la privauté, P3P ; fonction sécurité, digital signature, etc. De plus, plusieurs disciplines spécialisées ont besoin de métadonnées disciplinaires, de thésaurus, de réseaux sémantiques, bref de systèmes de représentation de connaissances particuliers. Toutes ces couches de métadonnées s'ajouteront et se superposeront à l'objet numérique. Comment s'assurer que ces normes empilées seront compatibles entre elles et qu'il n'y aura pas de conflit entre les différents éléments de métadonnées ? Une des solutions mises de l'avant par le W3C est le RDF (65). De façon simplifiée, le cadre (framework) RDF est un réceptacle permettant de recevoir différents schémas de métadonnées. Le RDF repose sur une structure XML.
Une fois que toutes ces couches de métadonnées seront interopérables, que l'infrastructure de support logiciel sera mise en place et maîtrisée, ces métadonnées deviendront compréhensibles par machine (machine understandable). Alors, la découverte des ressources et la recherche d'information dans le Web pourront en grande partie être réalisés de façon automatique par des robots de recherche spécialisés dans chaque discipline et ainsi sera réalisé le " Web sémantique " annoncé par Tim Berners-Lee depuis quelques années.
Pour conclure, retenons que les métadonnées permettront d'offrir aux utilisateurs un outil de recherche performant. De plus, elles faciliteront les échanges d'information avec des partenaires extérieurs, tels que des services d'indexation ou d'autres portails similaires au nôtre. Enfin, elles seront essentielles pour la gestion des articles.
Quelques modèles de métadonnées
On vient de le voir, différents modèles de métadonnées doivent être associés aux articles afin de rendre la collection cohérente et organisée, mais aussi pour faciliter les échanges et le repérage d'information. Un aperçu des principales métadonnées nécessaires et de leur origine est utile.
Les éditeurs utilisent, de plus en plus, un standard d'identification unique des articles, le DOI (66). Cet identificateur permet entre autres de donner des adresses permanentes aux articles, ce qui facilite leur repérage et leur gestion. L'ajout d'un identificateur unique aux articles ouvre la porte à de nombreuses applications, y compris une navigation facilitée dans les références bibliographiques.
En effet, en apportant une réponse à la problématique des liens URL rompus (erreur 404), le DOI nous permet d'implanter électroniquement, et de façon pérenne, cette caractéristique fondamentale de l'édition savante, le recours aux citations. Le service CrossRef (67) a pour objectif de lier les références bibliographiques aux contenus des articles diffusés en ligne. On prévoit que d'ici la fin de l'an 2000, trois millions d'articles provenant de milliers de périodiques seront liés au moyen de CrossRef et que la croissance annuelle sera de 500 000 articles. Notons que les liens ne seront pas seulement entre des revues savantes mais pourront pointer vers des articles d'encyclopédie, des actes de colloque, des manuels scolaires, etc., ce qui permettra un enrichissement important de la lecture. CrossRef s'appuie fortement sur les DOI. L'utilisation des DOI et la participation à un service comme CrossRef s'imposent pour un portail de revues savantes ; nous proposons d'associer un DOI à chaque article.
Pour réaliser cette interopérabilité, le portail devra expédier un ensemble limité de métadonnées au serveur CrossRef, dans un format bien défini. Nos propres métadonnées seront suffisamment riches pour générer les éléments de métadonnées nécessités par CrossRef.
Dublin Core (68)
Dublin Core (DC) est le standard qui semble devoir s'imposer : il est le standard le plus avancé pour la description des ressources Internet. Élaboré depuis 1995 à Dublin en Ohio (siège de Online Computer Library Center), le développement du Dublin Core est assuré par le Dublin Core Directorate, supervisé par le OCLC Office of Research and Special Projects (69).
Le Dublin Core comprend 15 éléments de base pour décrire les ressources électroniques. Il est conçu autour de 5 principes fondamentaux, à savoir :
Ce modèle de métadonnées est déjà utilisé dans le milieu de l'édition savante. L'éditeur John Wiley & Sons, qui publie chaque année plus de 35 000 articles dans plus de 400 revues, en a fait son standard. Ces revues sont codées en SGML. L'en-tête (header material) comprend des informations sur la revue, le volume et le numéro, mais on y retrouve aussi le titre de l'article, l'auteur et son affiliation, le résumé, des mots-clés, la date de réception de l'article, etc (70). Une base de données de métadonnées, comprenant tous les articles publiés, a été constituée. Pour les champs pertinents, tous les éléments SGML ont été traduits directement en métadonnées Dublin Core Simple, par exemple Le portail de revues savantes devra adopter une pratique similaire ; les éléments Dublin Core seront obtenus en grande partie par extraction et conversion.
La norme PICS (71) (Platform for Internet Content Selection (72)) a été conçue à l'origine pour bloquer l'accès des enfants aux contenus offensants dans Internet. Toutefois, PICS permet aussi d'annoter nos articles au moyen de métadonnées qui seront utilisés par les moteurs de recherche pour déterminer, entre autres, le caractère académique de nos ressources. Ces normes sont conçues pour faciliter la recherche automatique d'informations dans le Web et permettront de sélectionner plus facilement l'information savante.
Toujours dans un cadre RDF, il sera possible d'insérer des métadonnées qui informeront les lecteurs des pratiques en matière de protection des renseignements personnels grâce au projet " Platform for Privacy Preferences " (P3P (73)). Par exemple, dans une transaction électronique, il sera possible d'informer les clients que leurs informations nominatives ne seront pas transmises à des tiers. Ces échanges d'information se feront automatiquement et de façon transparente entre le navigateur du client et le serveur Web. Cette norme est essentielle au développement de la confiance en matière de commerce électronique (" Web of trust "). Le portail devra suivre l'évolution de ce projet et éventuellement le mettre en pratique.
La mise en place de la chaîne de production technique suppose que le portail et les équipes de revue travaillent en phase. L'introduction de la publication électronique a nécessairement des implications pour les revues qui sont de deux ordres : elles concernent le travail éditorial et de préparation de la copie et elles ouvrent des perspectives nouvelles sur le contenu et les formes d'existence de la revue.
Les équipes de la revue poursuivent les mêmes activités éditoriales et ont la responsabilité de livrer au portail une copie, dont le contenu est prêt à publier. Pour que l'automatisation des procédés produise ses bénéfices, il faut pouvoir compter sur des textes dont le protocole de présentation est appliqué de façon rigoureuse. De plus, l'utilisation du langage structuré demande à ce que les textes soit préparés avec l'application d'une feuille de style. Si ce n'est pas la revue qui fait cette dernière préparation, le portail devrait s'en charger, mais il est de beaucoup préférable que la préparation de la copie se situe le plus près possible des auteurs et de la direction éditoriale, et donc de l'équipe de la revue. Il s'agit de tâches assez simples qui demandent un savoir-faire facile à acquérir dans le cadre d'une formation que le portail devrait donner.
Sur ce plan, l'impact le plus significatif pour l'équipe se manifesterait par l'adaptation des procédures de travail et par l'acquisition d'une formation assez légère. Par ailleurs, il faut pouvoir s'assurer que les revues possèdent des équipements informatiques de bon niveau pour exécuter les tâches attendues. Ces deux volets, formation et acquisition d'équipement, ont une incidence financière dont il faut tenir compte. On retrouve cette préoccupation dans plusieurs projets de publication électronique ; on peut citer, à titre d'exemple, J-Stage, Electronic Journal Publication & Dissemination Center (74). Ce sont plutôt des coûts d'implantation ou de démarrage, encore qu'un certain suivi dans la formation puisse s'avérer nécessaire avec le renouvellement des équipes de secrétariat.
La " fréquentation " des outils électroniques pour la production et la diffusion des revues va provoquer, sous l'influence notamment des auteurs mais aussi de l'usage des fonctionnalités nouvelles, un transfert par lequel la version électronique de la revue sera considérée comme la version première de référence. De là, une réflexion sur la façon de concevoir la revue, sa forme d'existence et les pratiques que cela peut induire devrait s'imposer. Cette réflexion et les innovations qu'elle peut susciter, dépendent de la sensibilité des directions de revue, mais certainement des secteurs disciplinaires et des types de document que cela suppose. C'est ainsi que, selon les secteurs, on jugera avec plus ou moins d'intérêt la possibilité d'intégrer dans le corps de la revue les fonctionnalités du multimédia, les liens hypertextes, des données dynamiques, etc.
Ajoutons que l'introduction des processus électroniques dans les activités de publication devrait participer à une ré-ingénérie des diverses étapes qui les ponctuent et de la façon de travailler, depuis la soumission des articles à leur diffusion en version électronique. Cette ré-ingénérie ne sera pas instantanée, mais elle devrait faire l'objet de collaborations entre les équipes du portail et des revues. Par exemple, on peut imaginer, comme c'est le cas pour le CNRC, que le portail puisse faire l'acquisition d'un système logiciel de monitoring informatisé pour l'ensemble du processus éditorial de la revue et pour sa production et que ce système soit diffusé auprès des revues. L'effet de l'introduction des processus électroniques ne sera certainement pas instantané et suivra des rythmes difficiles à prévoir pour le moment.
10 Voir la liste des sites visités dans le cadre de cette étude à l'annexe 3.1. On peut consulter aussi : Caroline Clément et Marc Bonvin, sous la direction de Françoise Khenoune. Les périodiques électroniques en sciences humaines et sociales, Mars 2000. http://www.unil.ch/BCU/recherch/l_art_bi.htm 11 Idéalement, cette étape devrait être réalisée par le secrétariat de rédaction de la revue. Toutefois, pour des raisons particulières, l'équipe du portail pourrait offrir ce service aux revues. 13 Lucien Paul Victor Febvre et Henri-Jean Martin, L'apparition du livre, Paris, Michel, 1971. 14 Voir notamment RDFPic. Adresse URL : http://jigsaw.w3.org/rdfpic/ 15 & 16 Creating Digital Ressources for the Visual Arts: Standards and Good Pratice. Adresse URL: http://vads.ahds.ac.uk/guides/creating_guide/sect32.html 17 Daniel Lecomte, et al., Les normes et les standards du multimédia, Paris, Dunod, 1999, p. 91. 18 A Basic Introduction to PNG Features. Adresse URL: http://www.libpng.org/pub/png/pngintro.html 19 Gary Cleveland, Selecting Electronic Document Formats, Juillet 1999. Adresse URL : http://www.ifla.org/VI/5/op/udtop11/udtop11.htm 20 On entend ici par " versions " essentiellement les mêmes contenus diffusés sur différents supports. On aura ainsi, la version électronique d'un article et sa version papier. Il pourrait arriver que la version électronique soit enrichie par rapport à la version papier, par exemple, par l'ajout d'iconographie couleur ou de données brutes. 21 Nous préconisons l'utilisation du format XML plutôt que le SGML afin de profiter des nombreuses applications XML disponibles. La norme SGML permet d'aller encore plus loin dans la structure et la gestion de l'information, mais ses fonctions additionnelles ne présentent aucun intérêt pratique pour le portail. 22 Le XML permet aussi de représenter des documents qui ne respectent pas un schéma particulier, seulement les règles syntaxiques d'XML. On parle ici de documents " bien formés " plutôt que " valides ". Toutefois, pour bâtir une chaîne de traitement XML, l'utilisation de schémas est essentielle, pour assurer une certaine cohérence à l'ensemble. 23 Jusqu'à maintenant, les schémas ont toujours été représentés, autant en XML qu'en SGML, par des DTD, soit des définitions de types de documents. Toutefois, une norme en construction du W3C (XML Schema, voir http://www.w3.org/XML/Schema.html) permet également de définir un format XML. Cette future norme est appelée à remplacer les DTD, mais pour l'instant l'utilisation de celles-ci est recommandée, en particulier dans les applications documentaires où les XML Schemas apportent peu de nouvelles fonctionnalités intéressantes. 24 Il s'agit d'une DTD développée pour l'industrie informatique, largement utilisée et bien adaptée aux documents textuels. Voir : http://www.docbook.org/. 25 Le projet " Text Encoding Initiative " a notamment donné comme résultat une DTD permettant de représenter des textes littéraires (et, par extension, tout document textuel). Voir http://www.uic.edu/orgs/tei/. 26 La norme ISO12083 contient quatre DTD, dont une permet de représenter des articles de revue. Pour en savoir plus : http://www.xmlxperts.com/12083.htm. 27 Rich Text Format, le format d'échange de Microsoft que l'on peut considérer comme strictement équivalent au format Word quant à l'information représentée, mais qui utilise une syntaxe différente plus facile à manipuler. 28 Produit de la société Omnimark Technologies, voir http://www.omnimark.com/. 29 Le XSL Transformations, norme du W3C, voir http://www.w3.org/TR/xslt.html. 30 Depuis la version 2000 des outils Office de Microsoft, il est possible de sauvegarder un document en format XML. Toutefois, ce format XML est difficile à manipuler, car il contient beaucoup d'information de présentation qui nous sont inutiles ainsi que de la logique. C'est pourquoi il est préférable de passer par d'autres outils. 31 Produit de la société TetraSys, voir http://www.tetrasys.fr/. 32 Produit de la société Infinity-Loop, voir http://www.infinity-loop.de/index.html. 33 Author self-archiving solutions, Herbert Van de Sompel, Carl Lagoze. 2000. " The Santa Fe Convention of the Open Archives Initiative. "D-Lib Magazine, vol. 6, no 2. http://www.dlib.org/dlib/february00/vandesompel-oai/02vandesompel-oai.html 34 Stevan Harnad, 1999. " Free at Last : The Future of Peer-Reviewed Journals. " D-Lib Magazine, vol. 5, no 12. http://www.dlib.org/dlib/december99/12harnad.html 35 Herbert Van de Sompel, Carl Lagoze, 2000. " The Santa Fe Convention of the Open Archives Initiative. " D-Lib Magazine vol. 6, no 2. http://www.dlib.org/dlib/february00/vandesompel-oai/02vandesompel-oai.html 38 Pour davantage d'informations sur l'Open Archives Initiative, consulter l'article suivant : Herbert Van de Sompel, Carl Lagoze (2000). " The Santa Fe Convention of the Open Archives Initiative. " D-Lib Magazine 6 (2). http://www.dlib.org/dlib/february00/vandesompel-oai/02vandesompel-oai.html 39 Stevan Harnad, 1999. " Free at Last : The Future of Peer-Reviewed Journals. " D-Lib Magazine, vol. 5, no 12. http://www.dlib.org/dlib/december99/12harnad.html 40 Arthur P. Smith 2000. " The journal as an overlay on preprint databases " Learned Publising, vol. 13, p.43-48. 41 Sur cette question, voir l'article de Rowland (http://www.ariadne.ac.uk/issue7/fytton/intro.html) où on identifie quatre fonctions fondamentales de la revue savante : communication de l'information, contrôle de la qualité, l'archivage canonique et la reconnaissance par les pairs. 42 Voir par exemple l'Index national des prépublications de mathématique en France. http://www-mathdoc.ujf-grenoble.fr/prepub.html 43 Voir par exemple CH Working Papers : Submission of papers. http://www.kcl.ac.uk/humanities/cch/chwp/submit.html et Guidelines for Submission to the Education-line database. http://www.leeds.ac.uk/educol/guide.htm 49 Mentionnons également au passage un autre type de document appelé " article expérimental " que l'on retrouve notamment sur le site des CHWP. Un article expérimental est une publication en ligne sans comité de lecture qui exploite les propriétés d'Internet et qui représente soit une recherche en cours, soit un instantané d'une idée en voie de développement. Pour plus de détails, voir http://www.kcl.ac.uk/humanities/cch/chwp/titles.html 50 Voir dans le chapitre 5 la distinction entre conservation et archivage. 51 Voir par exemple les CHWP http://www.kcl.ac.uk/humanities/cch/chwp/ 52 Voir à ce sujet : Jeff Grabmeier, " Texts on Computer Screens Harder to Understand, Less Persuasive ", Research News, août 2000. Adresse URL: http://www.acs.ohio-state.edu/units/research/archive/comptext.htm 53 Ce format d'impression est fort populaire mais propriétaire (la compagnie Adobe le contrôle). De plus, le format PDF (propriété d'Adobe également) est de plus en plus utilisé pour les tâches d'impression. Ces deux formats sont relativement semblables. 54 Produit de la société Quark, voir http://www.quark.com/. 55 Produit d'Adobe, voir http://www.adobe.com/. 56 Voir http://www.3B2.com/. 57 Produit d'Arbortext, voir http://www.arbortext.com/. 58 Matthew Gray, MIT, Internet Statistics; Growth and Usage of the Web and the Internet.. http://www.mit.edu/people/mkgray/net/. 59 Netcraft, August 2000 - Web Server Survey.. Adresse URL: http://www.netcraft.com/survey/Reports/0008/. 60 De plus, les chiffres cités par Netcraft ne sont qu'indicatifs car les sites répertoriés ne sont que des adresses primaires (www.mon_site.com); ils ne comptent pas les hébergés à cette même enseigne (www.mon_site.com/mon_site) ni les pages dynamiques, de plus en plus présentes dans Internet. 61 Steve C. Lawrenceet et Giles Lee, "Accessibility of Information on the Web", Nature, vol. 400, 8 juil. 1999. http://www.nature.com/. 62 Michael Dahn, "Counting Angels on a Pinhead : Critically Interpreting Web Size Estimates ", Online, January/February 2000, p. 35-40. Voir plus loin le commentaire concernant Web accessible/Web indexable. 63 Inktomi, News and Events. Adresse URL : http://www.inktomi.com/new/press/billion.html. 64 Steve C. Lawrence et Giles Lee, "Accessibility of Information on the Web", Nature, vol. 400, 8 juil. 1999. http://www.nature.com 65 Resource Description Framework, recommandation du W3C, voir http://www.w3.org/RDF/. 66 Digital Object Identifier, voir http://www.doi.org/ 67 Voir http://www.crossref.org/faqs.htm 68 Pour plus de détails, voir : Susan Haigh, "Le projet de métadonnées Dublin Core", Flash Réseau, no 63, décembre 1999. Adresse URL : http://www.nlc-bnc.ca/pubs/netnotes/fnotes63.htm 69 Cliff Morgan, "Journals metadata : information about content ", Learned Publishing, Vol. 12, no. 3, July 1999, p. 192 ; Jean Hudgins et al., Getting mileage out of Metadata, Application for the Library, Chicago, American Library Association, 1999, p. 14. 70 Cliff Morgan, "Journals metadata : information about content" , Learned Publishing, Vol. 12, no. 3, July 1999, p. 194. 71 Pour plus de détails, voir : Terry Kuny. "Filtrage du contenu d'Internet : plate-forme PICS, étiquettes et filtres". Flash Réseau no53, 23 mars 1998. Adresse URL: http://www.nlc-bnc.ca/pubs/netnotes/fnotes53.htm.
Et toutes les autres
Implications pour les revues
La préparation de la copie
La conception de la revue
Début de la page
Accueil
Précédent
Suivant