Documentation et bibliothèques
Volume 38, Number 2, April–June 1992 Analyse et gestion de l’information textuelle Guest-edited by Suzanne Bertrand-Gastaldy
Table of contents (12 articles)
Analyse de l’information textuelle
-
SATO : un philologue électronique
Jean-Guy Meunier
pp. 65–69
AbstractFR:
Le système d’analyse de textes par ordinateur SATO est un logiciel fondé sur des théories spécifiques de l’information où celle-ci est conçue d’un point de vue sémiotique, c’est-à-dire comme un système qui traite des données symboliques interprétables. En conséquence SATO ne peut être vu comme un système expert effectuant un traitement automatique. Il opère plus comme un adjuvant au travail de lecture et d’interprétation par un être humain. En ce sens, il est vu comme une aide dans la lecture philologique des textes.
EN:
The Système d'analyse de textes par ordinateur (SATO) is a software based on the specific theories of information and conceived from a semiotic point of view; that is, a system that processes signs. Consequently, SATO cannot be seen as an expert system with automatic processing. It assists, instead, the human being in reading and interpretation. As such, it is an aid to the philologic reading of texts.
ES:
El sistema de análisis de textos por computadora, SATO, es un programa basado en teorías específicas de información y está diseñado desde un punto de vista semiótico, es decir como un sistema que trata datos simbólicos interpretables. Por lo tanto, SATO no puede considerarse como un sistema especializado en un tratamiento automático de datos, ya que opera más bien como un colaborador en el trabajo de lectura e interpretación humanas. Es en este sentido que se lo considera una ayuda a la lectura filológica de textos.
-
La condensation et l’indexation : l’apport des approches de type textuel
Luc Jodoin
pp. 71–74
AbstractFR:
L’auteur analyse les processus de condensation et d’indexation à la lumière des théories sémiotiques. Il dresse un tableau sommaire de l’évolution de ces analyses de type textuel et montre en quoi elles permettent de rendre compte des processus d’extraction de concepts lors de l’analyse documentaire. Une approche est proposée dans le but de dépasser l’opposition entre les analyses centrées sur le texte et celles centrées sur le seul lecteur. Il est suggéré d’orienter les pratiques de traitement de l’information en intégrant la notion de « Lecteur modèle » de Umberto Eco et en tenant compte des contextes de communication propres aux différents domaines du savoir.
EN:
Using the theories of semiotics as a backdrop, the author analyses the processes of condensation and indexation. He provides a thumbnail sketch of the progress of the textual theories and demonstrates how they extract concepts during subject analysis. A new approach is put forward as a compromise between text-based analyses and reader-based analyses. It is suggested that practices be oriented toward information analysis integrated with Umberto Eco's reader model. The communication contexts of each sphere of human knowledge must also be taken into consideration.
ES:
El autor analiza los procesos de condensación e indexación desde el punto de vista de las teorías semióticas. Hace un cuadro sinóptico de la evolución de esos análisis textuales y muestra de qué manera permiten dar cuenta del proceso de extracción de conceptos durante el análisis de un documento. Se propone un enfoque para eliminar la oposición que existe entre los análisis de textos y los centrados en el lector único. Se sugiere la orientación de prácticas de tratamiento de información, integrando la noción de "lector modelo" de Umberto Eco y tomando en consideración los contextos de comunicación propios de los diferentes campos del saber.
-
L’analyse du contenu textuel en vue de la construction de thésaurus et de l’indexation assistées par ordinateur; applications possibles avec SATO
Suzanne Bertrand-Gastaldy and Gracia Pagola
pp. 75–89
AbstractFR:
L’intervention de l’ordinateur, longtemps réservée aux tâches mécaniques effectuées en aval de l’analyse des documents et de la constitution des thésaurus, se déplace en amont vers l’analyse elle-même. Des logiciels existent désormais qui assistent l’exploration des textes. On montre comment SATO (système d’analyse de textes par ordinateur), utilisé par des chercheurs de plusieurs disciplines, peut faciliter les tâches de contrôle et de structuration du vocabulaire ainsi que l’indexation. On présente ses caractéristiques importantes : possibilité d’ajouter des propriétés aux mots et aux segments textuels, génération de lexiques, analyses lexico-statistiques diverses, définition de sous-ensembles de textes et de lexiques. On examine ensuite l’aide apportée dans l’élaboration de thésaurus : extraction d’unités lexicales simples et complexes, pondération pour faciliter le choix, regroupements divers, repérage en contexte de formes équivalentes, de synonymes, de termes génériques et spécifiques, de termes associés. L’indexation assistée par ordinateur est également illustrée, avec des perspectives d’analyse « sur mesure », de même que plusieurs stratégies d’interrogation. On conclut sur la nécessité de résoudre les questions théoriques auxquelles l’analyse du contenu confronte désormais les spécialistes de l’information.
EN:
The use of the computer, formerly reserved for the mechanical manipulation prior to subject analysis and thesaurus construction, is now shifting toward the analysis itself. Current software is now capable of assisting subject analysis. The authors demonstrate how SATO (Système d’analyse de textes par ordinateur), used by researchers in several fields, can help in the tasks of vocabulary control and structure as well as indexation. Its principle characteristics are outlined: the possibility of adding the characteristics of words and parts of the text, the creation of glossaries, various glossary-based statistical analyses, the definition of sub-sets of texts and glossaries. They then examine the aid used in thesaurus construction: the extraction of simple and complex glossary units, weighed to assist in the choice, assorted groupings, contextually equivalent forms retrieved, synonyms, generic and specific terms, associated terms. Computer-assisted indexation is also outlined along with "tailor-made" subject analysis, and search strategies. The conclusion calls for the necessity to resolve the theoretical questions of subject analysis currently facing information specialists.
ES:
La intervención de la computadora, durante mucho tiempo reservada a tareas mecánicas efectuadas para el análisis de documentos y la elaboración de un diccionario de sinónimos, se dirige hacia el análisis propiamente dicho. Actualmente hay programas que asisten en la exploración de textos. Se muestra de qué manera SATO (sistema de análisis de textos por computadora), utilizado por los investigadores de numerosas disciplinas, puede facilitar las tareas de control y estructuración del vocabulario e índices. Se presentan las características importantes: posibilidad de agregar propiedades a las palabras y a los segmentos textuales, producción de léxicos, análisis léxico-estadísticos diversos, definición de subconjuntos de textos y léxicos. A continuación se examina la ayuda que aporta en la elaboración del diccionario de sinónimos: extracción de unidades léxicas simples y complejas, ponderación para facilitar la selección, reagrupamientos diversos, localización en contexto de formas equivalentes, sinónimos, términos genéricos y específicos y términos asociados. Se ilustra igualmente la indexación asistida por computadora, con perspectiva de análisis "a medida", y numerosas estrategias de interrogación. Se concluye con la necesidad de resolver los aspectos teóricos sobre el análisis del contenido a los cuales habrán de enfrentarse a partir de ahora los especialistas de la información.
-
L’apport des dictionnaires électroniques pour l’élaboration de thésaurus
Serge Houde
pp. 91–95
AbstractFR:
Les dictionnaires lisibles par machine ont fait l’objet de plusieurs recherches orientées vers leur utilisation pour la construction automatique de thésaurus et de bases de données lexicales. Le compte rendu de ces recherches fait état des méthodes utilisées pour l’extraction automatique des informations contenues dans ces dictionnaires et précise la nature des données ainsi recueillies. L’auteur présente un projet de recherche utilisant le Robert électronique sur CD-ROM et mené à l’École de bibliothéconomie et des sciences de l’information de l’Université de Montréal dans le profil « Analyse de l’information et bases de données ». Ce projet consiste à construire, à l’aide du logiciel SATO et à partir d’une liste de termes du thésaurus du Centre des Données sur les émissions du Service de l’Information de Radio-Canada, un thésaurus contenant seulement les informations fournies par le dictionnaire et à le comparer au thésaurus-source.
EN:
Much research has been done on the use of online dictionaries in the automatic construction of thesauri and glossaries. An account of this body of research outlines the methodologies used to extract the information contained in these dictionaries and clarifies the nature of the data retreived. The author presents a research project using the CD-ROM version of the dictionary Robert, which he carried out for the course « Analyse de l'information et bases de données » at the École de bibliothéconomie et des sciences de l’information at the Université de Montréal. Using the software SATO and a list of terms from the thesaurus of the Centre des Données sur les émissions du Service de l’Information de Radio-Canada, the project's aim was to build a thesaurus using the information found in the dictionary and to compare it to the source-thesaurus.
ES:
Los diccionarios legibles con máquinas han sido muy estudiados en investigaciones orientadas hacia su utilización para la elaboración automática del diccionario de sinónimos y base de datos léxicos. El resumen de esas investigaciones da muestra de los métodos utilizados para extraer automáticamente las informaciones de los diccionarios mencionados y precisa la naturaleza de los datos recopilados de esa manera. El autor presenta un proyecto de investigación que se vale del Robert electrónico en DC-ROM y se llevó a cabo en la Escuela de biblioteconomía y de las ciencias de la información de la Universidad de Montreal: "Análisis de información y bases de datos". Este proyecto consiste en elaborar, mediante el programa SATO y a partir de una lista de términos del diccionario de sinónimos del Centro de Datos sobre las emisiones del Servicio de Información de Radio Canadá, un diccionario de sinónimos que contenga únicamente las informaciones suministradas por el diccionario al tiempo que se compara con el diccionario de sinónimos que sirvió de fuente.
-
L’analyse documentaire et les langages de spécialité : un filon à exploiter ?
Patrick Cossette
pp. 96–102
AbstractFR:
Depuis plus de vingt ans, les recherches sur les langages dits de spécialité ont ouvert de nouvelles pistes dans l’exploration du langage naturel. De contenu délibérément homogène pour mettre en valeur le message qu’ils véhiculent, ils sont identifiables tant par leur structure que par leur syntaxe et leur lexique. À partir d’une expérience portant sur des rapports d’analyse environnementale et réalisée avec le logiciel SATO, différentes classes de termes tirées de ces textes sont récupérées. En sondant ainsi les mécanismes de composition des documents grâce au principe des langages de spécialité, il est possible d’entrevoir des améliorations aux techniques d’analyse documentaire.
EN:
For more than twenty years, the research into sublanguages has opened new opportunities in the investigation of natural language. Deliberately homogenous in order to highlight the content, they are recognizable by their structures, syntaxes and vocabularies. Based on an experience using environmental analysis reports with the software known as SATO, different classes of terms pulled from the texts are retreived. In examining the mechanisms of document composition with sublanguages, it is possible to propose improvements to the techniques of subject analysis.
ES:
Desde hace más de veinte años, los investigadores sobre los lenguajes especializados han abierto nuevas huellas en la exploración del lenguaje natural. Dado su contenido deliberadamente homogéneo, para poner de relieve el mensaje que transmiten, esos lenguajes especializados son identificables tanto por su estructura como por la sintaxis y el léxico. A partir de una experiencia realizada sobre los informes de análisis ambiental y obtenida con el programa SATO, se recuperaron diferentes clases de términos extraídos de esos textos. AI investigar de este modo los mecanismos de composición de documentos, gracias al principio de los lenguajes de especialización, es posible entrever las mejoras producidas en el análisis de documentos.
-
L’analyse de références bibliographiques assistée par ordinateur
Marcel Ouellet
pp. 103–109
AbstractFR:
Comment traiter et analyser à l’aide de l’ordinateur des résultats d’interrogation de bases de données bibliographiques pour étudier les caractéristiques de la littérature sur un sujet donné ? C’est la question à laquelle cette recherche tente de répondre en prenant pour sujet les aspects cognitifs en sciences de l’information. La démarche réalisée se compose de quatre étapes principales soit : 1) la collecte des données (références bibliographiques extraites de LISA et de ERIC); 2) le traitement (tri, codification, uniformisation et fusion) des données recueillies; 3) l’analyse des données traitées pour en extraire les caractéristiques de la littérature; et 4) la présentation et l’utilisation des résultats de l’analyse. Lors de l’application de cette méthode, deux logiciels ont surtout été utilisés : un traitement de texte (WordPerfect) et un système d’analyse de texte (SATO).
EN:
How can the bibliographic references retrieved from data bases be analysed in order to study the characteristics of the literature of a given subject? The following research attempts to answer that question using the cognitive aspects of information science. The procedure consisted of four steps: 1) the retrieval of the data (bibliographic references found in LISA and ERIC); 2) the manipulation of this data (sorting, codification, standardisation and merging); 3) the analysis of the data in order of draw conclusions regarding the characteristics of the literature; and 4) the organisation and use of the results of the analysis. The methodology required two programmes: a word processing software (WordPerfect) and a text analysis software (SATO).
ES:
¿Cómo tratar y analizar con ayuda de la computadora, los resultados de la interrogación de bases de datos bibliográficos para estudiar las características de la literatura sobre un tema dado? Esta investigación trata de responder a esa pregunta, tomando como tema los aspectos cognitivos en las ciencias de la información. El estudio se compone de cuatro etapas principales: 1) la recopilación de datos (referencias bibliográficas extraídas de LISA y ERIC); 2) el tratamiento (selección, codificación, uniformización y fusión) de los datos recopilados; 3) el análisis de los datos tratados para extraer de los mismos las características de la literatura; y 4) la presentación y utilización de los resultados del análisis. Durante la aplicación de este método, se utilizaron sobre todo dos programas: uno de tratamiento de texto (WordPerfect) y un sistema de análisis de texto (SATO).
Gestion de l’information textuelle
-
Besoins et défis en gestion de l’information textuelle
Richard Parent
pp. 111–114
AbstractFR:
Dans l’informatisation des bureaux, l’heure d’organiser la gestion des données textuelles est arrivée. Cet article aborde quelques aspects du défi à relever : comment caractériser les besoins au niveau de l’organisation et ceux des individus qui y travaillent ? Quel est le modèle général d’une application en repérage textuel ? Comment combiner l’approche textuelle avec l’approche des systèmes experts ? Quels sont les autres ingrédients d’un système intégré d’information administrative ? Et quelle sorte de changements organisationnels et socio-professionnels semblent souhaitables ?
EN:
With office automation in high gear, it would seem that the time has come to organise the management of full-text data. This article identifies the various aspects of the challenge: how to describe the organisation's needs as well as those of the individuals who work for the organisation? What is the general model applied to full-text retrieval? How is the textual approach reconciled with the approach of expert systems? What are the other constituent parts of an integrated administrative information system? What organisational and socio-professional changes appear desirable?
ES:
En la informatización de las oficinas ha llegado el momento de organizar la administración de datos textuales. Este artículo trata ciertos aspectos del reto que esto representa: ¿cómo caracterizar las necesidades a nivel de la administración y de los individuos que trabajan en ella? ¿Cuál es el modelo general de una aplicación de localización textual? ¿Cómo combinar el enfoque textual con el de los sistemas especializados? ¿Cuáles son los otros ingredientes de un sistema integrado de informatización administrativa? ¿Qué clase de cambios organizativos y socioprofesionales parecen deseables?
-
VIXIT : un système d’analyse et de repérage de l’information textuelle pour la gestion des ressources humaines
Maurice Gingras
pp. 115–116
AbstractFR:
Le système VIXIT est destiné à rendre disponible une banque de textes de plusieurs dizaines de milliers de pages concernant la gestion des ressources humaines au sein de la Fonction publique du Québec. Les fonctionnalités de SATO (système d’analyse de textes par ordinateur) sont utilisées pour assister l’indexation en vocabulaire contrôlé des divers segments textuels et complétées par les fonctionnalités de SECONDE pour gérer le thésaurus et permettre une interrogation conviviale. L’auteur expose les paramètres de réalisation et les bénéfices retirés.
EN:
The VIXIT system is designed to facilitate the access to a data base of several thousand pages of text concerning human resource management in the Québec civil service. The functions of SATO (Système d’analyse de texte par ordinateur) are used to assist the indexation, using a controlled vocabulary in the various segments of the texts. SECONDE is used to manage the thesaurus, and searching is user-friendly. The author outlines the boundaries of the project and the net benefits.
ES:
El sistema VIXIT está destinado a crear un banco de textos de miles de páginas relacionadas con la administración de los recursos humanos en el seno de los funcionarios gubernamentales de Quebec. Se utilizan las diversas funciones de SATO (Sistema de análisis de textos por computadora) para indexar con vocabulario controlado varios segmentos textuales y se completa con las diversas funciones de SECONDE para elaborar un diccionario de sinónimos y permitir interrogaciones compatibles. El autor expone los parámetros utilizados y los beneficios obtenidos.
-
SAGÉE : un développement informatique adapté aux besoins en gestion de l’information de la Direction des évaluations environnementales
Yves Rochon
pp. 117–126
AbstractFR:
Au ministère des Communications du gouvernement du Québec, on a développé une solution originale pour assister les chargés de projets dans l’analyse et le repérage d’une information abondante et de nature essentiellement textuelle. Le système d’aide à la gestion des évaluations environnementales (SAGÉE) s’appuie sur une combinaison d’approches et de technologies (micro-informatique, système expert, hypertexte, bases de données textuelles et bases de données documentaires, entre autres). Ces solutions répondent à la multiplicité des besoins exprimés et aux caractéristiques des données à gérer. Les systèmes développés sont présentés dans un tableau synoptique qui indique également les investissements techniques et humains consentis ainsi que les bénéfices retirés. Des explications sont fournies sur le Système d’information sur les dossiers de la Direction des évaluations environnementales (SIDDÉE), sur la bibliothèque électronique des documents produits par la Direction, sur la base de données EVALEN destinée à faciliter l’accès aux documents techniques et scientifiques, sur le système d’analyse de textes par ordinateur SATO et finalement sur le système d’aide à l’élaboration de la directive. De nombreux tableaux illustrent le propos.
EN:
At the ministère des Communications of the Government of Québec, an original solution was devised to assist project coordinators in the analysis and the retrieval of a mass of full-text information. The Système d'aide à la gestion des évaluations environnementales (SAGÉE) is based on a combination of approaches and technologies (microcomputing, expert systems, hypertext, full-text data bases and bibliographic data bases). The solutions met the various needs and characteristics of the data to be managed. The systems are outlined in a tabular form that indicate the technical and human requirements as well as the benefits. Further information is provided on the Système d'information sur les dossiers de la Direction des évaluations environnementales (SIDDÉE), the electronic library of documents produced by the Department, the EVALEN data base which provides access to the technical and scientific documents, SATO (Système d'analyse de textes par ordinateur), and the assistance system that generates the directive. Several tables support the article.
ES:
En el Ministerio de Comunicaciones del Gobierno de Quebec se ha elaborado una solución original para asistir a los encargados de proyectos a analizar y localizar información abundante y de naturaleza esencialmente textual. El sistema de ayuda a la administración de evaluaciones ambientales (SAGÉE) se basa en una combinación de enfoques y de tecnologías (microinformática, sistema, especializado, hipertexto, bases de datos textuales y documentales, etc). Estas soluciones responden a la multiplicidad de las necesidades expresas y a las características de los datos que deben administrarse. Los sistemas elaborados se presentan en un cuadro sinóptico que indica también las inversiones técnicas y humanas y los beneficios obtenidos. Se explica el Sistema de información para expedientes de la Dirección de Evaluaciones Ambientales (SIDDÉE), la biblioteca electrónica de los documentos que produce la Dirección, la base de datos EVALEN, destinada a facilitar el acceso a los documentos técnicos y científicos, el sistema de análisis de textos por computadora SATO y, finalmente, en el sistema de ayuda a la elaboración de directivas. Los ejemplos se ilustran en numerosos cuadros.