Revue québécoise de linguistique
Volume 32, numéro 1, 2003 TALN, Web et corpus Sous la direction de Louisette Emirkanian et Christophe Fouqueré
Sommaire (12 articles)
Articles
-
La formation des gentilés sur Internet
Elmar Eggert, Denis Maurel et Odile Piton
p. 25–39
RésuméFR :
L’article traite de la formation des gentilés (noms d’habitants) dont la forme paraît communément irrégulière, p. ex. Palois de Pau. Il montre que la formation des gentilés, construits par suffixation, est assez régulière en suivant principalement les processus réguliers comme la troncation, l’épenthèse et l’allomorphie. Après une brève délimitation du cadre des gentilés, la problématique de l’ignorance d’une part des gentilés est explicitée. Il en résulte qu’on observe la création de nouvelles formes gentiléennes sur Internet, où beaucoup de ces formations ont pu être recensées. Leur existence et leur forme constituent une preuve de la régularité de ce domaine.
EN :
This paper deals with the construction of the names of inhabitants in French. It seems to be generally irregular (e.g. Palois from Pau). It is shown that their construction, mainly by suffixation, is quite regular and follows regular processes such as truncation, epenthesis and allomorphy. After a short delimitation of the framework, the problem of lack of awareness of many of these names is presented. This is the reason why new forms for designation of inhabitants can be observed on the Web where many of these forms have been gathered. Their existence and form proves the regularity of the field.
-
Apport du Web dans la reconnaissance des entités nommées
Nordine Fourour et Emmanuel Morin
p. 41–60
RésuméFR :
Cet article présente une étude sur l’apport que peut fournir le Web dans la reconnaissance des entités nommées pour le français. Cette étude a engendré l’implémentation d’un nouveau module de notre système de reconnaissance des entités nommées (Némésis). Ce module nous a permis d’évaluer l’apport de l’utilisation du Web dans cette tâche et de dégager un certain nombre d’heuristiques pour ce module. Les performances atteintes par Némésis, sur l’ensemble des entités nommées, étaient de 79 % pour le rappel et 91 % pour la précision. Le gain en rappel s’élève à plus de 5 %, tandis que la perte en précision reste faible (environ 2 %).
EN :
This paper presents an investigation of the contribution that the Web offers for the recognition of proper names in French. This investigation generated the implementation of a new module of our proper name recognizer (Nemesis). This module allows us to evaluate the contribution of using the Web in this task and to set up some heuristics for this module. The Nemesis performances, evaluated on the whole set of Proper Names, achieves 91 % precision and 79 % recall. The use of the Web saves 5 % in recall, while the loss in precision remains weak at about 2 %.
-
Webaffix : une boîte à outils d’acquisition lexicale à partir du Web
Nabil Hathout et Ludovic Tanguy
p. 61–84
RésuméFR :
Nous présentons ici Webaffix, un outil qui permet de constituer et d’enrichir semi-automatiquement des données lexicales en utilisant le Web comme corpus. Il permet de détecter et d’analyser morphologiquement des unités lexicales nouvelles (c’est-à-dire absentes de listes de référence telles que les dictionnaires) construites par suffixation ou préfixation. Nous présentons les techniques utilisées par Webaffix, en déclinant les différents modes d’utilisation que nous avons envisagés et mis en pratique, ainsi que des exemples de résultats produits par diverses campagnes de collecte. Les données ainsi recueillies constituent des ressources lexicales pour différentes applications en traitement automatique des langues, mais également pour l’étude à grande échelle de la morphologie dérivationnelle.
EN :
This paper deals with the design and use of Webaffix, a tool for semi-automatically detecting new word forms from the World Wide Web. We focus mainly on new derived words, i.e. coined from other lexemes through suffixation and/or prefixation processes. We develop the techniques and methods used in Webaffix, along with a sample of results obtained via several studies on French. Resources such as the ones created through the use of Webaffix are useful not only for natural language processing and information retrieval tasks, but also for the linguistic study of word creation.
-
Le modèle Lstat : ou comment se constituer une base de données morphologique à partir du Web
Fiammetta Namer
p. 85–109
RésuméFR :
L’objectif de cet article est de présenter une méthode d’acquisition, d’organisation et d’interrogation de corpus textuels à partir de données et outils librement récupérables sur le Web (corpus de textes, lexiques, langages de programmation spécialisés, outils d’étiquetage et de lemmatisation). Nous nous intéressons ici plus particulièrement aux préoccupations des chercheurs en morphologie dérivationnelle, en proposant d’intégrer à la méthode présentée un module d’analyse morphologique dérivationnelle qui permet au linguiste de se constituer une base de données lexicale munie d’annotations morphosémantiques (que nous appellerons base de données morphologique, notée BDM). La méthodologie proposée sera illustrée tout au long de l’article par la présentation de Lstat, modèle de BDM utilisé avec un lexique de 27,5 millions d’occurrences issu d’archives de presse française en ligne, automatiquement téléchargées entre 2001 et 2002.
EN :
The aim of this paper is to present a method for text corpora acquisition, organization and query procedures. The method makes use of data and tools which are freely available on the Web, i.e. text corpora, lexica, specialized programming languages, taggers and lemmatizers. As the specific orientation of the method is to meet the needs of morphology researchers, we enrich it with a word formation processing module. This module enables the linguist to build a lexical database enhanced with morphosemantic annotations (i.e. a morphological database, henceforth BDM). The methodology is illustrated throughout the paper by means of the presentation of Lstat, a BDM model used with a lexicon of 27.5 million occurences, obtained from online French newspaper archives which were automatically downloaded between 2001 and 2002.
-
Corpus issus du Web : constitution et analyse informationnelle
Christophe Fouqueré et Fabrice Issac
p. 111–134
RésuméFR :
Comparé à d’autres sources d’informations (documents techniques, articles de journaux, ...), le Web est une source quasi infinie d’informations de toute nature. Cet avantage peut s’avérer contreproductif si une information pertinente se trouve noyée dans une masse d’informations diverses. Notre travail tente donc d’évaluer dans quelle mesure des techniques de traitement automatique du langage naturel peuvent aider dans la recherche d’informations lorsque la base de données textuelles est non organisée. Plus concrètement, notre étude vise la spécification de mécanismes de reformulation de requêtes. Nous tentons ici de décrire la méthodologie de constitution de corpus suivie, puis nous analysons la pertinence informationnelle des pages récupérables sur le web lorsqu’on fait varier la requête initiale.
EN :
Compared to other information sources (technical documents, news items), the Web offers almost unlimited access to an formation of all kinds. This advantage may be lost if relevant information is buried in the mass of texts. Our research attemps to evaluate how automated language analysis techniques can aid in the search for information in unorganized textual databases. Specifically our study examines the reformulation of search strings. We outline the method for constructing our corpus and then analyse the relevance of web pages retrieved when the initial search string is varied.
-
Variations morphologiques, syntaxiques, sémantiques et Repérage d’Information sur le Web
Louisette Emirkanian et Emmanuel Chieze
p. 135–154
RésuméFR :
Le repérage d’information sur le Web présente des défis particuliers, en raison de la grande variété de domaines, genres et styles des documents (ce qui augmente les phénomènes de polysémie, d’homonymie et de synonymie), et des types de requêtes utilisées, en général très courtes. En conséquence, les résultats d’une recherche sont souvent très nombreux et peu pertinents. Il faut donc trouver des approches intermédiaires : nous avons étudié les résultats de cinq requêtes de base et de variantes obtenues par enrichissement morphologique et synonymique, dans le but d’identifier des pistes valables de reformulation de requêtes. Nous avons porté une attention particulière au lien syntaxique entre les termes de la requête dans les documents et à son rapport avec la pertinence de ces termes, et effectivement constaté que la prise en compte de ce lien devrait permettre d’augmenter la précision des requêtes sans trop nuire à leur rappel.
EN :
Web information retrieval presents particular challenges due to the wide range of topics, genres and styles in web pages (which increase the frequency of polysemy, homonymy and synonymy) combined with the general use of very brief search strings, resulting in the retrieval of many pages with little relevance. A new approach must thus be found. We have studied the results from five basic queries and variations derived using morphological changes and synonyms in order to identify useful strategies for query reformulation. Our study pays particular attention to syntactic link between search terms in the documents and its connection to the relevance of these terms, and finds that taking this link into account improves the precision of the search without diminishing retrieval.
-
Un ensemble de ressources de référence pour l’étude du français : tlfi, frantext et le logiciel stella
Jean-Marie Pierrel
p. 155–176
RésuméFR :
Les recherches en traitement automatique des langues nécessitent de vastes ressources de référence : corpus textuels, dictionnaires informatiques, outils de traitement. Cette contribution présente les ressources linguistiques informatisées du laboratoire atilf (Analyse et Traitement Informatique de la Langue Française) accessibles sur la toile ainsi que leur diversité d’exploitation potentielle. Regroupant un ensemble de plus de 3600 textes de langue française réunis dans frantext et divers dictionnaires, lexiques et autres bases de données, ces ressources exploitent les fonctionnalités du logiciel stella, qui correspond à un véritable moteur de recherche dédié aux bases textuelles s’appuyant sur une nouvelle théorie des objets textuels.
EN :
Progress in linguistic research, especially in the field of automatic treatment, depends on access to a vast array of linguistic resources such as texts, dictionaries and software. This paper presents the computerized linguistic resources of the atilf Research Laboratory that are available on the Web and discusses the range of their potential uses. Consisting of a set of more than 3600 documents in French in the frantext database, as well as various dictionaries, lexicons, and other databases, these resources are accessed using the functions of stella, dedicated search engine software for textual databases based on a new theory of textual objects.
-
Procédures de désambiguïsation pour les systèmes de recherche d’information
Pierre-André Buvet, Fabienne Moreau et Max Silberztein
p. 177–197
RésuméFR :
Nous discutons de la nécessité de tenir compte de la polysémie nominale pour les systèmes de recherche d’information qui tiennent compte du contenu des textes numérisés. Nous présentons un prototype qui fonctionne en identifiant les substantifs d’un texte donné et en stipulant les domaines qui leur sont rattachés afin de faire ressortir une dominante, et ainsi de procéder au typage du texte en termes de domaine. Ce prototype a pour principale particularité d’utiliser le système intex et de faire appel aux descriptions formalisées du français effectuées au Laboratoire de Linguistique Informatique implémentées sous forme de dictionnaires électroniques et de grammaires locales. Nous montrons comment intex, en s’appuyant sur ces dictionnaires et ces grammaires, peut lever des ambiguïtés relatives à des substantifs.
EN :
We show how nouns ambiguity affects the quality of Information Extraction systems. We present the iris prototype, which identifies nouns in a text, associates each of them with one or more semantic domains, resolves domain ambiguities, and produces a resulting domain that characterizes the text. This prototype is built with intex, and uses the linguistic resources of the Laboratoire de Linguistique Informatique, implemented in the form of electronic dictionaries for classes of predicates and arguments, and local grammars. We show how intex can be used to integrate and process these resources, and how the resulting system can disambiguate nouns.
-
Construction de réponses coopératives : du corpus à la modélisation informatique
Farah Benamara et Patrick Saint-Dizier
p. 199–234
RésuméFR :
Les stratégies utilisées pour la recherche d’information dans le cadre du Web diffèrent d’un moteur de recherche à un autre, mais en général, les résultats obtenus ne répondent pas directement et simplement à la question posée. Nous présentons une stratégie qui vise à définir les fondements linguistiques et de communication d’un système d’interrogation du Web qui soit coopératif avec l’usager et qui tente de lui fournir la réponse la plus appropriée possible dans sa forme et dans son contenu. Nous avons constitué et analysé un corpus de questions-réponses coopératives construites à partir des sections Foire Aux Questions (FAQ) de différents services Web aux usagers. Cela constitue à notre sens une bonne expérimentation de ce que pourrait être une communication directe en langue naturelle sur le Web. Cette analyse de corpus a permis d’extraire les caractéristiques majeures du comportement coopératif et de construire l’architecture de notre système informatique webcoop, que nous présentons à la fin de cet article.
EN :
Algorithms and strategies used on the Web for information retrieval differ from one search engine to another, but, in general, results do not lead to very accurate and informative answers. In this paper, we describe our strategy for designing a cooperative question answering system that aims at producing the most appropriate answers to natural language questions. To characterize these answers, we collected a corpus of cooperative question in our opinion answer pairs extracted from Frequently Asked Questions. The analysis of this corpus constitutes a good experiment on what a cooperative natural language communication on the Web could be. This analysis allows for the elaboration of a general architecture for our cooperative question answering system webcoop, which we present at the end of this paper.