Présentation : TALN, Web et corpus[Record]

  • Louisette Emirkanian and
  • Christophe Fouqueré

…more information

  • Louisette Emirkanian
    Université du Québec à Montréal

  • Christophe Fouqueré
    Université de Paris XIII

Le Web peut être considéré à la fois comme un champ d’étude, une ressource et une base de données. Ces aspects liés au Web, faisant appel à des domaines divers de la linguistique, ont fait l’objet d’un colloque les 26 et 27 novembre 2002 à Saint-Denis, France, dont une sélection de neuf articles paraît dans ce numéro. Il est possible d’assimiler le Web à un simple corpus linguistique. Cette conception du Web est fondée sur deux de ses principales caractéristiques. D’une part, il apparaît comme un fond documentaire réellement représentatif des langues contemporaines au regard de sa masse considérable (en expansion perpétuelle), de l’extrême variété de ses textes (tant sur le plan thématique que sur le plan stylistique) et de la diversité sociologique de ses utilisateurs. D’autre part, il s’agit d’un médium spécifique sur plus d’un point, du fait de ses multiples fonctionnalités. Il en résulte de nouvelles pratiques qui ont d’importantes répercussions tant dans le domaine de la linguistique de corpus que dans celui du repérage ou de l’extraction d’informations. Mais cette utilisation du Web comme corpus soulève un certain nombre d’interrogations : le Web est-il vraiment une bonne source de données textuelles? Ces données peuvent-elles servir de base à une étude linguistique? Comment récupérer des données, quels sont les outils disponibles, comment traiter ces données, ces données sont-elles directement exploitables? C’est dans cette perspective que se situent nombre des travaux actuels en traitement automatique du langage. Ainsi, dans l’article de Eggert, Maurel et Piton, la validation des règles de formation des gentilés a été effectuée après recherche directe d’exemples et de contre-exemples sur le Web. De même, Fourour et Morin montrent l’intérêt du Web comme source de données dans une application de reconnaissance semi-automatique des entités nommées. Le Web sert alors de vaste corpus encyclopédique : si le contexte local d’une entité nommée ne permet pas sa classification, le Web peut permettre de trouver d’autres exemples d’emploi permettant cette catégorisation. Hathout et Tanguy, quant à eux, s’intéressent plus spécifiquement à la détection et à l’analyse d’unités lexicales construites par suffixation ou préfixation. Là encore, le Web est largement mis à contribution comme base d’exemples. La démarche n’est toutefois pas exempte de ses propres insuffisances. Ainsi, il n’y a pas un unique niveau de langue sur le Web : se côtoient des articles de journaux, des présentations de personnes ou de produits, des messages plus ou moins transcrits de l’oral. Qui plus est, les documents sont peu ou mal formatés. Leurs prétraitements sont dès lors inévitables. Ceux-ci sont abordés sous divers aspects dans plusieurs articles. Hathout et Tanguy explicitent les différentes étapes nécessaires pour que les occurrences d’unités lexicales soient exemptes d’erreurs (typographiques principalement). Namer effectue, elle aussi, une série de prétraitements en vue de constituer, à partir du Web, une base de données morphologiques. Bien au delà d’une simple nomenclature, l’automatisation tout autant que la taille du corpus permettent de constituer des données répondant à des critères fins : précision sur l’environnement lexical ou syntaxique des éléments recherchés, choix d’un procédé de formation particulier, etc. Avec des objectifs très différents, sur lesquels nous reviendrons, l’article de Fouqueré et Issac et celui de Emirkanian et Chieze exposent les démarches permettant effectivement de constituer un corpus à partir du Web et donnent des indications sur la pertinence informationnelle et thématique des documents obtenus. L’utilisation du Web comme source de données passe en effet par une analyse de la fiabilité de ces documents, et par une normalisation du contenu. Les opérations qui doivent être mises en place sont nécessaires mais délicates : toute modification de la source entraîne un …

Appendices