Résumés
Résumé
L’objectif de cet article est de présenter une méthode d’acquisition, d’organisation et d’interrogation de corpus textuels à partir de données et outils librement récupérables sur le Web (corpus de textes, lexiques, langages de programmation spécialisés, outils d’étiquetage et de lemmatisation). Nous nous intéressons ici plus particulièrement aux préoccupations des chercheurs en morphologie dérivationnelle, en proposant d’intégrer à la méthode présentée un module d’analyse morphologique dérivationnelle qui permet au linguiste de se constituer une base de données lexicale munie d’annotations morphosémantiques (que nous appellerons base de données morphologique, notée BDM). La méthodologie proposée sera illustrée tout au long de l’article par la présentation de Lstat, modèle de BDM utilisé avec un lexique de 27,5 millions d’occurrences issu d’archives de presse française en ligne, automatiquement téléchargées entre 2001 et 2002.
Abstract
The aim of this paper is to present a method for text corpora acquisition, organization and query procedures. The method makes use of data and tools which are freely available on the Web, i.e. text corpora, lexica, specialized programming languages, taggers and lemmatizers. As the specific orientation of the method is to meet the needs of morphology researchers, we enrich it with a word formation processing module. This module enables the linguist to build a lexical database enhanced with morphosemantic annotations (i.e. a morphological database, henceforth BDM). The methodology is illustrated throughout the paper by means of the presentation of Lstat, a BDM model used with a lexicon of 27.5 million occurences, obtained from online French newspaper archives which were automatically downloaded between 2001 and 2002.
Parties annexes
Références
- Aliquot-Suengas S. 1996 Référence collective / sens collectif. La catégorie du collectif dans les noms suffixés du lexique français, Thèse de doctorat, Université de Lille III.
- Amiot, D. 1997 L’antériorité temporelle dans la préfixation en français, Villeneuve d’Ascq, Presses Universitaires du Septentrion.
- Antoniotti, M. et Ch. Millon 2002 «Une expérience de constitution d’un corpus de référence du français contemporain à partir du Web», communication présentée au colloque TALN, Corpus et Web 2002, Villetaneuse.
- Baayen, H. 2001 Word Frequency Distributions, Dordrecht, Kluwer.
- Baayen, H. et R. Lieber 1991 «Productivity and English derivation : a corpus-based study», Linguistics 29-5: 801-843.
- Benamara F. et P. Saint-Dizier 2002 «Analyse et exploitation des données du Web par un extracteur dynamique de connaissances», communication présentée au colloque TALN, Corpus et Web 2002, Villetaneuse. [texte ici même]
- Berland, S. 2000 Constitution de corpus à partir du Web pour l’acquisition terminologique : une expérience, mémoire de DESS Ingénierie Multilingue, Paris, INALCO.
- Buvet, P-A, F. Moreau et M. Silberztein 2002 «INTEX et la recherche d’informations», communication présentée au colloque TALN, Corpus et Web 2002, Villetaneuse. [texte ici même]
- Corbin, D. 1987 Morphologie dérivationnelle et structuration du lexique, 2 vol., Tübingen, Niemeyer; 2e éd., 1991, Villeneuve d’Ascq, PUL.
- Corbin, D. 1991 «Introduction : la formation des mots, structures et interprétations», Lexique 10, Villeneuve d’Ascq, PUL, p. 7-30.
- Corbin, D. 1997 «Décrire un affixe dans un dictionnaire», dans G. Kleiber, M. Riegel et coll., Les formes du sens. Études de linguistique française, médiévale et générale offertes à Robert Martin à l’occasion de ses 60 ans, Louvain-la-Neuve / Paris, Duculot, p. 79-94.
- Corbin, D. 2000a «Pour en finir avec la parasynthèse», dans G. Kleiber, J.-C. Pellat, C. Buridant et coll., Mélanges de grammaire et de linguistique française en hommage au professeur Martin Riegel.
- Corbin, D. 2000b «French (Indo-European : Romance)», dans G. Booij, C. Lehmann, J. Mugdan et coll., Morphology. A Handbook on Inflection and Word Formation, Berlin / New-York, Walter de Gruyter.
- Corbin, D. 2000c «Préfixes et suffixes : du sens aux catégories», Journal of French Linguistic Studies 11-1 : 41-69.
- Daille, B., C. Fabre et P. Sébillot 2002 «Applications of Computational Morphology», dans Many Morphologies, Somerville (Mass.), Cascadilla Press, p. 210-234.
- Dal, G. 1997a Grammaire du suffixe -et(te), Paris, Didier, coll. Érudition.
- Dal, G. 1997b «Du principe d’unicité catégorielle au principe d’unicité sémantique : incidence sur la formalisation du lexique construit morphologiquement», dans P.-A. Buvet, S. Cardey, P. Greenfield, H. Madec et coll., Actes du colloque international Fractal 1997, BULAG numéro spécial, p. 105-115.
- Darmoni, S. et coll. 2003 «VUMeF : Extending the French Involvement in the UMLS Metathesaurus», AMIA 2003, Washington, p.824.
- Eggert, E., D. Maurel et O. Piton, 2002 «La formation des gentilés sur Internet», communication présentée au colloque TALN, Corpus et Web 2002, Villetaneuse. [texte ici même]
- Émirkanian, L. et E. Chieze 2002 «Variations morphologiques, sémantiques et RI sur le Web», communication présentée au colloque TALN, Corpus et Web 2002, Villetaneuse. [texte ici même]
- Fairon, C. 2000a «Parsing a Web Site as a Corpus», dans C. Fairon et coll., Analyse lexicale et syntaxique : le système INTEX, Amsterdam, Benjamins.
- Fairon, C. 2000b «GlossaNet, un agent de veille. Utilisation de ressources linguistiques pour la recherche d’information sur le Web», dans Ch. Jacquemin et coll. Traitement automatique des langues pour la recherche d’Information, Revue TAL 41-2, Paris, Klincksieck.
- Fouqueré, Ch. et F. Issac 2002 «Pertinence thématique de variations de requêtes», communication présentée au colloque TALN, Corpus et Web 2002, Villetaneuse. [texte ici même]
- Fourour N. et E. Morin 2002 «Apport du Web dans la reconnaissance d’entités nommées», communication présentée au colloque TALN, Corpus et Web 2002, Villetaneuse. [texte ici même]
- Fradin, B. 1994 «L’approche à deux niveaux en morphologie computationnelle et les développements récents de la morphologie», Revue TAL 35-2 : 9-48, Paris, Klincksieck.
- Fradin, B. 2003 Nouvelles approches en morphologie. Paris, PUF.
- Grabar,N. et S. Berland 2001 «Construire un corpus web pour l’acquisition terminologique», communication aux Journées TIA, Nancy.
- Grabar, N. et P. Zweigenbaum, 2003 «Productivité à travers domaines et genres : dérivés adjectivaux et langue médicale», dans G. Dal et coll. «La productivité en questions et en expérimentations», Langue Française 140 : 102-125.
- Grefenstette, G. et J. Nioche 2000 «Estimation of English and non-English language use on the WWW», dans Proceedings of RIAO 2000 : Content-Based Multimedia Information Access, p. 237-246, Paris, C.I.D.
- Gruaz C. Ch. Jacquemin et E. Tzoukermann 1996, «Une approche à deux niveaux de la morphologie dérivationnelle du français», dans Séminaire Lexique du GDR-PRC Communication Homme-Machine, p. 107-114, Grenoble.
- Hathout, N., F. Namer et G. Dal 2002 «An experimental Constructional Database : The MorTAL Project», dans P. Boucher et coll. Many Morphologies, Somerville (Mass.), Cascadilla Press, p. 178-209.
- Hathout, N. et L. Tanguy 2002 «Vers une autodétection des webnéologismes», communication présentée au colloque TALN, Corpus et Web 2002, Villetaneuse. [texte ici même]
- Heiden, S. et P. Lafon 2002 «Lectures assistées de l’Encyclopédie électronique : philologic et Weblex», dans Recherches sur Diderot et sur l’Encyclopédie, p. 91-102.
- Karttunen, L. 1983. «KIMMO : A general morphological processor.» Linguistic Forum 22 : 163-186.
- Kerleroux, F. 1996 La coupure invisible, Presses Universitaires du Septentrion, Lille.
- Kerleroux, F. 1997 «De la limitation de l’homonymie entre noms déverbaux convertis et apocopes de noms déverbaux suffixés», Lexicales 1 : 163-172, Lille.
- Kerleroux, F. 2000 «Identification d’un procédé morphologique : la conversion», Faits de Langue 14 : 89-100.
- Krott, A., H. Baayen et R. Schreuder 1999 «Complex words in complex words», Linguistics 37-5 : 905-926.
- Lebarbé, T. 2002 «Validation des relations de dépendance par la cooccurrence sur Internet : présentation critique», communication présentée au colloque TALN, Corpus et Web 2002, Villetaneuse.
- Namer, F. 2000 «Flemm, un analyseur flexionnel du français à base de règles», TAL 41 –2 : 523-548, Paris, Hermès.
- Namer, F. 2002 «Acquisition de sens à partir d’opérations morphologiques en français : étude de cas», Actes de TALN 02, Nancy, p.235-244.
- Namer, F 2003a «WaliM : valider les unités morphologiques par le Web», dans Silexicales «Les Unités morphologiques», Lille, p. 142-150.
- Namer F. 2003b «Productivité morphologique, représentativité et complexité de la base : le système MoQuête», dans G. Dal et coll. La productivité en questions et en expérimentations, Langue Française 140 : 79-101.
- Namer F. à paraître 2004a «Automatiser l’analyse morphosémantique non affixale : le système DériF», Cahiers de Grammaire 28, Toulouse.
- Namer F. à paraître 2004b «Acquisizione automatica di semantica lessicale in francese: il sistema di trattamento computazionale della formazione delle parole DériF», dans Atti del 27o Congresso Internazionale della Società di Linguistica Italiana, L’Aquila.
- Namer F. et P. Zweigenbaum à paraître 2004 «Acquiring meaning for French medical terminology: contribution of morphosemantics», dans Proceedings of MEDINFO 2004, San Francisco.
- Plénat, M. et M. Roché 2000 «Prosodic constraints on suffixation in French». À paraître dans Proceedings of the Third Mediterranean Morphology Meeting, Barcelone.
- Rey, A. et coll. 1998 Le Robert- Dictionnaire Historique de la langue française, Paris.
- Schmid, H. 1994 «Probabilistic Part-of-Speech Tagging Using Decision Trees», dans Proceedings of the International Conference on New Methods in Language Processing, p. 44-49, Manchester.
- Sproat, R., 1992 Morphology and Computation, Cambridge (Mass.), MIT Press.
- Tanguy, L. et Hathout, N. 2002 «Webaffix : un outil d’acquisition morphologique dérivationnelle à partir du Web», Actes de TALN02, Nancy, p. 245-254.
- Tazine, C. 2002 «Création automatique de modèle de langage n-grammes depuis Internet par une mesure de distance», communication présentée au colloque TALN, Corpus et Web 2002, Villetaneuse.
- Temple, M. 1996 Pour une sémantique des mots construits, Villeneuve d’Ascq, Presses Universitaires du Septentrion.
- Torzec, N. 2002 «Construction d’un corpus électronique annoté dédié au traitement linguistique des messages électroniques», communication présentée au colloque TALN, Corpus et Web 2002, Villetaneuse.
- Zweigenbaum, P. et coll. 2003a «Towards a Unified Medical Lexicon for French», dans Proceedings of MIE 2003, Saint-Malo, p. 415-420.
- Zweigenbaum, P. et coll. 2003b «UMLF : a Unified Medical Lexicon for French», dans Proceedings of AMIA 2003, Washington, p. 1062.