Résumés
Résumé
Cet article présente les aspects linguistiques utilisés par les informaticiens pour créer des systèmes de reconnaissance automatique de noms propres. Ces systèmes doivent non seulement repérer correctement les noms propres dans les textes mais aussi leur donner une catégorie (lieux, personnes, organisations…). Nous montrerons les différents indices utilisés ainsi que les difficultés liées à cette tâche.
Mots-clés/Keywords:
- catégorie,
- nom propre,
- Prolex,
- reconnaissance automatique,
- traitement des ambiguïtés
Abstract
This article presents the linguistic aspects used by computer scientists to create systems to automatically recognize proper names. Those systems must locate correctly proper names but, moreover, they must give a categorization (places, persons, organisations…). We will show the different clues and difficulties linked to this task.
Parties annexes
Références
- Bauer, G. (1998) : Deutsche Namenkunde, Berlin, Weidler Buchverlag.
- Daille, B. et E. Morin (2000) : « Reconnaissance automatique des noms propres de la langue écrite : les récentes réalisations », Traitement Automatique des Langues 41-3, p. 601-621.
- Dister, A. (1997) : « Problématique des fins de phrase en traitement automatique du français », in Dehays, J., Rosier, L. et F. Tilkin (eds) Champs Linguistiques, Paris, Duculot.
- Eggert, E., Maurel, D. et Belleil, C. (1998) : « Allomorphies et supplétions dans la formation des gentilés : application au traitement informatique », Cahiers de lexicologie 73-2, p. 167-179.
- Fairon, C. (2000) : Structures non-connexes. Grammaire des incises en français : description linguistique et outils informatiques, Thèse de doctorat en informatique, Université Paris 7.
- Forsgren, M. (1994) : « Nom propre, référence, prédication et fonction grammaticale », in Noailly, M. (éd.), Nom propre et nomination (Actes du colloque de Brest), p. 95-106.
- Fourour, N. (2002) : « Nemesis, un système de reconnaissance incrémentielle des entités nommées pour le français », Actes de TALN’2002, Nancy, p. 265-274.
- Friburger, N. (2002) : « Cascade de transducteurs pour INTEX : Un nouvel outil », In 5es Journées Intex, Marseille, 11-12 juin 2002.
- Friburger, N. et D. Maurel (2001) : « Finite-State Transducer Cascade To Extract Proper Nouns in Texts », In Proceedings of 2nd Conference on Implementing and Application of Automata (CIAA’2001), Pretoria, 23-25 juillet 2001. (à paraître dans LNCS).
- Friburger, N., A. Dister et D. Maurel (2000), « Améliorer le découpage des phrases sous Intex », Revue Informatique et Statistique dans les Sciences Humaines (RISSH), 36-1/4, p. 181-199.
- Gale, W. K., Church, K. and D. Yarowsky (1992) : « One sense per discourse », Dans Proceedings of the DARPA Speech and Natural Language Workshop, New York, Harriman, p. 233-237.
- Garric, N. et D. Maurel (2000) : « Désambiguïsation des noms propres déterminés par l’utilisation des grammaires locales », Revue française de Linguistique appliquée 5-2, p. 85-100.
- Gary-Prieur, M. N. (1994) : Grammaire du nom propre, Paris, Presse universitaire de France.
- Grass, T. (2000) : « Typologie et traductibilité des noms propres de l’allemand vers le français à partir d’un corpus journalistique », TAL 41-3, p. 643-669.
- Grass, T., Maurel, D. et O. Piton (2002) : « Description of a Multilingual Database of Proper Names », Dans Proc. of Portal 2002, LNCS, 23-26 juillet 2002, Faro, p. 137-150.
- Grevisse, M. et A. Goosse (1986) : Le Bon Usage, Gembloux, Duculot.
- Grishman, R. et B. Sundheim (1996) : « Message Understanding Conference – 6 : a brief history », Dans Proc. of 16th International Conference on Computational Linguistics (COLING-96), Californie, Morgan Kaufmann, p. 466-471.
- Jacquemin, C. et C. Bush (2000) : « Combining Lexical and Formatting Cues for Named Entity Acquisition from the Web », Dans Proc. Joint SIGDAT Conference on Empirical Methods in NLP and Very Large Corpora, Hong Kong, p. 181-189.
- Jonasson, K. (1994) : Le nom propre. Constructions et interprétations, Paris, Duculot.
- Maurel, D. et O. Piton (1999) : « Un dictionnaire de noms propres pour Intex : Les noms propres géographiques », Linguisticae Investigationes 22, p. 277-287.
- McDonald, D. D. (1996) : « Internal and External Evidence in the Identification and Semantic Categorisation of Proper Names », in Boguraev, B. and J. Pustejovsky (eds.) Corpus Processing for Lexical Acquisition, Cambridge, MIT, p. 32-43.
- Molino, J. (1982) : « Le nom propre dans la langue », Langages 66, p. 5-21.
- Noailly, M. (1991) : « « L’énigmatique Tombouctou » : nom propre et position de l’épithète », Langue française 92.
- Paik, W., Liddy, E. D., Yu, E. et M. Mckenna (1996) : « Categorizing and Standardizing Proper Nouns for efficient Information Retrieval », in Boguraev, B. and J. Pustejovsky (eds.) Corpus processing for lexical acquisition, Cambridge, MIT, p. 61-73.
- Piton, O. et D. Maurel (1997) : « Le traitement informatique de la géographie politique internationale », Bulag, numéro spécial, p. 321-328.
- Rey-Debove, J. (1994) : « Nom propre, lexique et dictionnaires de langue », in Noailly, M. (ed.) Nom propre et nomination (Actes du colloque de Brest), p. 107-122.
- Silberztein, M. (1993) : Dictionnaires électroniques et analyse automatique de textes – Le système INTEX, Paris, Masson.
- Sundheim, B. M. (1995) : « Overview of Results of the MUC-6 Evaluation », Proceedings of the Sixth Message Understanding Conference (MUC-6), p. 13-31.
- Trouilleux, F. (1997) : Identification et classement automatique des noms propres en français, Rapport de DEA, Clermont-Ferrrand.
- Wolinski, F., Vichot, F. et B. Dillet (1995) : « Automatic Processing of Proper Names in Texts », Proceedings of the Seventh Conference of the European Chapter of the Association for Computatinal Linguistics (EACL’95), Dublin, University College of Dublin, p. 23-30.
- Zabeeh, F. (1968) : What’s in a Name ?An Inquiry into the Semantics and Pragmatics of Proper Names, La Haye, Martinus Nijhoff.