Vous êtes sur la nouvelle plateforme d’Érudit. Bonne visite! Retour à l’ancien site

Articles

Construction de réponses coopératives : du corpus à la modélisation informatique

  • Farah Benamara et
  • Patrick Saint-Dizier

…plus d’informations

  • Farah Benamara
    Institut de Recherches en Informatique de Toulouse (IRIT)

  • Patrick Saint-Dizier
    Institut de Recherches en Informatique de Toulouse (IRIT)

Corps de l’article

1. Introduction

Pour gérer les volumes croissants d’informations disponibles sur le Web et pour y accéder, de nombreux outils informatiques ont été développés. Plusieurs moteurs de recherche et d’indexation ont été réalisés, s’appuyant souvent sur une forme de représentation schématique et réduite des connaissances, telles que les ontologies de l’intelligence artificielle. L’une des préoccupations majeures a été de pouvoir traiter des données se rapportant à tout type de domaine avec une qualité identique. Cela a eu pour conséquence le développement de méthodes d’analyse et de modélisation de type «en largeur d’abord». Parmi ces moteurs de recherche, citons Google, probablement le plus avancé de tous, et qui semble satisfaire le mieux les utilisateurs. L’interrogation se fait sur la base de mots clés, et la réponse est un ensemble de liens vers des pages ou des portails Internet. Une analyse, même rapide, des réponses montre qu’elles sont faiblement structurées, qu’elles incluent de nombreuses redondances et qu’elles ne répondent pas nécessairement à la question posée. L’usager doit procéder à un tri important, ce qui requiert un effort conséquent de sa part et une perte de temps qui peut être considérable.

Les raisons de cette situation qui risque de durer sont multiples. Citons la faiblesse des systèmes d’indexation basés sur des mots clés, ainsi que la faiblesse des structures de représentation des connaissances qui auraient permis une meilleure construction de la réponse, plus synthétique et plus pertinente. Il faut cependant bien se garder de jeter la pierre à de tels systèmes : l’hétérogénéité des contenus du Web, leur diversité et leur étendue font que, sur le court terme tout au moins, il n’y a pas d’alternative technique viable. Les difficultés sont immenses et bien cernées à présent, les solutions prendront beaucoup de temps à élaborer. Cependant, en parallèle, les exigences des utilisateurs croissent aussi, peut-être plus vite que les solutions techniques.

À l’heure actuelle, la balle est dans le camp des utilisateurs : à eux de formuler des requêtes claires, suffisamment restreintes, d’éviter des termes ambigus, génériques ou vagues. À eux de tester le système, de s’y adapter, et d’en tirer le meilleur, souvent de façon intuitive et inductive, par tâtonnement. C’est donc à l’utilisateur d’ajuster son comportement à partir de ce qu’il observe et induit du comportement du moteur de recherche auquel il s’adresse. Avec le souci de rendre cette démarche plus souple et plus conviviale, des tentatives ont été conduites pour proposer une interface en langue naturelle à l’usager, comme dans MIT Start Lab (Katz 1997) et Askjeeves (Basch 1999, www.askjeeves.com). Ces systèmes sont cependant des trompe-l’oeil dans la mesure où la recherche est simplement basée sur un calcul de similarité entre la question posée et une question type, prédéterminée. Cela a surtout en fait pour effet de limiter la robustesse du système et la pertinence des réponses.

1.1 Notre approche

D’un point de vue méthodologique, notre position va à l’inverse de celle adoptée par ces moteurs de recherche. Notre cadre et nos contraintes sont différents. Notre stratégie vise à définir ce que devrait être un système d’interrogation du Web qui soit coopératif avec l’usager, qui prenne bien en compte sa question et qui tente de lui fournir la réponse la plus appropriée possible dans sa forme et dans son contenu. Une telle analyse, et la réalisation informatique qui en découle, ne peut être conduite que sur un domaine ciblé, restreint, et à priori bien défini. Le second volet de notre méthode de travail consiste à étudier les conditions d’extension de nos analyses et développements à d’autres domaines, proches ou lointains thématiquement. La forme des pages Web d’un domaine va conditionner la facilité avec laquelle on pourra extraire l’information nécessaire aux réponses coopératives (des textes sont plus simples à traiter que des menus, des graphiques, des tableaux ou des images). Par conditions d’extension, nous entendons : l’analyse des ressources linguistiques et de la représentation des connaissances nécessaires à chaque domaine, le coût associé, ainsi que l’analyse de la forme des réponses à produire et l’adéquation des logiciels prototypes développés.

Notre approche présuppose que nous puissions développer un analyseur robuste des questions des utilisateurs ainsi que des techniques d’extraction de connaissances à partir de pages Web tout en gardant les liens sur ces pages. Ensuite, il convient de définir les techniques de raisonnement les plus génériques possible qui s’appuient sur une représentation des connaissances du domaine. Enfin, il faut pouvoir générer de façon adéquate la réponse. On le voit, les défis à relever sont profonds et complexes techniquement. Dans cette démarche, nous nous appuyons soit sur des résultats déjà acquis que nous aménageons, comme l’analyse des questions, soit sur des expérimentations et sur leur portabilité (Benamara et Saint-Dizier 2003a) de façon à ce que les procédures de raisonnement coopératif et la génération des réponses s’appuient sur des techniques éprouvées.

Nous nous situons dans un cadre d’interrogation directe, sans dialogue et sans modèle de l’usager, comme c’est le cas avec les moteurs de recherche standard. Pour développer un système de questions-réponses coopératives sur le Web, il nous faut intégrer à la fois les exigences des utilisateurs et les possibilités techniques et expressives des systèmes informatiques du traitement du langage naturel. Pour définir ce compromis, nous avons dans un premier temps constitué et analysé un corpus de questions et de réponses coopératives construit à partir des sections Foire Aux Questions (FAQ) de différents services Web aux usagers, où questions et réponses sont produites par des humains et communiquées par le biais du courrier électronique. Ceci constitue à notre sens une bonne expérimentation de ce que pourrait être une communication directe en langue naturelle avec un moteur de recherche sur le Web.

1.2 Le corpus d’étude

Notre domaine d’expérimentation étant le tourisme, il n’a pas été difficile de trouver des ensembles de corpus consacrés à différents aspects du tourisme : hébergement, transports, activités de loisir et sportives, contraintes de voyage, etc. Notre objectif est d’abord d’analyser et de catégoriser les modes opératoires utilisés par les humains dans leur démarche coopérative, en général, et par rapport au type de la question posée et aux erreurs ou approximations qu’elle peut contenir. L’usager qui interroge un service de type Web n’a pas nécessairement une bonne perception du service offert et de ses caractéristiques. Ses questions reflètent sa perception du service. Le système alors doit apporter une réponse qui corrige les questions en expliquant et en précisant les contours des services offerts et leurs contraintes. La question peut être vague ou incomplète, reflétant souvent le manque d’expertise de l’usager.

Nous nous sommes tout d’abord intéressés à la forme et au contenu des questions posées par les utilisateurs. Nous appuyant ensuite sur une synthèse que nous avons réalisée à partir de travaux de plusieurs auteurs, nous avons élaboré une typologie des questions posées par les utilisateurs, en en définissant les formes linguistiques. Outre la confirmation de notre classification, le but est de définir les types de traitement automatique qui sont nécessaires pour faire une bonne analyse des questions, selon une architecture classique en trois parties : type de la question, focus de la question et représentation du corps de la question. Bien entendu, l’analyse des questions renferme d’autres caractéristiques (par exemple, la force illocutoire, les modalités); cependant, les trois parties relevées ci-dessus sont pour l’heure suffisantes pour nos objectifs. Dans notre domaine d’application, les questions sont en général simples et directes. Leur forme et la présence de marques linguistiques permet, on le verra, une première caractérisation de la nature de la réponse qu’elles induisent.

Le second volet de l’analyse de notre corpus est le plus important. Partant cette fois d’une typologie abstraite de fonctions coopératives bien établies et claires quant aux procédures logiques associées (relaxation de contraintes, détection de fausses présuppositions, réponses intensionnelles), essentiellement élaborées par des logiciens de l’intelligence artificielle, notre objectif a été de caractériser comment ces fonctions sont concrètement mises en oeuvre par des opérateurs humains. Nous avons aussi relevé des cas nouveaux (questions floues, par l’exemple, avec inférences) ou des procédures nouvelles (relaxation sur des concepts frères plutôt que pères) que nous avons développées plus en profondeur.

Outre ces modes opératoires, nous nous sommes aussi attachés aux modes d’expression en langue naturelle. Il est cependant clair qu’un système informatique, de par ses contraintes opérationnelles et ses limites, sera amené à produire des énoncés plus stéréotypés et plus organisés. Cela ne doit nuire, bien entendu, ni à l’expression de la coopérativité ni à la qualité de l’information transmise à l’usager. Nous avons essentiellement retenu des réponses les procédures employées et la façon dont les explications fournies sont organisées et argumentées lorsque cela est nécessaire. Comme nous en avions l’intuition, car ceci est assez naturel, nous verrons que les réponses se structurent en deux temps : une réponse relativement directe et brève à la question, puis une élaboration de cette réponse, qui peut revêtir diverses formes, et qui fait apparaître le savoir-faire coopératif de l’opérateur qui répond. On y trouve des explications, des commentaires, des avertissements, des justifications ou bien encore l’anticipation de questions potentielles. Il nous faut alors organiser ce savoir-faire pour le rendre opérationnel dans un système coopératif en langue naturelle qui utilise les possibilités expressives du Web. La modélisation et la mise en oeuvre de ce savoir-faire sont les parties les plus originales de notre contribution, tant du point de vue logique que du point de vue de la génération de langue naturelle.

1.3 Évaluation et extensions

Même s’il couvre plusieurs types d’activités, le domaine du tourisme est relativement restreint conceptuellement. À titre d’exemple, l’ontologie du domaine ne compte que 300 concepts environ, le fonctionnement du domaine et ses contraintes se modélisent à partir de quelques dizaines de règles et contraintes d’intégrité. Nous travaillons sur le français, même si nos corpus sont aussi parfois en anglais. Le choix du domaine du tourisme, par la diversité de forme et de contenu des pages Web associées, nous permet de bien mesurer à priori les différents besoins en matière de coopérativité, les différents coûts, et ce qui peut être réutilisé ou pas. Nous distinguons ressources et procédures. Parmi les ressources, nous incluons les ressources lexicales, grammaticales et celles liées à la représentation des connaissances du domaine. Parmi les procédures, nous incluons les différentes formes de raisonnement coopératif, qui seront précisées ci-dessous. Cette évaluation est présentée dans Benamara et Saint-Dizier 2003c.

Outre cette évaluation technique, il convient aussi de bien évaluer la portée du travail quant aux formes de coopérativité et de savoir-faire mises en oeuvre. Le domaine du tourisme étant considéré comme un domaine grand public, la difficulté est d’évaluer si les procédures opératoires coopératives développées dans ce cadre sont transposables à d’autres applications grand public, ou s’il convient d’y apporter des aménagements. Nous aurons probablement tout un continuum, de l’utilisation directe à une révision peut-être assez substantielle. Par exemple, dans le domaine de la santé grand public, les questions seront plus élaborées, pour mieux en préciser le contexte, et les réponses seront davantage conditionnelles ou procédurales. Si on ne change pas le type des réponses coopératives, on peut infléchir tout au moins l’importance relative de ces fonctions, la forme des réponses et le degré de complexité dans l’élaboration. Avec cet exemple, nous glissons progressivement vers les domaines professionnels où il faudra repenser en partie notre approche. La communication y est souvent plus stéréotypée, plus efficace, et inclut un modèle de l’usager. Les mauvaises perceptions du domaine sont plus rares, et sont plus pointues et plus difficiles à repérer et à expliquer, à cause en particulier des connaissances à mettre en oeuvre.

L’une de nos tâches, en regard des corpus qui sont riches de ce point de vue, mais aussi de l’évaluation directe et concrète des applications informatiques produites, sera de déterminer les éléments stables, tant au niveau technique qu’au niveau de la communication coopérative dans un cadre informatique. Cette préoccupation sera constante dans notre démarche de modélisation de la coopérativité homme-machine, dans les procédures de raisonnement, dans la référence aux données et dans la présentation textuelle et de type Web de la réponse.

2. Qu’est-ce qu’une réponse coopérative?

Introduisons à présent la notion de réponse coopérative. Nous l’étudierons plus en détails dans la section 4. La plupart des conversations humaines sont gouvernées par des règles implicites comprises et utilisées par les interlocuteurs. Ainsi, on n’est jamais étonné quand on pose la question «À quelle heure part le train pour Paris?», à un guichet de gare, d’obtenir la réponse «À 10h00, voie 3» alors qu’on n’a pas demandé le numéro de voie. En revanche, on serait surpris si, à la question «Avez-vous l’heure s’il vous plaît?», on obtenait la simple réponse «oui», bien que ce «oui» constitue une réponse précise à la question telle qu’elle est littéralement posée.

Le caractère normal ou anormal (Sadek 1996) de ces réponses dénote l’existence d’un certain protocole relatif au contenu des réponses qu’un individu est en droit d’attendre de son interlocuteur. Une réponse qui s’étend d’une manière pertinente au delà de la question telle qu’elle a été littéralement posée est dite coopérative.

De nombreux linguistes se sont intéressés à la formalisation des règles de comportement dans un dialogue homme-homme (Searle 1975). Dans ce cadre, Grice 1975 a défini un certain nombre de maximes ou principes de coopération, sur lesquels reposent la plupart des travaux relatifs aux dialogues coopératifs. Ces maximes décrivent les principes fondamentaux qui caractérisent le comportement coopératif de tout dialogue. Les quatre principales maximes sont les suivantes :

  1. Maxime de qualité : la contribution à une conversation doit être constructive, c’est-à-dire ne jamais dire ce qu’on pense être faux ou évident. Ceci permet donc à l’utilisateur d’être informé du degré de crédibilité des informations qui lui sont fournies.

  2. Maxime de quantité : une conversation doit être ni trop ni trop peu informative.

  3. Maxime de style : l’auditeur s’intéresse en général davantage au contenu de la réponse qu’à sa forme, il faut donc éviter les expressions obscures et ambiguës. Il est préférable alors d’utiliser des tournures claires, des mots usuels et des phrases courtes. Ainsi, l’accès à l’information est facile et rapide.

  4. Maxime de relation : une réponse doit être pertinente par rapport aux intentions de l’interrogateur.

La production de réponses coopératives en situation de dialogue homme-homme est en fait la règle et non l’exception. Cette constatation se confirme simplement par une analyse superficielle de notre corpus. Nous observons des formes coopératives plus ou moins complexes et graduelles. Il est clair que les maximes de Grice sont des principes abstraits qui vont se trouver imbriqués et réalisés à travers des modes opératoires et des formes diversifiées. Cela est présenté dans la section 4.

D’une façon générale, les interfaces d’interrogation de bases de données ainsi que les systèmes d’informations actuels apportent des réponses directes (littérales) aux questions posées, présentées sous forme de liste de pages Web, d’extraits de textes, de multiples de base de données... Bien que ce type de réponses soit satisfaisant, il ne répond pas à de nombreuses attentes des utilisateurs. Ainsi, lorsqu’un utilisateur interroge une base d’information dont il n’a qu’une idée floue du contenu ou de la structure, il se trouve le plus souvent confronté à deux types de problèmes qui motivent clairement notre démarche et notre projet de génération de réponses coopératives.

Un premier type de problème apparaît lorsque la requête formulée par l’usager n’a pas de solution. Cela est principalement dû à l’un des deux phénomènes suivants.

Ou bien un malentendu a été détecté dans la question. Voici un exemple, extrait de notre corpus, qui illustre parfaitement ce type de problème. Un utilisateur se trouve sur le site d’Air France (www.airfrance.fr) pour se renseigner sur les horaires des vols de Toulouse à destination d’Alger le 20 février. La copie d’écran ci-dessous est la réponse que fournit le système, une fois la requête de l’usager exécutée.

Fig. 1

Copie d’écran

Copie d’écran

-> Voir la liste des figures

Le système indique bien qu’il ne peut fournir une réponse concernant les horaires du vol demandé le 20 février et propose des vols pour le 19 ou le 21 février. L’usager infère donc que cette liaison existe mais n’est pas desservie quotidiennement. Or, s’il formule la même requête pour le 19 février par exemple, on obtient la même réponse. Le système propose des vols le 18 ou le 20 février, et ainsi de suite. Ce système induit l’utilisateur en erreur, car le malentendu concernant la desserte d’Alger par un vol Air France au départ de Toulouse n’est pas détecté. Une explication de l’échec de la question est alors nécessaire. La réponse aurait été dans ce cas, par exemple : «Il n’y a pas de vols Air France entre Toulouse et Alger. Cette ligne est uniquement desservie par la compagnie Air Algérie.»

Ou encore l’usager a trop contraint sa question, qui n’a alors pas ou trop peu de réponses. Le système doit suggérer des voies possibles pour satisfaire au mieux la requête initiale. Par exemple : «Quelles compagnies assurent la liaison Nice -Tripoli?», est un exemple typique d’une question qui a une solution vide. Il faut alors relaxer certaines contraintes pour avoir un ensemble non vide de réponses. Ici, on peut chercher à des aéroports proches une ou plusieurs compagnies qui desservent Tripoli et qui ont une liaison avec Nice (p. ex. Rome avec Alitalia et Lybian Airways).

Une seconde classe de problèmes apparaît lorsque la requête de l’usager est trop vague et que le nombre de solutions proposées dans ce cas est très grand. Le système doit donc employer des stratégies spécifiques afin d’affiner la requête initiale ou de présenter l’ensemble des solutions possibles de la requête d’une façon plus lisible. Nous en verrons plusieurs exemples dans la section 4.

Il est important de noter que les différents cas ci-dessus peuvent apparaître conjointement et rendre de ce fait très complexe le processus de production de réponses coopératives. Afin de résoudre ces problèmes, plusieurs types de réponses coopératives ont été identifiés. Nous présentons dans la section 4, après une analyse des questions (section 3), les principales classes de réponses coopératives qu’un système coopératif doit pouvoir produire, indépendamment du domaine d’application.

2.1 Le corpus d’étude

Le corpus d’étude est construit à partir des sections foires aux questions (Frequently Asked Questions, FAQ) sur le Web. Les FAQ sont des paires de questions-réponses en langue naturelle qu’on trouve sur Internet pour des domaines aussi variés que l’informatique (langage de programmation, problèmes liés à l’installation de logiciels…) ou le tourisme (hébergement, transport, réservation…). Ces forums regroupent les questions les plus fréquemment posées par les usagers sur un domaine donné avec les réponses fournies par des experts du domaine concerné. La communication se fait le plus souvent par courrier électronique ou télécopie.

La construction de ce corpus a été assez facile. En effet, il est relativement aisé de trouver sur Internet des FAQ sur le tourisme, en utilisant par exemple les mots clés foires aux questions tourisme, sur n’importe quel moteur de recherche. Nous avons sélectionné Google, qui semble être le plus performant aujourd’hui. Les paires de questions-réponses collectées sont souvent extraites de sites Web d’agences de voyage, d’ambassades ou de consulats, de sites d’aéroports ou de sites officiels décrivant les activités touristiques d’un pays donné. Nous avons voulu une grande diversité de thèmes (hôtels, gîtes ruraux, formalités administratives, installations aéroportuaires, coût de la vie dans certains pays, qualité de service, etc.), de lieux touristiques (Europe, Canada, Amérique du Sud). Pour avoir un peu plus de diversité, certains corpus sont en anglais. Nous avons sélectionné les paires questions-réponses les plus intéressantes dans chaque corpus par rapport à nos objectifs. Nous avons comme résultat un corpus d’environ 150 paires. Ce nombre n’est pas très élevé, mais couvre en fait assez bien nos besoins.

Si on regarde le contenu de ces corpus, d’une façon globale, les questions concernent les points suivants :

  1. Les hébergements (hôtels, appartements, campings…) : «Quelles sont les possibilités d’hébergement? Que comprennent la demi-pension et la pension complète?»

  2. Les commodités liées aux hébergements, par exemple : «Avez-vous des chambres avec deux lits? Qu’est-ce que vous servez au petit déjeuner? Acceptez-vous des clients avec des animaux?»

  3. Les services proposés tels que la location de voiture, les sports et les transports disponibles : «Comment se déplacer de l’aéroport de Nice à Sophia Antipolis et à Monaco? Est-ce facile de louer une voiture à Montréal? Quels sont les équipements sportifs mis à ma disposition?»

  4. Les réservations et les paiements : «Devons-nous réserver d’avance pour aller à votre gîte? Pouvons-nous réserver et payer par courrier électronique?»

  5. Les problèmes liés à un service : «Que se passe-t-il lorsqu’on annule sa réservation? Qui contacter si j’ai un problème lors de mon voyage? Y a-t-il des hôpitaux à proximité? Quelle est la sécurité dans ce pays?»

  6. Les formalités de voyage : «Ai-je besoin d’un visa pour me rendre en Bolivie? La possession d’un passeport est-elle indispensable? Ai-je besoin de me faire vacciner?»

  7. Les conseils pratiques lors d’un voyage : «Comment puis-je voyager avec un bébé? Quels médicaments emporter?»

  8. Les attractions ou actualités culturelles : «Êtes-vous près du théâtre et du restaurant de la Roche à Veillon?»

Le corpus collecté nous semble assez représentatif des types de questions qu’on peut poser dans le domaine du tourisme. Il constitue à notre sens une bonne expérimentation de ce que pourrait être une communication directe en langue naturelle avec un moteur de recherche sur le Web. C’est donc une étape importante pour une conception incrémentale d’un système coopératif. Une première analyse du corpus permettra de proposer une modélisation, une mise en forme en langue naturelle et la réalisation d’un prototype pour expérimenter et évaluer les résultats.

3. Classification et analyse des questions

Une étape indispensable à la modélisation de notre système est l’analyse de la forme et du contenu des questions des utilisateurs. Il nous faut, en effet, bien identifier comment les questions sont posées à un service de type Web pour évaluer la nature des technologies de traitement du langage naturel qu’il faudra mettre en oeuvre pour faire une analyse qui permette un service coopératif de qualité, tout en prenant en compte les contraintes techniques qu’impose une analyse automatique. La présence de marques linguistiques spécifiques permet, par exemple, une première caractérisation de la nature de la réponse induite (un ensemble, un booléen, un nombre, etc.).

La classification que nous proposons a été construite manuellement après analyse et synthèse de différents travaux, assez disparates, sur la nature et la forme des questions dans les systèmes questions-réponses. Nous avons transposé de l’anglais au français cette classification en identifiant les marques propres au français. Notre corpus constitue un échantillon assez représentatif des principales classes de questions posées dans le domaine du tourisme. Nous présentons ci-dessous les principales classes de questions, telles que rencontrées dans les corpus de questions-réponses. Il existe dans d’autres cadres quelques autres types de questions (par exemple, les questions par analogie ou basées sur l’exemple) que nous n’abordons pas ici du fait de leur rareté dans notre cadre.

Globalement, l’analyse syntaxicosémantique d’une question dans un système de question-réponse a pour but : 1° de définir le type sémantique de la réponse attendue; 2°de définir exactement ce sur quoi porte la question (le focus); 3° de caractériser le corps de la question qui permet de cibler la réponse à rechercher; 4° d’identifier les termes importants de la question qui peuvent se retrouver dans la réponse, par exemple au niveau du choix lexical ou de la construction syntaxique.

Il existe d’autres caractéristiques (la force illocutoire, par exemple), mais elles ne sont pas utiles au niveau de granularité que nous considérons. Plusieurs travaux ont été consacrés à l’analyse des questions en langage naturel. Lehnert 1978 a tout d’abord proposé une taxonomie de questions basée sur une représentation de la mémoire appelée dépendance conceptuelle. Cette taxonomie a été élaborée dans le cadre du système question-réponse QUALM, qui répond aux questions en langage naturel en effectuant tout d’abord une analyse conceptuelle de la question. La réponse est ensuite produite, à l’aide d’un générateur, à partir d’une base de connaissances extraites de textes. Lehnert a défini treize catégories de questions telles que vérification, disjonction ou bien encore quantification. Par exemple, la question  «Pourquoi Marie est partie à Paris?» est de la catégorie sémantique du but.

Graesser et Gordon 1991 ont ensuite étendu cette taxonomie en ajoutant cinq autres catégories sémantiques telles que comparaison, définition ou encore interprétation, initialement conçues pour le système QALC (Question Answering Language Cognition). Pour chacune de ces catégories, les auteurs ont conduit une étude empirique complète qui a démontré que leur taxonomie s’accordait bien avec toutes les situations courantes du discours.

Par la suite, avec l’émergence des systèmes questions-réponses à domaine ouvert, d’autres types de taxonomies ont été développés, par exemple, dans le cadre des plateformes d’évaluation de TREC8 et de TREC9. Citons par exemple les classifications évaluées dans TREC8 comme celle de Prager et coll. 1999 basée sur des agencements de questions et la taxonomie utilisée dans le système LASSO (Moldovan et coll. 2000). Notons enfin la taxonomie décrite dans Hermajakob 2001 pour TREC9.

3.1 Une taxonomie pour la typologie des questions

Notre classification est largement inspirée des travaux de Lehnert 1978 et de Graesser et Gordon 1991. Elle est construite manuellement et se base sur la structure externe (forme) des questions ainsi que sur la catégorie conceptuelle du focus (ce sur quoi porte la question). Nous avons choisi de classer les questions selon deux grandes familles : les questions induisant des réponses élémentaires (listes de valeurs) et les questions induisant des réponses de type textuel, appelées questions à réponses narratives. Chaque famille est composée de plusieurs catégories sémantiques reflétant le type de la réponse recherchée. La classification doit se réaliser seulement sur la forme de la question, en particulier en prenant en compte le pronom interrogatif, la forme syntaxique de la question et le type du focus. Le contenu de la réponse n’est pas pris en compte, car il requiert alors un tout autre processus.

L’analyse de corpus de questions posées à des services Web va nous permettre de valider cette classification qui a été élaborée dans un cadre plus classique. Elle va aussi nous permettre de mieux identifier les marques linguistiques propres au français, et de mesurer la complexité formelle et conceptuelle des questions posées à ce type de service.

3.1.1 Les questions de type atomique

La hiérarchie des catégories sémantiques des types de réponses possibles parcourt les différentes formes de réponses élémentaires, en se référant aux différentes formes des données. Ces catégories sont résumées dans le diagramme ci-dessous :

Fig. 2

Hiérarchie sémantique

Hiérarchie sémantique

-> Voir la liste des figures

Une réponse atomique peut être une affirmation à caractère vériconditionnel (oui, non, ou une valeur plus évaluative : c’est possible, probable, je ne sais pas). Une réponse de type entité contient une liste de candidats élémentaires, réponses possibles à la question, par exemple, une liste d’hôtels, de vols, etc. Une réponse de type entité peut aussi être une valeur ou un ensemble de valeurs numériques associées à une mesure (prix, tailles, horaires). Le type exact de la réponse est lié au type sémantique du focus de la question. Une réponse de type cardinal donne le nombre d’éléments d’un ensemble (du type précédent). Enfin, une question qualitative est une analyse de la qualité d’une réponse numérique. Une telle réponse est en général réalisée par un adjectif évaluatif, un adverbe de degré ou un quantificateur : cher, beaucoup, fréquent.

Par exemple, la question «Ai-je besoin d’un visa pour aller de France vers l’Espagne?», induit une réponse booléenne et la question «Quels sont les prix de l’Hôtel Royal à Paris?» induit une réponse de type valeur numérique (ou ensemble d’entités de type valeur numérique) qui correspond au type sémantique du nom prix. Ceci reste valable même si la réponse est composée des paires types de chambre/prix ou saison/prix.

3.1.2 Questions nécessitant une réponse narrative

Dans beaucoup de cas, le type de la réponse attendue est une phrase ou un ensemble de phrases, argumentant la réponse ou expliquant les problèmes rencontrés dans la question posée. Ce peut aussi être un texte relatant, par exemple, une réglementation ou une procédure. Les différentes catégories identifiées sont reportées dans la figure ci-dessous :

Fig. 3

Typologie des réponses narratives

Typologie des réponses narratives

-> Voir la liste des figures

Par exemple, la question «Donnez-moi des informations sur les réseaux autobus à Paris» induit une réponse de type description : le réseau, les prix, la tarification, les réductions, la sécurité, etc. La question «Quelle est la différence entre un gîte touristique et un chalet?» induit une réponse de type comparaison.

3.2 Analyse des questions dans notre corpus

Cette classification se base sur la forme externe des questions. Une demande d’information peut être formulée au moyen d’une question construite à partir de l’un des pronoms interrogatifs suivants : qui, quoi, comment, pourquoi, que, combien, etc., ou bien au moyen d’ordres ou de questions indirectes construites avec des expressions telles que donnez-moi, listez-moi, je recherche, je veux savoir...

Pour déterminer le type de la question, plusieurs règles (Monceaux et Robba 2002) décrivant les différentes formes que peuvent prendre les questions ont été élaborées; en voici un large échantillon, qui ne vise pas à l’exhaustivité, mais qui dégage les formes les plus usuelles :

  1. Le type de la réponse peut être déterminé uniquement à partir du pronom interrogatif : qui (atomique/entité/animé), quand (atomique/quantité/temporelle),  (atomique/entité/localisation géographique), comment (narration/procédure), est-ce que/ y a-t-il/ puis-je/ (atomique/booléen), pourquoi (narration/cause) :

    Puis-je louer une maison en bord de mer en hiver?

    vériconditionnel

    Pourquoi la location en bord de mer est plus chère?

    cause

    Quand décolle l’avion de Paris à Toulouse demain?

    valeur numérique

    Qui est responsable de l’agence FRAM voyage en France?

    entité de type personne

    se situe le parc Astérix en France?

    entité de type ville ou région

    Comment aller de Paris à NY le plus rapidement possible?

    procédure

  2. Le type de la réponse est déterminé grâce à la catégorie sémantique du nom tête du groupe nominal pour les questions de la forme : quel/ quelle…GN ou combien…GN. Exemples :

    Quelle est la définition de location saisonnière?

    définition

    Quels sont les musées d’art à moins de 4km de Paris?

    entités de type musée

    À combien de kilomètres du centre ville se trouve la gare routière?

    quantité numérique de type distance

En complément des catégories décrites ci-dessus, l’étude du corpus a permis d’identifier les phénomènes additionnels et orthogonaux suivants qui sont essentiels à la formation de réponses coopératives :

  1. l’utilisateur peut formuler volontairement des requêtes incomplètement spécifiées (et non référentielles) telles que «Je cherche un emploi dans la région» ou encore «Je voudrais connaître l’heure de départ du train pour Paris», et attendre que le système l’assiste dans la spécification de sa requête. Une requête est dite incomplète quand des éléments importants requis par la structure argumentale des termes prédicatifs sont omis ou ignorés par l’utilisateur. Ceci nécessite une réponse conditionnelle faisant apparaître les principaux choix possibles sur les arguments manquants. Il nous a paru indispensable d’inclure ces questions incomplètes dans notre taxonomie.

  2. Les questions contenant des termes flous, essentiellement des adjectifs évaluatifs, mais aussi des adverbes et des quantificateurs, sont très fréquentes. Les termes vagues sont des éléments du langage naturel tels que jeune, élevé, grand, tôt, environ, autour de, près de, proche de, à côté de, aux abords de, aux alentours de, en bordure de, voisin de, etc. La question «Je cherche un gîte pas cher sur la Côte d’Azur près de la mer» est une question nécessitant l’interprétation des termes flous pas cher et prèsde.

  3. Les questions basées sur une série d’exemples donnés par l’utilisateur, telles que : «Je cherche un gîte en Corse similaire à celui de M. Dupond dans l’Aveyron». Ces questions sont elles aussi relativement fréquentes, l’élaboration de la réponse est assez délicate, car il y a souvent des éléments de préférence implicites liés à la connaissance du domaine.

Nous nous intéressons dans un premier temps à la coopérativité engendrée par les réponses atomiques pouvant éventuellement inclure des termes flous.

3.3 Représentation sémantique des questions

Afin de permettre une modélisation fine de la sémantique des questions, le formalisme adopté s’appuie sur la structure lexicale conceptuelle (LCS) (Jackendoff 1990). Les besoins en représentation du sens sont assez homogènes sur ces trois plans, et correspondent relativement bien aux possibilités que le langage de la LCS offre, et qu’il faut cependant étendre. Sur le plan du contenu, nous avons intégré et développé en complément au formalisme de la LCS les points suivants: 1° modélisation systématique de formes prédicatives: verbes de plusieurs familles, et surtout un traitement assez complet (mais encore quelque peu superficiel) de la sémantique des prépositions (Cannesson et Saint-Dizier 2002) introductrices de circonstants; 2° introduction de formes simples de quantification et d’opérateurs de modalité qui guident la façon dont la réponse va être présentée.

Sur le plan de la forme, la LCS reste une approche «papier». Nous l’avons donc intégrée dans un modèle calculatoire complexe qui inclut (Saint-Dizier et Vasquez 2001) d’une part, des opérateurs du λ-calcul typé pour la composition sémantique ainsi qu’une forme de «décomposition» pour le processus d’agrégation et, d’autre part, plusieurs formes de sous-spécification typée pour mieux prendre en compte l’interpénétration de la sémantique du prédicat avec celle de ses arguments et des prépositions.

La représentation sémantique des questions basée sur le formalisme décrit plus haut est produite à la sortie d’un analyseur syntaxique qui garde trace des termes les plus importants dans la question afin de les réutiliser au mieux dans l’expression des réponses.

Nous représentons (Benamara 2002) les questions dans notre système par le triplet (Concep-Cat, Sem-Type, Context-Rep), Concep-Cat est la catégorie sémantique de la question, issue de la classification des questions présentée dans la section précédente, et où Sem-Type est le type sémantique de réponse attendue. Ce type correspond au focus de la question formulée et il est exprimé par une variable typée. Par ailleurs, Context-Rep est la représentation du corps de la question. C’est une formule de la logique du premier ordre. Des catégories conceptuelles spécifiques de la LCS sont utilisées pour exprimer la modalité éventuelle de la question, comme la possibilité ou la nécessité (voir le deuxième exemple donné ci-dessous). De plus, des fonctions d’agrégation sont utilisées. Par exemple la question «Quel est le prix moyen d’une nuit d’hôtel à Barcelone?» a la représentation logique suivante : average(x, ( hotel(h) ⋀ in(place, h, barcelone) ⋀ prix(h,x)).

Les exemples ci-dessous sont représentatifs de notre formalisme :

«Faut-il un visa pour aller de France en Espagne?»
(Boolean, _ , visa(x) ⋀ necessiter(x, for(goal, go( _, path, from(loc,france), to(loc,espagne)))))

«Puis-je payer des billets de train  sur le site Web de la SNCF?»
(Boolean,_ , billettrain(x) ⋀ siteweb(SNCF) ⋀ POSS(payer(e ,_ , x) ⋀ on(e, loc, _, SNCF)))

«Quelle est la saison idéale pour visiter la Corse?»
(Entity, x : saison, ideal(e,x) ⋀ for(e, goal, visiter(e, _, Corsica )))

«Pourquoi le gîte x n’a pas été rénové?»
(Cause, p : explication , p⇒ not(rénové(e, _, gîte)))

4. Les réponses coopératives

Nous présentons dans un premier temps les différentes formes de coopérativité et les procédures logiques auxquelles elles sont associées. Ces différentes formes ont souvent pour origine des travaux en intelligence artificielle ou sur les bases de données relationnelles ou déductives (Gaasterland, Godfrey et Minker 1994). Nous considérons que ces différentes formes sont relativement abouties. Nous les analysons comme des composants de base d’un système coopératif, composants qui sont mis en oeuvre à différents niveaux et souvent conjointement dans les réponses coopératives de nos corpus. Nous analysons alors les modes opératoires coopératifs des utilisateurs par rapport à ces formes de coopérativités «primitives». De ces comportements opératoires, nous dégageons une architecture pour un système de réponses coopératives. Notre but n’est pas, bien entendu, de simuler l’humain, la composante langagière étant trop complexe, mais d’en déduire un système informatique qui va introduire à sa manière ces comportements. On y retrouvera alors, par exemple, des formes plus stéréotypées, et partant plus efficaces. Nous y associerons aussi, par exemple, les possibilités qu’offrent les environnements hypertextuels.

4.1 Les principales formes de coopérativité

Présentons à présent les différentes formes de coopérativité. Nous faisons l’hypothèse, dans notre cadre, que ces formes sont à l’origine de la définition de fonctions primitives du comportement coopératif. Nous les illustrons par des extraits de notre corpus, sans anticiper l’analyse de la section suivante.

4.1.1 Les réponses à de fausses présuppositions (correctives)

En situation de communication naturelle, toute question comporte un ensemble de présupposés qui sont des propositions sans la vérité desquelles la question perdrait sa validité (dans le contexte dans laquelle elle apparaît). Par exemple, la question «Est-ce que le mari de Anne travaille à la poste?» présuppose que Anne est mariée et que son mari travaille. La question (focus) porte sur le lieu ou le type du travail. Le non-respect d’une présupposition est parfois appelé malentendu (Krahmer 1998).

Les présuppositions dans une question sont généralement déclenchées par certains éléments lexicaux ou certaines constructions syntaxiques (Geurts 1999). Par exemple, un article défini présuppose que l’objet introduit existe. Par exemple : «Qui est le président de la Corse?» Ou encore, un argument ou un modifieur d’un verbe ou d’un nom dont l’usage erroné va refléter la méconnaissance que l’usager a des propriétés d’une action ou d’un objet, ce qui peut se traduire par des situations absurdes. Par exemple «Je cherche un gîte pour mon chien» présuppose de façon incorrecte que les gîtes sont faits pour les chiens. La question peut aussi être mal formée et signifier un gîte où je peux venir avec mon chien. Nous n’avons pas observé de telles situations, et il serait de toute façon difficile de faire les inférences nécessaires pour y répondre. Finalement, la description d’une transition ou d’un changement d’état présuppose l’existence de l’état initial : «Jean va demain de Toulouse à Paris» présuppose que Jean est à Toulouse ou y sera demain.

Une fausse présupposition dans une requête exprime les disparités entre les connaissances de l’usager et celles qui sont contenues dans la base de connaissances (Gal 1998). Il faut alors bien distinguer entre le résultat qui est attendu et les hypothèses formulées par l’utilisateur. Le rôle d’une réponse corrective est d’informer l’interlocuteur du ou (des) présupposé(s) qui empêche(nt) sa question d’avoir une réponse. Voici quelques exemples de réponses coopératives, à divers degrés, qui tentent d’expliquer les malentendus des questions posées : À quelle heure est l’avion de Paris à Albi demain? Il n’y a pas d’aéroport commercial à Albi. Je cherche un gîte touristique à Paris. Les gîtes touristiques ne sont pas dans des villes, seulement les hôtels ou les pensions. Peut-on louer une maison en bord de mer en Midi-Pyrénées? Non, car Midi-Pyrénées n’est pas en bord de mer.

Ainsi, une réponse corrective peut corriger une conception erronée de l’utilisateur qui présuppose l’existence d’une entité qui n’existe pas ou présuppose la présence d’une relation entre deux entités (ou types d’entités) qui n’existe pas et qui est, de ce fait, inconséquente avec les faits de la base de connaissances. Dans ce cas, une explication des raisons de l’échec de la question est souvent nécessaire.

4.1.2 Les réponses intensionnelles

Ces réponses interviennent lorsque l’ensemble des réponses est trop grand pour pouvoir présenter une énumération de toutes les réponses. Il est alors intéressant de chercher à les regrouper en s’appuyant sur des concepts plus généraux. Ces regroupements peuvent aussi faire l’objet de classements; on parle alors, en complément, d’implication scalaire. Le caractère factorisé d’une réponse intensionnelle peut, non seulement, contribuer à la rendre plus facilement présentable (et donc mieux assimilable par l’interlocuteur) mais peut également renseigner sur la généricité de son contenu sémantique. Une réponse intensionnelle informe sur la structure de la base de connaissance et du domaine d’application et contribue à dissiper les malentendus (Burhans 2002, Giacomo 1996). Les réponses intensionnelles sont réalisées en langue de diverses façons, le caractère intensionnel étant plus ou moins marqué, et réalisé plus ou moins complètement. Notons les quelques exemples suivants: Où sont les gîtes en France avec piscine? En général, les gîtes du sud de la France ont une piscine. L’exemple suivant provient d’un site sur le tourisme en Côte d’Azur. La réponse à la question «Vous cherchez un hôtel proche de l’aéroport de Nice» regroupe et classe l’ensemble des hôtels possibles par catégorie. La réponse est donc quelque peu intensionnelle et fait référence à l’implication scalaire. Elle est de ce fait relativement lisible et compréhensible.

Fig. 4

Copie d’écran

http://www.cote-azur.businessriviera.com/accueil/faq_fr.asp#hotel
Copie d’écran

-> Voir la liste des figures

4.1.3 Les réponses relaxées

Parfois l’utilisateur pose une question trop précise vis-à-vis des sources consultées, si bien que les réponses qu’il obtient ne sont pas assez nombreuses pour être satisfaisantes, la réponse peut aussi être vide (Chakravarthy, Grant et Minker 1990, Gaasterland, Godfrey et Minker 1992).

Lorsque, pour une raison donnée, une requête ne peut trouver de réponse ou a trop peu de réponses par rapport à ce qui est normalement attendu, la proposition d’une solution à une requête proche de la requête initiale rend compte d’une forme de coopérativité dite de relaxation. Dans ce type de réponse, la requête est réécrite soit sous une forme généralisée, et ce graduellement (relaxation de contraintes ou référence à un concept plus générique), soit en faisant appel à des concepts frères dans l’ontologie du domaine. La portée de la requête est étendue afin de rassembler plus d’informations dans les réponses. Nous avons par exemple : «Quelle est la ligne de métro qui dessert l’aéroport d’Orly?» Aucun métro ne va jusqu’à Orly, vous pouvez prendre la ligne de métro 7 puis le JetBus, ou l’OrlyBus de la station de métro Denfert-Rochereau, ou bien …

4.1.4 Les réponses conditionnelles

Une requête peut avoir une réponse ou un ensemble de réponses sous certaines conditions. Il convient dans ce cas de présenter la ou les solutions avec les conditions qui les accompagnent (Burhans 2002). Par exemple, «Quelles sont les réductions que vous proposez pour les trains?» appelle Si vous avez moins de 25 ans, vous avez une réduction de 25 %, si vous avez plus de 60 ans, vous avez une réduction de 35 %, si vous voyagez à deux, vous avez une réduction de 50 %.

4.1.5 Les réponses partielles ou incomplètes

Ces réponses (Bonnet et Tomasic 1998) sont déduites à partir de sources d’informations hétérogènes et dont le contenu peut varier dans le temps. C’est le cas des informations sur Internet où les sites disparaissent ou sont mis à jour fréquemment. Les informations sont souvent présentées sous forme de «warning» qui indique la dépendance ou la variabilité temporelle des informations. Voici quelques exemples extraits de notre corpus : «Puis-je payer un billet de train sur le site Web de la SNCF?» Oui, mais les paiements en ligne sont temporairement indisponibles, un nouveau service sera ouvert le mois prochain. «Dois-je avoir un visa pour aller en Bolivie?» Étant donné les variations constantes dans la législation, veuillez contacter l’ambassade de Bolivie pour une mise à jour des réglementations.

4.1.6 Les réponses additionnelles

Derrière une question, il y a souvent une intention sous-jacente, un objectif à atteindre par la personne qui pose la question (Sadek 1996). Construire une réponse additionnelle (dite également complétive) consiste à fournir des informations supplémentaires qui n’ont pas été explicitement demandées mais dont l’intérêt pour l’interlocuteur a d’une façon ou d’une autre été inféré à partir du contexte de la demande. Ceci permet d’anticiper d’éventuelles questions futures. Voici quelques exemples extraits de notre corpus : «Vos chambres ont-elles une vue sur le fleuve?» Oui. De chacune de nos chambres vous avez une vue (limitée et non panoramique) sur le fleuve. «Votre gîte donne-t-il accès au fleuve?» Non. Notre terrain et notre gîte sont situés à 300 mètres du fleuve, qui est accessible par un chemin de terre.

Différents travaux on déjà été réalisés, dans le contexte des bases de données, pour mettre en oeuvre certaines de ces fonctions coopératives. Aucun de ces systèmes ne génère de réponses en langue naturelle, mais seulement des formules. Une excellente synthèse de ces aspects est présentée dans Gaasterland, Godfrey et Minker 1994. Parmi les quelques systèmes développés, citons Cooperative AnsweRing Meta Interpreter (CARMIN) de Minker (Chakravarthy, Grant et Minker 1990) : la base de données est déductive et le générateur de réponses coopératives utilise la programmation logique. CARMIN inclut dans le traitement une modélisation des malentendus, fausses présuppositions, réponses intentionnelles, réponses relaxées, ainsi que les préférences et intentions de l’utilisateur. Cooperative Database Project (Cobase) (Minock et Chu 1996) est un système coopératif couplé à un système d’information géographique qui produit des réponses explicatives ainsi que des réponses relaxées. La plateforme PISCEL, pour sa part, produit des réponses relaxées et correctives à des requêtes exprimées en logique, dans un contexte médiateur (Bidault 2002).

4.2 Les réponses coopératives dans le corpus

D’une façon globale, on observe que les réponses de notre corpus sont structurées en deux temps. Nous trouvons dans un premier temps une réponse brève qui constitue une réponse directe à la question posée puis, dans un second temps, une élaboration de celle-ci qui fait apparaître le savoir-faire coopératif d’un agent humain. Cette élaboration peut être de nature très différente et prendre diverses formes. On y trouve des explications, des commentaires, des avertissements, des justifications ou bien encore l’anticipation de questions potentielles. Les exemples suivants illustrent cette analyse : «Pouvons-nous réserver par courrier électronique?» La réponse peut être décomposée en deux parties : la première est une réponse directe à la question («Oui.»), la deuxième est une élaboration contenant deux types d’informations, d’abord une suggestion : «C’est la méthode que nous préférons.», puis un commentaire : «Nous vérifions notre boîte de courrier électronique plusieurs fois par jour et nous répondons à nos courriers dans un délai inférieur à 6 heures.».

De même, «Vos chambres sont-elle climatisées?» La première partie de la réponse est un simple «Non». La deuxième partie est plus informative et précise le type de climatisation des chambres («Chacune de nos chambres est munie d’un ventilateur à vitesse variable sur pied.»). Cette explication corrige en quelque sorte le caractère abrupt du non de la première partie de la réponse et évite que l’usager infère qu’il n’y a aucune climatisation.

Un autre exemple : «Devons-nous réserver d’avance pour aller à votre gîte?» La première partie de la réponse est de forme textuelle et de type narratif (pas seulement oui ou non), elle indique qu’il est préférable de réserver : «À Saint-Jean-Port-Joli, il est préférable de réserver, surtout en haute saison (juin, juillet et août) quelle que soit la maison d’hébergement.» Suivent un ensemble d’informations et de justifications : «Plus de 90 % de nos locations reposent sur une réservation préalable. Nous commençons à recevoir des réservations pour l’été, dès février, surtout de la part des Européens qui planifient longtemps d’avance leurs vacances au Québec.»

La décomposition des réponses en deux temps telle qu’observée dans le corpus n’est pas systématique. En effet, dans certains cas, la réponse est simplement directe, car la question ne nécessite pas d’élaboration particulière. Par exemple, la question «Qu’est-ce que vous servez au petit déjeuner?» a la réponse directe suivante : «Des petits déjeuners complets: jus, céréales, fruits, croissants, confitures maison, cretons maison, oeufs ou omelettes (pondus par des poules artisanales!); bacon, saucisses (exclusives et de fabrication artisanale), pain maison, crêpes, pain doré (pain perdu)...café, thé...»

Dans d’autres cas, par contre, la réponse ne contient que des élaborations. Par exemple, la question «Êtes-vous près du théâtre et du restaurant de la Roche à Veillon?» a comme réponse l’élaboration suivante : «La Roche à Veillon est située sur la 132, dans la partie est du village, à environ 8 km de notre gîte.»

4.2.1 Caractéristiques d’une réponse directe

Le contenu d’une réponse directe est généralement lié au type de la question posée. Ainsi, si la question est de catégorie conceptuelle «booléen», la réponse est oui, non, peut-être, je ne sais pas, c’est probable, etc.; dans les autres cas, la réponse est textuelle, par exemple :

«Que peut-on s’attendre de votre menu à la carte?»

Outre le français approximatif de la question, on notera que la réponse est une simple énumération qui répond bien et complètement à la question posée : «Nous cuisinons le saumon, les moules, l’agneau, le poulet, le veau.»

«Quelle est la procédure pour confirmer une réservation?»

La réponse précise une procédure à suivre : «Si vous voulez confirmer votre réservation, appelez-moi au numéro sans frais au 1 866-lucarne 1 – 866 – 582 – 2763 (à partir du Canada). De l’étranger il faut composer le 1 – 418 – 736 – 5435.»

En complément des réponses directes énumératives ou de type procédural, on rencontre aussi des réponses à caractère intensionnel, qui remplacent des énumérations longues et peu informatives, et évitent de rentrer dans un détail qui n’est pas attendu par l’utilisateur. Par exemple, à la question générale : «Les gîtes du sud de la France ont-ils une piscine?», il est répondu de façon globale, et pertinente : «Une majorité en ont.» À l’utilisateur de formuler ensuite, s’il le désire, une question plus précise, qui aura une réponse plus précise.

4.2.2 Caractéristiques des réponses de type élaboration

Voici les principales formes d’élaborations déduites à partir du corpus. Il est important de noter qu’une élaboration peut combiner plusieurs des formes ci-dessous. Par souci de concision, nous nous limitons à un ou deux exemples types par forme de coopérativité. Nous nous sommes limités à une analyse qualitative, le quantitatif n’étant guère pertinent à notre sens. Dans cette présentation, nous partons des problèmes directement soulevés par la question, puis montrons comment les différentes fonctions coopératives sont employées dans la partie savoir-faire de la réponse.

4.2.2.1 Formes coopératives liées au contenu des questions

Les explications liées à de fausses présuppositions sont générées quand le questionneur a une mauvaise conception du domaine. Par exemple :

«Quelle ligne de métro va à l’aéroport d’Orly?»
«Le métro ne va pas jusqu’à l’aéroport d’Orly, il faut prendre le RER ou le bus.»

L’élaboration de la réponse consiste ici à expliquer la fausse présupposition, puis à faire appel à des concepts frères de métro, pertinents par rapport à la question. Ceci est une forme de relaxation, minimale par rapport aux attentes de l’usager. Par exemple, le taxi n’est pas proposé puisqu’il n’est pas considéré comme un transport en commun.

Les réponses relaxées consistent à répondre non pas à la question telle qu’elle a été posée mais à répondre par rapport à certains concepts frères (utilisés prioritairement) ou plus généraux. C’est un phénomène très fréquent, l’art des réponses relaxées consistant à trouver la relaxation minimale pertinente.

La question : «Peut-on louer des VTT au gîte?» reçoit la réponse : «Non, nous louons seulement des vélos pour la promenade sur la route, la région ne se prête pas à la pratique du VTT.»

«VTT» est généralisé en «vélo». La réponse se termine par une justification de la réponse négative.

La réponse à «Combien y a-t-il de TGV entre Bordeaux et Toulouse?» est plus complexe dans sa stratégie coopérative : «Il y a 2 TGV par jour, mais il y a aussi 12 trains Corail presque aussi rapides.» La relaxation intervient même si la réponse a une solution, mais ce nombre de solutions est jugé insuffisant. C’est pourquoi «TGV» est relaxé en «train Corail», un concept frère, afin d’apporter un complément d’information. La réponse contient aussi des éléments inférés («par jour», et «aussi rapide», que nous verrons ci-dessous) et des éléments flous («presque»).

Les réponses intensionnelles constituent une large classe avec des aspects très variés. Les formes les plus simples consistent en des tris d’informations, par exemple une liste d’hôtels par nombre d’étoiles ou bien par distance d’un lieu précis (gare, aéroport) comme dans l’exemple sur les hôtels en 4.1.2. Une forme plus élaborée consiste à introduire de la quantification pour donner un caractère général à la réponse, tout en y apportant des restrictions ou des nuances :

«Avez-vous des lits doubles?» «Nos chambres ont toutes des lits doubles.»
«L’aéroport de Corte reçoit-il des vols privés?» «Cet aéroport n’est ouvert qu’aux vols privés, pour des appareils inférieurs à une tonne, en période de jour légal et selon contraintes Notam.»

Enfin, une réponse intensionnelle peut comporter divers niveaux de généralisation sur les concepts : «Quels moyens de transport desservent l’aéroport de Genève?» «Tous les transports publics de la ville ainsi que les taxis desservent l’aéroport de Genève.»

Les réponses à des questions floues tentent d’interpréter au moins partiellement les termes flous, tels que des adjectifs évaluatifs. À une question du type : «L’Hôtel du Parc est-il cher?», il est souvent répondu par un ensemble bref de comparaisons à caractère générique qui ouvrent des choix à l’usager : «L’Hôtel du Parc est un hôtel 3 étoiles qui est cher pour sa catégorie, vous trouverez de très bons 4 étoiles à un prix comparable.»

Les réponses inférées forment un type de réponse coopérative que nous avons découvert à travers nos corpus. En effet, cette catégorie n’a pas été établie dans les travaux présentés dans la section précédente; elle est cependant primordiale, car elle consiste à inférer des propos de l’usager des buts complémentaires majeurs. Ces buts sont inférés à partir de certains éléments de la question.

Par exemple, la question : «Votre maison est-elle près de la route 132?» ne doit pas être uniquement interprétée littéralement, bien que cela puisse être aussi porteur d’information sur l’accès à la maison. Comme le montre la réponse, c’est la présence de nuisances sonores qui est inférée de la question où est évoquée la proximité de la route :

«À Saint-Jean-Port-Joli, la route 132 prend le nom de de Gaspé. Notre demeure est sise le long de la route 132. Elle est située à environ 90 pi (ou 30 m) de la route. En règle générale après 21 h la circulation est relativement faible. Cependant il demeurera toujours que cette route est plus bruyante qu’une rue dans le quartier résidentiel d’une banlieue. Comme résidant de cette maison, nous dormons la fenêtre ouverte sans problème.»

Les avertissements  : ce type de réponse reflète la dépendance temporelle intrinsèque ou contingente des informations sur le Web. Les avertissements peuvent être aussi provoqués par une certaine confidentialité des données. Les avertissements sont mis en oeuvre par des marqueurs linguistiques spécifiques. Par exemple :

«Ai-je besoin d’un visa pour me rendre en Bolivie?»
«Vu les changements constants dans la législation, il est préférable de contacter l’ambassade de Bolivie de votre pays pour avoir des informations mises à jour. Si vous préférez, nous pouvons vous informer des procédures de demande.»

Dans cet exemple, l’avertissement : «Vu les changements constants…» informe le questionneur de la dépendance de la réponse par rapport à des variations dans la législation. C’est une réponse qui obéit à la maxime de qualité car la réponse véhicule un certain degré de crédibilité dans l’information. Ce type de réponse est plus informatif qu’un simple oui, non ou je ne sais pas.

On retrouve ce type d’avertissement dans toutes les requêtes liées à des ressources dont la disponibilité évolue rapidement, comme par exemple les sièges disponibles dans les avions, la disponibilité de chambres d’hôtel ou bien encore les tarifs des secteurs concurrentiels très évolutifs, comme les tarifs aériens.

Les informations additionnelles ne répondent pas explicitement à la question posée. Leur but principal est d’anticiper des questions futures. Le contenu de ce type de réponse est généralement inféré à partir du contexte de la demande. L’information additionnelle est tout à fait coopérative et peut préciser, justifier, expliquer, restreindre ou encore suggérer de l’information par rapport à la réponse directe fournie en première partie. Voici des exemples extrait du corpus :Précision :

«Êtes-vous situé dans le village de Saint-Jean-Port-Joli?»
«Oui. Le village de St-Jean-Port-Joli a environ 16 km de long. 8km de part

et d’autre de l’église qui sépare le village en 2 parties : la partie est et la partie ouest. Nous sommes situés dans la partie ouest à environ 2,8 km de l’église.»

La deuxième partie de la réponse est une précision par rapport à la situation du gîte dans le village. L’information additionnelle n’a pas été explicitement demandée, elle est toutefois utile à l’usager pour mieux situer le gîte.Restriction et justification :

«Acceptez-vous des cartes de crédit?»
«Oui. Nous acceptons la carte Visa. Depuis octobre 2001, nous n’acceptons plus Master Card car les frais d’administration de l’institution seront rendus trop élevés. Nous n’acceptons cependant pas les cartes guichet, car ce ne serait pas rentable (pour le nombre de fois que nous l’utiliserions) de louer le petit terminal pour autoriser le paiement par carte de guichet.»

Dans cet exemple, la première partie de la réponse est positive, tout en en restreignant la portée aux seules cartes Visa. L’information additionnelle justifie les raisons du refus des paiements par Master Card et cartes guichet. On comprend que, par défaut, les autres cartes ne sont pas acceptées.Suggestion :

«À quelle distance vous trouvez-vous du théâtre du Bic?»
«Le théâtre est à cinq ou six kilomètres du gîte et c’est préférable de s’y rendre en voiture

Enfin dans cet exemple, l’expert suggère un moyen de transport adéquat (ici la voiture) compte tenu de la distance du théâtre par rapport au gîte, donnée en première partie de réponse.

Les informations additionnelles non utiles sont à notre sens non coopératives, on pourrait les qualifier de bavardage inutile, qui n’apporte aucune connaissance particulière. De surcroît, ce type de réponse viole la maxime de quantité qui stipule qu’il faut être ni trop ni trop peu informatif. Nous avons identifié dans le corpus plusieurs paires de questions-réponses incluant ce genre d’information. Cela a permis de bien caractériser les cas typiques de non-coopérativité, à contourner lors de notre modélisation. Voici quelques exemples :

«Avez-vous des chambres avec salle de bain privée?»
«Non. Nos clients partagent une chambre de bain complète et une salle d’eau (toilette et lavabo).»
«Votre piscine est-elle chauffée?»
«Non. La température de l’eau est fonction de la température extérieure.»

4.2.3 Bilan de l’étude de corpus

Le lecteur peut constater la très grande diversité des modes d’expression des réponses coopératives ainsi que la superposition de différentes fonctions coopératives. Nous nous sommes, de surcroît, limités ici à des questions et à des réponses relativement brèves et concrètes. Nous retrouvons, sous des formes variées, les fonctions coopératives présentées dans la section 4.1. Nous y avons aussi trouvé d’autres fonctions ou stratégies comme le traitement des termes flous, l’induction à partir d’exemples (questions par l’exemple), l’inférence d’éléments implicites ou bien des stratégies de relaxation très minimales et très graduelles, faisant appel aux concepts frères plutôt qu’à des éléments plus génériques. Une modélisation plus avancée de ces facteurs et de la structure communicationnelle des réponses coopératives que nous développons est présentée dans Benamara et Saint-Dizier 2004.

Nous ne pouvons pas, bien entendu, simuler directement les formes présentées ci-dessus, mais plutôt en extraire l’essence du comportement coopératif et le transposer à une approche du traitement automatique de la langue. En premier lieu, la décomposition des réponses en deux parties : réponse directe ou diagnostic, puis élaboration de la réponse : expression du savoir-faire coopératif. Si la réponse de type diagnostic peut s’inspirer largement des formes rencontrées dans le corpus, il en va autrement de la partie savoir-faire. Celle-ci est nécessairement plus stéréotypée, car les modes de raisonnement logique sont plus rigides et les techniques de génération de langue naturelle relativement peu avancées. Par contre, nous pouvons tirer parti de certains modes d’expression propres à l’informatique et au Web en particulier, comme par exemple la navigation basée sur des liens hypertextuels. Cela simplifie très nettement la planification globale (Reiter et Dale 1997) de la réponse et la génération de surface en français. Cette approche, que nous présentons ci-dessous, laisse aussi une plus grande liberté de navigation et d’interprétation à l’usager. Enfin, elle pallie l’impossibilité de dialogue dans ce type d’approche en permettant d’accéder à de l’information complémentaire par une simple référence aux hyperliens derrière lesquels se cachent des requêtes nouvelles construites à partir de la requête initiale.

4.3 Modélisation informatique : architecture du système WEBCOOP

Nous présentons brièvement dans cette section une description générale des principales fonctionnalités de notre système de génération de réponses coopératives dans un environnement informatique-linguistique. Notre système, nommé WEBCOOP (Coopérativité pour le Web), est un système de génération de réponses coopératives allant de l’analyse de la question à la génération des réponses en langue naturelle. L’architecture générale de WEBCOOP est illustrée dans la figure suivante :

Fig. 5

Fonctions des réponses coopératives

Fonctions des réponses coopératives

-> Voir la liste des figures

Dans notre système, les questions des utilisateurs peuvent être de simples mots clés ou des expressions en langue naturelle. L’analyse de la question produit une représentation sémantique qui inclut la catégorie conceptuelle de la question, son focus ainsi que la représentation du corps de la question tel que présenté à la section 3. WEBCOOP utilise deux niveaux complémentaires de connaissances. Tout d’abord les connaissances extraites de pages web par un extracteur de connaissances qui associe à chaque page une représentation sémantique. Ensuite, les connaissances linguistiques de sens commun ainsi que les connaissances générales du domaine. Ces dernières sont acquises à la main et se présentent sous forme de règles de déduction, de faits de sens commun ainsi que de contraintes d’intégrité qui assurent la cohérence des données de la base. Nous ajoutons à cela l’ontologie du domaine du tourisme, construite également à la main, qui permet de hiérarchiser les principaux concepts du domaine via des relations de type «est un» et «partie de». Nous associons à chaque concept de l’ontologie des propriétés qui représentent les principales caractéristiques du concept. La représentation des connaissances adoptée dans WEBCOOP se base sur une version simplifiée de la structure lexicale conceptuelle (LCS) (cf. section 3.3), ce qui semble appropriée à nos besoins.

Le moteur d’inférences permet de confronter la question avec la base des documents web en utilisant des procédures de raisonnement qui construisent les formules logiques associées aux réponses coopératives répondant au mieux à la question posée. Les réponses fournies sont structurées en deux parties.

Tout d’abord, le moteur d’inférences tente de détecter d’éventuelles fausses présuppositions ou malentendus qui peuvent empêcher la question d’avoir une réponse. Si un conflit est détecté, alors le système fournit un diagnostic qui explique les raisons de l’échec de la question. Ceci est un premier niveau de coopérativité.

La deuxième partie de la réponse est la plus intéressante et la plus originale. Elle permet d’aller au delà des systèmes actuels de réponses coopératives en proposant un véritable savoir-faire coopératif qui vient compléter la réponse fournie en première partie du générateur. Ce composant est basé sur les différents composants présentés en 4.1 et ceux que nous avons découverts dans le corpus. Le composant de savoir-faire permet également la détermination dynamique des fragments de textes à représenter comme des hyperliens, à partir desquels l’usager peut obtenir de l’information additionnelle. Le composant de savoir-faire coopératif permet de fournir une réponse quand : 1° la question comporte des malentendus ou des fausses présuppositions; 2° l’ensemble des réponses est vide ou trop grand; 3° la réponse nécessite une élaboration.

Ce composant est basé sur des techniques de descriptions intensionnelles ainsi que sur des procédures de relaxation intelligentes qui vont au delà des procédures de généralisation classiques. Ce composant inclut également des règles de coopérativité dédiées qui génèrent, entre autres, des réponses inférées (cf. sous-section 4.2.2).

Les réponses produites par le système ont un caractère dynamique, en intégrant les techniques classiques de génération en langue naturelle avec la technique d’hyperlien. Les hyperliens sont créés dynamiquement au moment de la génération des réponses.

4.3.1 Quelques exemples de prototypes

Nous illustrons à présent la structuration des nos réponses coopératives à partir de quatre exemples types. Nous présentons exactement la nature et la mise en forme des réponses et en expliquons brièvement les fonctions coopératives sous-jacentes mises en oeuvre (Benamara et Saint Dizier 2003b).

Exemple 1

Supposons qu’un usager désire louer un chalet acceptant 15 personnes en Corse. Supposons également que des observations effectuées sur les pages web, modélisées sous forme de contraintes d’intégrité, indiquent que la capacité maximum d’un chalet en Corse est de 10 personnes. La réponse suivante est alors produite :

Fig. 6

Copie d’écran

Copie d’écran

-> Voir la liste des figures

La première partie de la réponse est un diagnostic de malentendus qui indique à l’usager qu’une fausse présupposition est détectée (méconnaissance de ce qu’est un chalet), causée par la violation d’une contrainte d’intégrité du domaine. La confrontation de la formule logique de la question avec le contenu de la base de connaissances, implique la génération du message suivant : la capacité maximum d’un gîte touristique en Corse est de 10 personnes.

Étant donné que la première partie de la réponse est productive, mais pas nécessairement utile pour l’usager, le composant de savoir-faire coopératif va générer dans un deuxième temps un ensemble de solutions flexibles comme illustré dans la figure ci-dessus.

Trois solutions coopératives sont générées à partir d’inférences basées, dans ce cas, sur la base de règles de relaxation minimales qui font appel à la structure fine du domaine. L’ordre de présentation peut varier si, par exemple, on introduit des préférences. La présentation globale sous forme d’énumération nous paraît efficace et lisible. Enfin, nous n’excluons pas le recours à des paraphrases s’il s’avère que certaines expressions sont trop abstraites pour le lecteur. Les propositions du composant de savoir faire coopératif sont conçues comme suit. La première solution, et la plus immédiate, consiste à proposer deux gîtes touristiques proches satisfaisant la contrainte de l’usager. La génération de cette solution est basée sur une relaxation sur la cardinalité, que nous considérons comme la relaxation minimale, lorsqu’elle est pertinente. Cette forme est l’une des originalités de notre projet. Nous ne l’avons pas non plus trouvée dans les corpus. Pour les deux autres solutions, le processus de relaxation opère graduellement sur des concepts tels que le type d’hébergement (hôtel ou pension), ou encore sur la région. Nous avons une relaxation sur des concepts frères, tout l’art résidant dans le choix de ces frères et dans le dosage des contraintes préservées. Les hyperliens dynamiquement générés sont soulignés. L’usager peut ainsi, avoir plus d’information, selon son désir, à partir de la base de données des pages web. Ce type de présentation simplifie beaucoup la construction de la réponse, et évite, par exemple, un emploi massif de connecteurs.

Exemple 2

Dans le second exemple, l’usager demande les vols de Paris vers Albi. La fausse présupposition de l’usager étant détectée, le diagnostic des malentendus génère la réponse suivante : «Il n’y a pas d’aéroport commercial à Albi.»

Fig. 7

Copie d’écran

Copie d’écran

-> Voir la liste des figures

Le composant de savoir-faire va au delà de la première réponse en proposant d’autres villes desservies depuis Paris. Des procédures de relaxation sont d’abord utilisées, puis l’implication scalaire (ou intensionnelle) qui classe les aéroports desservis de Paris par distance croissante par rapport à Albi. Les noms des aéroports sont générés comme des hyperliens afin d’obtenir (sur demande) les horaires des vols correspondants.

Exemple 3

Un autre type intéressant de coopérativité est l’interprétation flexible des termes flous de la question (figure 8). Supposons qu’un utilisateur demande un gîte près de la mer sur la Côte d’Azur.

Fig. 8

Copie d’écran

Copie d’écran

-> Voir la liste des figures

Des techniques basées sur des considérations géométriques et statistiques calculent la distance de chaque gîte touristique de Côte d’Azur par rapport à la mer puis forment des ensembles de réponses organisées en intervalles de distances déterminées dynamiquement. Le système ne procède donc pas à une interprétation du terme flou, mais en propose un ensemble d’analyses dont le choix est laissé à l’utilisateur. Quand l’utilisateur clique sur un intervalle, le composant intensionnel produit une synthèse des réponses selon, par exemple, la localisation du gîte touristique tels que : montagne, campagne, bord de rivière ou de lac… Pour assurer une bonne homogénéité à la réponse par rapport à la question, ces concepts sont au même niveau ontologique que «bordure de mer».

Exemple 4

Le dernier exemple que nous présentons dans cet article illustre une coopérativité de type inférence. Supposons que l’usager pose la question suivante : «Le camping la belle étoile est il près de la route?» (figure 9).

Fig. 9

Copie d’écran

Copie d’écran

-> Voir la liste des figures

La première partie de la réponse est une réponse directe extraite des faits de la base de connaissances qui informe l’usager de la distance exacte du camping par rapport à la route. Cette réponse est largement plus informative qu’un simple oui ou non. La deuxième partie de la réponse est déduite via des règles de savoir-faire qui gèrent l’implicite dans les questions. Elles infèrent à partir de la question la notion de circulation et de nuisance sonore ou de danger pour les enfants. La réponse additionnelle est alors : «c’est une route circulée».

Afin d’être encore plus coopératif, le système génère, via des procédures de relaxation, un ensemble de solutions flexibles qui proposent des campings loin de la route.

5. Conclusion

Nous avons présenté dans ce document une démarche analytique mixte pour la réalisation d’un système automatique de génération de réponses coopératives à des requêtes posées sur le Web. Cette démarche repose sur une analyse détaillée des modes opératoires d’agents humains en situation de production de réponses coopératives via le courrier électronique. Cette analyse se base largement sur des fonctions coopératives de base développées, mais peu motivées empiriquement, dans le cadre de travaux en intelligence artificielle. Nous avons complété ces modes opératoires par de nouveaux modes, trouvés dans les corpus.

Nous avons ensuite montré comment une réponse coopérative intégrait différentes fonctions coopératives et quelle était l’architecture globale d’une réponse. En nous appuyant sur la technologie des hyperliens, et en prenant en compte les limites et les particularités du traitement automatique du langage naturel, nous avons alors montré comment un système informatique peut être construit et comment il pouvait produire des réponses coopératives et sous quelle forme.

Ce travail est à présent relativement bien avancé. Au niveau de l’implémentation, compte tenu de la complexité d’un tel système, nous utilisons la méthode des cas tests. Cette méthode, employée en milieu industriel pour du prototypage, consiste à définir un nombre restreint de cas bien choisis (une trentaine dans notre cas), et à baser l’ensemble de l’implémentation sur ces cas. Dans une seconde étape, des généralisations sont apportées avec soin : vocabulaire, grammaire, ontologie bien évidemment, mais aussi règles coopératives généralisées. Enfin, un ensemble d’autres questions sont élaborées pour tester et «faire la recette» du système puis évaluer son niveau de montée en charge. Si celui-ci est trop faible, le prototype risque d’être insuffisant; à nous alors de l’étendre par rapport à ses insuffisances.

Parties annexes