Article body

Introduction

ALSI, pour Analyseur lexico-syntaxique intégré, est un outil automatisé de traitement du langage naturel qui extrait un ensemble d’attributs caractérisant la complexité intrinsèque du texte. Nous avons créé ALSI pour répondre à certains besoins dans le domaine de la mesure et de l’évaluation en éducation. Par exemple, un outil d’analyse linguistique peut aider à sélectionner des textes appropriés selon l’âge des élèves et les objectifs pédagogiques. Un analyseur similaire, SATO-Calibrage (Daoust et al., 1996), est disponible actuellement sur le Web, mais date des années 1990 et n’a pu profiter des innovations théoriques et méthodologiques concernant les sources de difficultés du texte et leur mesure automatisée. ALSI s’appuie sur des avancées techniques et théoriques plus récentes, comme la base de données de l’Échelle québécoise de l’orthographe lexicale (ÉQOL) (Stanké et al., 2019), Manulex (Lété, 2004), de même que les travaux entourant l’outil anglo-saxon Coh-Metrix (McNamara & Graesser, 2011). Le présent article poursuit deux objectifs : d’abord présenter ALSI, son contexte théorique et ses fonctions, ensuite effectuer un premier essai de validation en analysant 600 textes utilisés aux niveaux primaire et secondaire au Québec.

La complexité linguistique en mesure et évaluation de l’éducation

En phase avec la théorie de la charge cognitive (Clevinger, 2014), on peut se représenter la complexité du texte comme émergeant de facteurs intrinsèques et extrinsèques. La complexité intrinsèque au texte est celle qui peut être ramenée à ses caractéristiques mesurables, appelées attributs (en anglais, features). La longueur des phrases est un exemple classique d’attribut du texte (Flesch, 1948; Szmrecsányi, 2004). La complexité extrinsèque dépend d’un ensemble de facteurs qui ne peuvent se mesurer à partir du texte, dont les caractéristiques du lecteur, l’intention de lecture, la situation, l’aide fournie au lecteur, etc. De manière similaire, Zakaluk et Samuels (1988) parlent de facteurs «  en dehors de la tête » et « dans la tête ». Nous proposons en ce sens l’analogie d’un parcours à obstacles dont la difficulté résulte à la fois des caractéristiques du parcours (attributs linguistiques) et de l’athlète (la personne lisant le texte). Modéliser la complexité du texte représente un défi important puisqu’il faut, en s’appuyant sur des mesures faites à partir du texte, émettre des hypothèses quant à ce qui serait susceptible d’augmenter la charge cognitive du lecteur.

L’analyse de la complexité linguistique a de multiples applications dans le domaine de l’éducation, notamment pour la sélection de textes et de manuels favorisant l’apprentissage en fonction des caractéristiques des élèves (Graesser et al., 2004). Il s’agit d’un aspect peu abordé, mais important de la démarche de conception des tests (Lane et al., 2015; McNamara et al., 2012 Visone, 2009). Contrôler les attributs linguistiques de l’item permet d’atténuer la variance indésirable attribuable à la langue. La variance indésirable (construct irrelevant variance) est le degré d’influence sur les scores de processus étrangers à l’objectif d’un test. Selon les Standards, la difficulté linguistique de l’item est l’une des sources potentielles de variance indésirable qu’il faut contrôler lorsque c’est possible (Joint Committee on Standards for Educational and Psychological Testing, 2014; Lane et al., 2015). L’influence de la langue sur la réponse à l’item a été démontrée par plusieurs travaux. Par exemple, des études réalisées en contexte suédois (Persson, 2016), sud-africain (Dempster & Reddy, 2007) et américain (Martiniello, 2009) ont révélé la présence de biais linguistiques dans des tests standardisés de mathématiques.

Les aspects linguistiques de l’évaluation ne sont pas uniquement une source de variance indésirable. Leur influence peut être désirable lorsque la langue fait partie, ou ne peut être séparée, de la compétence évaluée (Avenia-Tapper & Llosa, 2015). Par exemple, des études de traitement automatique des langues résumées par Crossley (2020) ont montré une association statistique entre le score attribué à la qualité de l’écriture en anglais langue seconde et certains attributs linguistiques portant sur la complexité des phrases. Ce type d’études soutient l’idée que le traitement automatique des langues peut aider à mesurer la complexité linguistique.

Mesurer la complexité linguistique

La complexité du texte en langue anglaise a depuis longtemps été mesurée par des formules de lisibilité s’appuyant sur des attributs dits « de surface » (Benjamin, 2012; Feng et al., 2010), typiquement la longueur moyenne du mot et de la phrase. La situation est similaire du côté francophone : quelques formules de lisibilité conçues pour l’anglais ont été adaptées pour la langue française, d’autres créées spécifiquement pour le français (Mesnager, 1989). L’usage intensif des attributs de surface a été grandement critiqué, principalement parce que ceux-ci tiennent peu compte d’éléments de complexité découlant du caractère subjectif de la lecture (Boyer, 1992). Les comptes-rendus historiques sur la modélisation de la complexité linguistique concluent assez unanimement que l’utilisation d’attributs de surface n’est pas suffisante pour mesurer correctement la complexité linguistique, et proposent plutôt de s’orienter vers des attributs théorisés en psycholinguistique (Boyer, 1992; François, 2015; Kintsch & Vipond, 2014; McNamara et al., 2012; Zakaluk & Samuels, 1988). C’est dans cette perspective que nous avons créé l’analyseur linguistique présenté dans cette étude.

Pourquoi créer un nouvel outil ?

ALSI, pour analyseur lexico-syntaxique intégré, est un outil de traitement automatique du langage naturel créé dans l’objectif de modéliser la complexité du texte en français utilisé en enseignement primaire et secondaire. Des outils ont déjà été proposés dans des visées similaires; nous en résumons les caractéristiques. Développée dans les années 1990, la plateforme québécoise d’analyse textuelle SATO-Calibrage (Daoust et al., 1996) est toujours disponible en ligne. SATO-Calibrage extrait des attributs relativement simples, comparativement aux outils anglo-saxons tels Coh-Metrix (Grasser et al. 2011), que nous décrivons dans les sections suivantes de cet article. DMesure et Amesure s’appuient sur des travaux de linguistique computationnelle (François, 2009; François & Fairon, 2012; François & Miltsakaki, 2012). Dmesure classifie des textes en français langue seconde selon les six niveaux du Cadre européen commun de référence. Amesure se spécialise dans l’estimation de la lisibilité de documents en français des affaires, ce qui en réduit l’intérêt en éducation primaire et secondaire. ReaderBench a été conçu dans une approche similaire à Dmesure pour analyser du texte en plusieurs langues, dont le français (Dascalu et al., 2013) et produit un grand nombre d’attributs linguistiques. Dmesure et ReaderBench n’étaient cependant plus disponibles au moment de publier le présent article, motivant la création d’un nouvel analyseur de texte en français répondant à des besoins actuels.

La présente étude

L’objectif général de cette étude est de présenter un nouvel outil d’analyse de la complexité linguistique et d’énoncer en sa faveur un argumentaire de validité (Loye, 2018) en deux parties. La première partie est une vue d’ensemble de l’outil ALSI, qui résume son fonctionnement général. Elle décrit les types d’attributs extraits et les procédures utilisées pour les extraire. Nous nous appuyons sur des travaux de psycholinguistique et de linguistique computationnelle pour expliquer ce qui relie ces attributs à la complexité linguistique. La deuxième partie explique l’utilisation d’ALSI sur un corpus de 600 textes. Nous identifions des attributs ayant un potentiel intéressant pour estimer la difficulté de textes, exprimée sur l’échelle des 11 années scolaires du système primaire et secondaire québécois.

L’outil ALSI

Fonctionnement général d’ALSI

ALSI est un outil de traitement automatique du langage naturel spécialisé dans l’extraction d’attributs caractérisant la complexité linguistique des textes français. Le texte est d’abord décodé, puis transformé en une liste de mots (tokens) annotés[1]. Les annotations incluent le lemme (forme canonique du mot), la partie du discours ou classe de mot (nom, verbe, adjectif, etc.), les relations hiérarchiques entre les mots et des informations périphériques (temps verbaux, genre, nombre, etc.). D’autres annotations sont ajoutées par croisement avec des bases de données spécialisées que nous décrivons plus loin. Le résultat, illustré à la Figure 1, constitue une matrice dont chaque ligne représente un mot et chaque colonne une information ou une mesure portant sur le mot.

Des opérations sur la matrice de mots produisent ensuite divers attributs linguistiques au niveau de la phrase et de l’ensemble du texte. Par exemple, le nombre de mots divisé par le nombre de phrases donne un attribut linguistique : la longueur moyenne des phrases du texte. De même, analyser la matrice des mots permet d’identifier lesquels sont des verbes conjugués; en divisant leur nombre par le nombre de phrases du texte, on obtient un attribut indiquant le nombre moyen de verbes conjugués par phrase. Nous détaillons dans ce qui suit les types d’attributs extraits par ALSI ainsi que leurs bases théoriques et leurs procédures d’extraction.

Typologie des attributs extraits par ALSI

Les attributs extraits par ALSI s’inscrivent dans une typologie simple ayant pour but de regrouper les attributs en catégories cohérentes reposant sur des caractéristiques similaires du texte, tout en exprimant une vision nuancée de la complexité de ce dernier. Cette typologie est composée de deux dimensions : 1) la complexité lexicale, qui est associée aux mots du texte, et 2) la complexité syntaxique, qui est associée à l’agencement des mots en phrases et au rôle que jouent les mots dans la phrase. Ce choix est motivé par le fait que la complexité du texte est fréquemment définie comme l’intersection d’une composante lexicale et d’une composante syntaxique (Ravid, 2005), une division cohérente avec le cadre conceptuel Simple View of Reading (Gough & Tunmer, 1986) tout en étant en phase avec le choix d’attributs des plateformes d’analyse de langue anglaise ATOS (Milone, 2014) et Lexile (Smith et al., 1989). Tel que l’illustre le Tableau 1, les deux dimensions sont subdivisées en trois strates : 1) attributs de surface, 2) attributs dont l’extraction nécessite le recours à des bases de données lexicales ou à une procédure automatisée d’analyse syntaxique et 3) attributs qui qualifient la complexité linguistique de manière plus globale (par exemple, les mesures de cohésion).

Figure 1

Exemple d’analyse automatique d’un extrait de texte

Exemple d’analyse automatique d’un extrait de texte

Note. Décodage, lemmatisation et identification de la partie du discours avec la librairie UDPipe pour R (Straka et al., 2016). Fréquence et longueur des mots tirées de la base de données ÉQOL

Stanké et al., 2019

-> See the list of figures

Tableau 1

Typologie des attributs extraits par ALSI

Typologie des attributs extraits par ALSI

-> See the list of tables

Les attributs extraits par ALSI et considérés dans le présent article sont décrits au Tableau 4 présenté dans le matériel supplémentaire de l’article. Notons qu’ALSI emploie une nomenclature où le suffixe indique quelle était la fonction d’agrégation employée : m est une moyenne, logm est la moyenne des valeurs transformées sur une échelle logarithmique, p est une proportion, 90 est le 90e percentile et i est un indice.

Annotation du corpus

Les textes à analyser prennent initialement la forme des fichiers en format .txt, chaque fichier contenant un texte. Le décodage et l’annotation du texte utilisent la librairie UDPipe pour le langage R, version 0.8.9 (R Core Team, 2022; Wijffels, 2022). La typologie des annotations est celle du cadre Universal Dependency (De Marneffe et al., 2014). L’annotation avec UDPipe requiert un modèle du texte de langue française préentrainé par technique d’apprentissage machine. Ce modèle est ce qui permet d’identifier la partie du discours (nom, verbe, etc.) et les relations syntaxiques entre les mots. Le modèle utilisé était French-GSD 2.5 (Guillaume et al., 2019).

Analyse lexicale

L’analyse lexicale produit des attributs estimant la difficulté associée aux mots. Dans sa première version, ALSI s’appuie sur trois lexiques de référence : Manulex, ÉQOL, et la Liste orthographique du ministère de l’Éducation du Québec. Manulex (Lété, 2004) contient environ 49 000 mots et a été compilé à partir de 54 manuels scolaires (niveaux scolaires CP à CM2 du système français) représentant environ deux millions de mots. ÉQOL (Stanké et al., 2019) est un lexique créé pour le système scolaire québécois et contient 16 652 mots tirés de manuels et d’ouvrages de littérature jeunesse dont le niveau va de la 1re à la 6e année du primaire. La Liste orthographique du ministère de l’Éducation du Québec est disponible via le projet Franqus de l’Université de Sherbrooke et contient 3 314 mots classifiés en six niveaux scolaires allant de la 1re à la 6e année du primaire ou 4921 mots après ajout des formes plurielles manquantes pour les noms communs.

Pour les attributs portant sur les fréquences d’occurrence, ALSI emploie les indices de fréquence standardisée (standard frequency index). Les attributs lexicaux des strates 1 et 2 sont produits à partir du lexique (liste de mots uniques) du texte, chaque lexème ne comptant alors qu’une fois[2]. Si un mot est absent de Manulex ou d’ÉQOL, la fréquence manquante est imputée à l’aide de la méthode d’estimation de fréquence de Good-Turing (pour une explication, voir Gale et Sampson, 1995).

ALSI estime en outre la diversité lexicale, qui est la tendance à employer un vocabulaire diversifié, les textes plus simples ayant davantage tendance à réutiliser les mêmes mots. Plusieurs formules existent pour ce faire (Fergadiotis et al., 2015); ALSI calcule le rapport type-jeton (type-token ratio) et l’indice de Maas (1972). Le rapport type-jeton estime la diversité lexicale en divisant le nombre de mots uniques par le nombre total de mots (longueur du texte). L’indice de Maas est une mesure similaire, calculée selon cette formule, T étant le nombre total de mots et U le nombre de mots uniques :

Analyse syntaxique

Alors que les attributs portant sur la longueur des phrases sont calculés directement à partir de la liste annotée de mots (voir Figure 1), d’autres attributs syntaxiques requièrent des analyses supplémentaires. La hauteur (ou la profondeur) de la phrase, comptée en nombre de noeuds (nodes) est un indicateur de complexité syntaxique fréquemment employé (Sherstinova et al., 2020). Soit une phrase représentée comme un graphe hiérarchique, sa hauteur correspond au chemin le plus long reliant un mot à la racine de la phrase (Blache, 2010). ALSI utilise pour ce calcul l’arbre représentant les dépendances syntaxiques entre les mots. La Figure 2 présente un exemple d’arbre syntaxique dont la hauteur est 4, le chemin le plus long allant du mot leur à la racine de la phrase qui est endormirent.

Figure 2

Représentation graphique d’une phrase

Représentation graphique d’une phrase

Note. L’encadré indique un groupe nominal complexe, dans ce cas un nom avec groupe participial, détecté à l’aide de la librairie rsyntax (Welbers et al., 2020). Voir De Marneffe et al. (2014) pour la liste des sigles. Figure produite avec rsyntax.

-> See the list of figures

ALSI extrait en outre des attributs portant sur la fréquence ou sur la longueur de constituants syntaxiques comme le groupe verbal, détectés avec la librairie rsyntax pour R (Welbers et al., 2020)[3]. Dans cette première version d’ALSI, nous avons ciblé les groupes verbaux et les groupes nominaux complexes. Le groupe verbal (GV) est opérationnalisé comme un groupe de mots dominé par un verbe conjugué. Le groupe nominal complexe (GNC) est opérationnalisé dans ALSI comme un groupe de mots dominé par un nom, en incluant ses expansions. ALSI peut détecter les expansions suivantes : l’adjectif, le groupe participial (voir Figure 2), la subordonnée relative, le groupe prépositionnel et le groupe infinitif agissant comme sujet du verbe (p. ex. Bien dormir est important).

Mesures de cohésion

Une cohésion accrue entre les phrases signifie que les entités mentionnées dans une phrase ont une probabilité plus élevée d’être à nouveau abordées dans la phrase suivante, ce qui peut faciliter la lecture (Graesser et al., 2004; Kintsch & Van Dijk, 1978). ALSI produit deux mesures de cohésion lexicale : l’une compare tous les lemmes uniques des phrases adjacentes, l’autre compare uniquement les noms communs et les noms propres. La cohésion lexicale est alors estimée en calculant la similarité cosinus entre phrases adjacentes alors représentées comme des vecteurs de mots (pour une explication du calcul, voir Han et al. 2012). Cette technique est employée notamment par l’outil Coh-Metrix (Grasser et al., 2004).

Dans le but d’estimer la cohésion syntaxique, ALSI crée pour chaque phrase du texte un vecteur contenant trois attributs syntaxiques préalablement convertis en scores standardisés afin d’être sur la même échelle : la longueur de la phrase, la hauteur de l’arbre syntaxique et le nombre de groupes nominaux complexes. Ces attributs ont été choisis puisqu’ils étaient, dans nos essais préliminaires, les trois attributs syntaxiques les plus corrélés avec le niveau scolaire. La cohésion syntaxique est ensuite estimée en calculant la distance euclidienne entre les vecteurs des phrases adjacentes. La distance obtenue est convertie en mesure de cohésion (similitude) en faisant 1/(d + 1), où d est la distance.

Méthodologie

Survol de la méthodologie

L’objectif des analyses était de tester la capacité de l’outil ALSI à extraire des attributs qui caractérisent la complexité linguistique de textes de langue française. Nous décrivons d’abord la composition du corpus de 600 textes que nous avons analysés à l’aide d’ALSI, puis la procédure appliquée pour sélectionner des attributs d’intérêt. Nous rapportons des mesures d’association statistique entre les attributs (considérés individuellement) et le niveau de difficulté du texte.

Corpus utilisé

Le corpus utilisé contenait 600 textes répartis entre 11 niveaux scolaires allant de la 1re année du primaire à la 5e secondaire, selon les niveaux du système scolaire québécois. Les années scolaires fournies par le matériel ont été considérées comme des niveaux de difficulté valides pour cette étude; les textes n’ont pas été reclassés. Les critères d’inclusion dans le corpus étaient les suivants : le texte devait avoir une longueur minimale de 30 mots (pour le primaire) ou de 100 mots (pour le secondaire), ne pas être principalement composé de dialogues ou de vers, et ne pas utiliser principalement le registre familier. Ce corpus a été constitué en combinant deux banques de textes selon une procédure illustrée à la Figure 3.

Figure 3

Combinaison puis répartition des textes provenant des banques SATO et ALSI

Combinaison puis répartition des textes provenant des banques SATO et ALSI

-> See the list of figures

La première banque de textes provient du développement et de l’étalonnage de l’analyseur SATO-Calibrage (Daoust et al., 1996) et contenait principalement des extraits de manuels scolaires et des examens de lecture destinés aux 11 niveaux scolaires du Québec. Après la séparation des documents contenant plus d’un texte, l’application de critères d’exclusion et l’élimination des doublons, la banque SATO contenait 656 textes. La deuxième banque de textes a été constituée dans le cadre de la présente étude et contenait principalement des extraits de manuels scolaires publiés au Québec après l’an 2000. Le niveau allait de la 6e année du primaire à la 5e secondaire. Afin d’augmenter la taille du corpus tout en uniformisant la longueur des textes, nous avons scindé en deux les textes de la banque ALSI dont le nombre de mots était plus de deux fois supérieur à la moyenne. Après ces divisions, la banque ALSI contenait 246 textes. Les informations paratextuelles suivantes ont été retirées des deux banques : numéros de page, de paragraphe ou de ligne et autres marques ajoutées par l’éditeur, remarques et définitions ajoutées en marge, les titres et les intertitres sauf lorsque ceux-ci formaient une phrase incluant au moins un verbe conjugué. Puisque ces informations sont généralement ajoutées par l’éditeur et ne sont pas présentes pour tous les textes, elles auraient pu influencer le traitement et fausser les résultats.

Le corpus formé en combinant les banques SATO et ALSI comptait 902 textes (43820 phrases). Nous avons réservé environ le tiers de ce corpus (sélectionné aléatoirement) pour une étude ultérieure en classification du texte, portant la taille du corpus utilisé par la présente étude à 600 textes (29709 phrases). La provenance des textes et leur distribution entre les niveaux scolaires sont indiquées au Tableau 2.

Tableau 2

Provenance du corpus utilisé et distribution entre les 11 niveaux scolaires

Provenance du corpus utilisé et distribution entre les 11 niveaux scolaires

-> See the list of tables

Procédure d’extraction et de sélection d’attributs

Nous avons analysé les 600 textes avec ALSI, produisant une matrice dont chaque ligne correspond à un texte, chaque colonne est un attribut et chaque cellule est la valeur numérique de l’attribut pour le texte (voir la Figure 1 pour un exemple simplifié). Compte tenu du grand nombre d’attributs et du fait que nombre d’entre eux sont très similaires, nous avons appliqué une procédure de sélection afin d’éliminer les attributs peu pertinents pour cette étude ou ceux qui contribueraient peu d’information à l’égard de la complexité du texte. Cette procédure en trois étapes se résume comme suit :

  1. Nous excluons d’emblée les attributs reflétant la longueur du texte, comme le nombre de mots, de phrases ou de paragraphes. Ces variables auraient pu introduire un biais lié à la manière dont le corpus a été formé, plusieurs textes ayant été subdivisés.

  2. Suivant la chaine de traitement proposée par Taneja et al. (2014), nous calculons le gain d’information de chaque attribut, puis retirons les attributs dont le gain d’information était de zéro. Le gain d’information (GI) est une statistique indiquant, dans notre cas, dans quelle mesure l’introduction d’une variable améliore la classification des textes comparativement au niveau de la chance. Il s’agit, en termes plus techniques, de la diminution de l’entropie de Shannon conditionnelle à l’introduction de la variable (Karegowda et al., 2010; Yang & Pedersen, 2022). Retirer les attributs ayant un GI nul élimine les attributs peu susceptibles d’ajouter de l’information à l’égard du niveau de difficulté (niveau scolaire associée au texte). Cela écarte du même coup les attributs dont la variance est nulle ou très faible.

  3. Nous identifions ensuite, à l’aide de la fonction findLinearCombos de la librairie caret pour R (Kuhn, 2011), les groupes d’attributs manifestant des dépendances linéaires. Ces conflits sont gérés en retirant les attributs du groupe un à un, tout en tentant de préserver les attributs ayant le GI le plus élevé. D’autres conflits sont finalement identifiés entre des combinaisons d’attributs produites à partir des mêmes mesures linguistiques ou ne différant que par l’échelle, l’attribut du groupe ayant le GI le plus élevé est conservé.

Les variables ayant passé chaque étape de sélection ont formé la sélection finale d’attributs. Nous avons en outre formé un sous-ensemble réduit de six attributs en sélectionnant le meilleur représentant (GI le plus élevé) des six catégories spécifiées dans la typologie d’ALSI.

Analyses statistiques

L’objectif des analyses était de décrire l’association statistique entre les attributs sélectionnés et le niveau de difficulté du texte, exprimé en niveaux scolaires (1ère année primaire à 5e secondaire) et considéré comme une variable ordinale. Les mesures d’association statistiques étaient le GI et le coefficient rho de Spearman avec intervalles de confiance à 95%. Les intervalles ont été calculés à l’aide de la méthode de Fieller, moins biaisée lorsque les données ont une distribution non normale (Bishara & Hittner, 2017). Afin de pouvoir examiner la progression des valeurs obtenues, nous avons de plus calculé la valeur médiane des attributs par niveau scolaire.

Résultats

La procédure de sélection a été appliquée à un groupe initial de 42 attributs produits par l’outil ALSI et considérés comme pertinents pour cette étude. Une liste complète des attributs considérés se trouve au Tableau 4 (matériel supplémentaire de l’article) et précise la raison du rejet, le cas échéant. Sur les 42 attributs considérés, 6 ont été retirés en raison d’un GI nul, aucun n’a été retiré en raison de dépendances linéaires, 18 attributs ont été retirés pour éviter des conflits entre attributs similaires (sur une échelle différente ou dérivés des mêmes mesures). La sélection finale comptait 20 attributs (8 lexicaux, 12 syntaxiques).

Le Tableau 3 indique l’association statistique entre le niveau scolaire et les attributs de la sélection finale en présentant le GI, le coefficient de Spearman et le type d’attribut selon la typologie décrite dans le présent article. Pour les 20 attributs sélectionnés, les coefficients de Spearman étaient significatifs à un seuil de p < 0,001 et les intervalles de confiance des coefficients de corrélation ne contenaient pas la valeur 0. La magnitude des corrélations était de faible à forte selon les barèmes d’interprétation suggérés par Akoglu (2018) pour la recherche en psychologie. Dans l’ensemble, la direction des corrélations était cohérente avec la nature des attributs mesurés, c’est-à-dire une corrélation positive lorsque la valeur numérique de l’attribut est censée augmenter avec la difficulté du texte, et vice versa.

Les attributs de la sélection réduite (GI le plus élevé de leur type) sont indiqués en caractères gras dans le Tableau 3. Il s’agit de : l’âge moyen de première apparition dans le lexique Manulex (ageManulex_m), la longueur orthographique moyenne (longMotOrtho_m), la longueur des phrases exprimée en nombre de mots (longPh_m), la cohésion syntaxique de phrase à phrase (cohesionSyn_m), la hauteur moyenne de l’arbre syntaxique de la phrase (hauteurPh_m), et l’indice de diversité lexicale de Maas calculé sur les lemmes (maas_lemma_i). La Figure 4 montre les distributions de ces six attributs par année scolaire, permettant de visualiser leur progression ainsi que la présence de valeurs aberrantes (outliers). Ainsi, cinq des attributs montrés à la Figure 4 avaient une progression généralement croissante; par exemple, la longueur moyenne des phrases passait d’environ 10 mots en 1re année à environ 20 mots en 7e année (première secondaire) à un peu moins de 30 mots en 11e année (5e secondaire). Dans le cas de la cohésion syntaxique, la progression était décroissante, suggérant que la cohésion diminue lorsque les textes deviennent plus complexes. Le Tableau 5 (matériel supplémentaire de l’article) dresse une liste des valeurs médianes par attribut et par niveau scolaire.

Tableau 3

Mesures de l’association statistique entre l’attribut et le niveau scolaire

Mesures de l’association statistique entre l’attribut et le niveau scolaire

Note. Statistiques calculées à partir d’un corpus de 600 textes, pour les 20 attributs sélectionnés et les 11 niveaux scolaires. GI indique le gain d’information. Les caractères gras indiquent l’attribut ayant le GI le plus élevé par type. Rs indique le coefficient de corrélation de Spearman entre chaque attribut et le niveau scolaire du texte, avec intervalle de confiance à 95 %. Toutes les corrélations de Spearman de ce tableau étaient statistiquement significatives au seuil p < 0,001. Les types d’attributs lexicaux et syntaxiques sont résumés dans le présent article.

-> See the list of tables

Figure 4

Diagrammes en boîte des six attributs de la sélection réduite, par niveau scolaire

Diagrammes en boîte des six attributs de la sélection réduite, par niveau scolaire

Note. Résultats portant sur 600 textes. L’axe des abscisses indique l’année scolaire au primaire (1 à 6) et au secondaire (7 à 11) du Québec. L’axe des ordonnées montre l’unité de mesure propre à l’attribut. La boîte indique les percentiles 25 à 75.

-> See the list of figures

Discussion

Dans la présente étude, des analyses de corrélation ont été utilisées pour tester la capacité des attributs extraits par ALSI à estimer la difficulté de textes en français. Notre présentation des résultats s’est concentrée sur une sélection de 20 attributs (8 lexicaux, 12 syntaxiques) qui semblaient particulièrement intéressants pour estimer la difficulté des textes utilisés dans un contexte scolaire. Nous retenons trois résultats importants concernant la nature des attributs retenus par la procédure de sélection.

Premièrement, plusieurs attributs manifestaient un effet de plateau. Par exemple, l’indice de diversité lexicale de Maas calculé sur les lemmes (maas_lemma_i) augmente jusqu’à la fin du primaire, puis se stabilise. Ces effets de plateau ont aussi été décrits par Daoust et al. (1996) et suggèrent que certains attributs linguistiques atteignent leur complexité limite durant le parcours scolaire. Une autre explication possible est qu’ALSI n’est peut-être pas apte à mesurer la progression de certains attributs au-delà d’un certain point. Ainsi, certains des plateaux pourraient s’expliquer par le fait que les lexiques de référence ne couvrent pas le niveau secondaire (années 7 à 11). De futurs travaux pourraient tester l’inclusion dans ALSI de lexiques couvrant aussi le niveau secondaire dans le but de mieux estimer la complexité lexicale au-delà de la 6e année.

Deuxièmement, nos résultats montrent que les attributs dits « de surface » peuvent effectivement contribuer à estimer la difficulté du texte. La longueur moyenne des mots (rs = 0,63) et le 90e percentile de la longueur des phrases (rs = 0,69) comptaient parmi les attributs ayant la corrélation la plus forte avec le niveau de difficulté du texte. Ces résultats remettent en question les conclusions d’autres auteurs voulant que ce type d’attribut soit sans valeur. Ils concordent toutefois avec l’étude similaire de François et Fairon (2012), selon laquelle la longueur des mots et la longueur des phrases faisaient partie des attributs davantage corrélés avec le niveau de difficulté du texte (rs = 0,48 et rs = 0,61, respectivement). Une explication plausible est que les attributs de surface, malgré leur simplicité apparente, restent des intermédiaires efficaces pour évaluer la difficulté du texte. Cette explication va dans le sens des conclusions de Szmrecsányi (2004) à l’égard de la longueur de la phrase comme estimateur de la complexité syntaxique.

Troisièmement, nos résultats suggèrent que la cohésion linguistique peut contribuer à modéliser la complexité du texte. L’attribut de cohésion syntaxique (cohesionSyn_m) affichait une corrélation de rs = -0,66, corrélation d’ampleur modérée selon les barèmes suggérés par Akoglu (2018). Ce résultat est important puisqu’il ajoute un soutien empirique à l’hypothèse selon laquelle la cohésion affecte la compréhension (O’Reilly & McNamara, 2007). La cohésion lexicale (simCosinNom_m) a toutefois présenté une corrélation plus modeste (rs = -0,31), rejoignant les résultats obtenus par Todirascu et al. (2016) sur un corpus de langue française.

Nous avons identifié plusieurs limites à la présente étude dont la portée est basée sur la prémisse que les textes utilisés sont représentatifs de ce que l’on trouve dans le curriculum québécois, et possiblement dans d’autres curriculums francophones. Nous avons également supposé que le niveau scolaire indiqué par le matériel peut être considéré comme une référence fiable. De manière plus spécifique, nos résultats sont limités par le fait que l’ensemble de textes plus récents (la banque ALSI) ne couvre pas les 11 années du parcours scolaire. En effet, les textes des années 1 à 5 sont globalement plus anciens, provenant de la banque employée par Daoust et al. (1996). Une piste à explorer serait donc d’ajouter des textes plus récents, couvrant la période allant de la 1re à la 5e année du primaire. Les résultats dépendent également des attributs linguistiques que la version actuelle d’ALSI peut extraire. Des travaux ultérieurs pourraient intégrer des types d’attributs portant sur d’autres aspects de la langue, notamment sur la complexité morphologique. Enfin, comme notre étude s’est limitée à des analyses considérant les attributs un à un, il faudrait procéder à des analyses multivariées afin de modéliser la difficulté du texte et d’évaluer la contribution des attributs. La validité externe de l’instrument, sa capacité à estimer le niveau scolaire de nouveaux textes, pourrait être testée en appliquant un modèle multivarié à un nouveau corpus.

Conclusion

Dans cette étude, nous avons décrit ALSI, un nouvel outil d’analyse linguistique qui génère une variété d’attributs dans le but d’évaluer la complexité d’un texte. Après avoir justifié le développement d’un nouvel outil, l’article a décrit les bases théoriques d’ALSI et a présenté les procédures d’extraction des attributs. Le second volet de l’article avait pour objectif de déterminer les attributs qui étaient les plus prometteurs pour évaluer le niveau scolaire des textes du corpus en français québécois. Nous avons pour cela appliqué ALSI à un corpus de 600 textes répartis entre les 11 années scolaires considérées comme indicateurs de la difficulté du texte. Des analyses corrélationnelles ont montré le potentiel des attributs pour évaluer la difficulté du texte, ce qui appuie la validité de l’outil ALSI. Les résultats montrent de plus que les attributs de surface sont toujours d’actualité et mettent en évidence le potentiel des attributs mesurant la cohésion linguistique, particulièrement la cohésion syntaxique. La présente étude a, en somme, proposé des attributs qui peuvent être extraits avec l’outil ALSI et qui sont associés à la complexité linguistique de textes employés en milieu scolaire au Québec. Il s’agit d’une première étape dans la validation de l’outil, d’autres travaux étant requis afin d’en tester la validité externe.

En plus de l’évaluation de la difficulté du texte, nous voyons plusieurs applications d’ALSI dans le domaine de l’éducation. L’outil pourrait contribuer à une démarche de validation d’épreuves et de tests en évaluant a priori la difficulté linguistique des items. ALSI pourrait de plus aider à sélectionner ou à créer du matériel didactique ayant un niveau linguistique approprié, ou qui favorise l’apprentissage de certains objets de savoir en français. En contexte d’évaluation linguistique, ALSI pourrait être appliqué à des productions écrites d’apprenants du français langue seconde pour évaluer le développement du vocabulaire et de la syntaxe. Enfin, une prochaine version de l’outil est prévue et prendra la forme d’une application Web afin de simplifier son utilisation[4].