Article body

La mesure du vocabulaire, et en particulier la mesure du vocabulaire dit « réceptif », tient une place d’importance dans l’étude des aptitudes mentales et dans la pratique psychologique. Malgré cette importance, l’évaluation du niveau de vocabulaire réceptif est rendue difficile, dans le contexte francophone néo-brunswickois, par la rareté des tests disposant de normes adaptées et de données psychométriques actuelles. L’Échelle de vocabulaire en images Peabody (EVIP; Dunn, Thériault-Whalen et Dunn, 1993), version française du test de Peabody (Dunn et Dunn, 1981), se distingue bien par des normes relativement récentes incluant des sujets néo-brunswickois de langue française, mais il se prête mal à une utilisation de groupe, en classe par exemple. Trois tests de vocabulaire sont analysés dans la présente étude : le test de vocabulaire Binois-Pichot (Binois et Pichot, 1959), le sous-test vocabulaire du Test collectif d’intelligence générale (Lavoie et Laurendeau, 1960) et le test de vocabulaire Mill Hill (Deltour, 1993). Ces trois instruments sont des épreuves de sélection de synonymes de format papier-crayon à choix multiples. Ils peuvent être utilisés en examen individuel, mais se prêtent aussi bien à une utilisation en groupe.

Dans le cadre de trois études de psychologie, trois échantillons d’élèves de la quatrième à la huitième année d’écoles françaises du Nouveau-Brunswick ont été examinés à l’aide de l’un des trois tests de vocabulaire. Après des analyses factorielles exploratoires visant à assurer qu’aucun de ces tests n’est clairement multidimensionnel et qu’un score total constitue pour chacun un résumé de performance adéquat, des données relatives aux qualités métrologiques ainsi que des données normatives préliminaires sont rapportées séparément pour chacun des trois instruments.

Binois-Pichot

Méthode

Sujets. Six cent douze élèves de la cinquième à la huitième année ont été recrutés dans trois écoles françaises de la grande région de Moncton au Nouveau-Brunswick. De ce nombre, 561 (245 garçons et 313 filles; les données biographiques manquent pour trois sujets) présentaient des données Binois-Pichot complètes et constituent l’échantillon d’analyse. Ces élèves sont âgés de 10 à 15 ans (M = 12,0 ans, ET = 1,1); du point de vue du niveau scolaire, ils se répartissent comme suit : 96 en cinquième année, 82 en sixième, 262 en septième, et 121 en huitième année. La région de Moncton est une région à fort taux de bilinguisme; bien que 94,3 % des élèves rapportent avoir le français comme langue principale, 78,5 % disent aussi maîtriser l’anglais. La langue maternelle des parents de ces élèves est le plus souvent le français (dans des proportions de 88,4 % pour les mères et de 78,5 % pour les pères).

Instrument. Le test Binois-Pichot comprend 44 items; chaque item du test comprend un mot inducteur accompagné d’un choix de réponses de six mots parmi lesquels il s’agit de choisir un mot synonyme du mot inducteur. Les items sont classés par ordre de difficulté croissante. Ce test a été développé en France il y a maintenant cinquante ans. Il n’a pas connu de révision; les normes disponibles s’appliquent essentiellement à la population de la France métropolitaine.

Déroulement. La cueillette des données a eu lieu au cours de l’année scolaire de quatre années consécutives (2003-2006). Le testing s’est déroulé en groupes-classes, durant les heures de classe. Tous les élèves des classes participantes ont pris part à l’étude mais seuls ceux qui ont remis le formulaire de consentement signé par un parent ou un tuteur ont été inclus dans l’analyse.

Le test Binois-Pichot était inclus dans une batterie de tests papier-crayon visant à mesurer diverses aptitudes cognitives, principalement des tests d’attention. Toutes les épreuves ont été complétées durant trois séances d’une durée de 50 à 80 minutes chacune.

Les consignes utilisées pour le test Binois-Pichot étaient celles du manuel (Binois et Pichot, 1959). L’examinateur expliquait la tâche à la classe à l’aide des instructions et d’un exemple (l’item numéro 1) présenté sur rétroprojecteur, en insistant sur le fait que les élèves doivent essayer de trouver la meilleure réponse possible pour chaque item et de ne pas laisser un item sans réponse. La durée prévue pour le test Binois-Pichot était d’une douzaine de minutes, avec une certaine flexibilité de nature à permettre au plus grand nombre de répondre à tous les items du test.

Résultats

Toutes les analyses ont été effectuées à l’aide du progiciel SAS (version 9.1; SAS Institute). Les indices de difficulté (pourcentages de bonnes réponses, p) et de discrimination (corrélations item-total corrigées, rit) des items du test Binois-Pichot sont présentés au tableau 1 (page 191). La difficulté des items croît généralement au fur et à mesure qu’on avance dans le test, mais cette progression n’est pas monotone, essentiellement parce que plusieurs des premiers items s’avèrent difficiles. Les corrélations item-total s’étendent de -0,13 à 0,45, avec une moyenne de 0,16 (écart type = 0,14).

Tableau 1

Difficulté (p) et discrimination (rit) des items des échelles de vocabulaire Binois-Pichot (items 2 à 44; n = 561), Lavoie-Laurendeau (items 1 à 28; n = 227) et Mill Hill (items 2 à 33; n = 189)

Difficulté (p) et discrimination (rit) des items des échelles de vocabulaire Binois-Pichot (items 2 à 44; n = 561), Lavoie-Laurendeau (items 1 à 28; n = 227) et Mill Hill (items 2 à 33; n = 189)

-> See the list of tables

Une analyse en composantes principales de la matrice de corrélations inter-items (items 2 à 44) révèle 18 facteurs de valeur propre supérieure à 1. Cependant, le test Scree indique clairement une solution unidimensionnelle (voir le tableau 2 à la page 192). La première composante rend compte de 8,7 % de la variance des items. La même analyse effectuée sur la matrice de corrélations tétrachoriques présente un patron tout à fait semblable, la première composante principale rendant alors compte de 14,0 % de la variance des items.

Tableau 2

Valeur propre de chacune des composantes des analyses en composantes principales des items des échelles de vocabulaire Binois-Pinchot (items 2 à 44; n = 561), Lavoie-Laurendeau (items 1 à 28; n =227) et Mill Hill (items 2 à 33; n = 189)

Valeur propre de chacune des composantes des analyses en composantes principales des items des échelles de vocabulaire Binois-Pinchot (items 2 à 44; n = 561), Lavoie-Laurendeau (items 1 à 28; n =227) et Mill Hill (items 2 à 33; n = 189)

-> See the list of tables

Le coefficient alpha de Cronbach calculé sur les items 2 à 44 est de 0,66. Le coefficient de bissection (pair-impair, correction Spearman-Brown) est de 0,67.

Le score total se distribue relativement normalement (minimum = 2; maximum = 26; moyenne = 11,2; écart type = 4,3; asymétrie = 0,6; aplatissement = 0,2). Les données descriptives du score total sont présentées séparément pour chaque niveau scolaire au tableau 3 (page 193).

Tableau 3

Données descriptives du score total pour chaque niveau scolaire

Données descriptives du score total pour chaque niveau scolaire

-> See the list of tables

La différence de score total entre garçons (n = 245, M = 10,9, ET = 4,0) et filles (n = 313, M = 11,5, ET = 4,5) n’est pas statistiquement significative : t(548,9) = 1,74; p = 0,08 (d = 0,15). Le score total est significativement associé à l’âge (r = 0,17; p < 0,01) et au niveau scolaire (r = 0,19; p < 0,01), deux variables fortement corrélées entre elles (r = 0,90).

Les données normatives pour le test Binois-Pichot tirées de l’échantillon examiné sont présentées au tableau 4 (page 194). Il s’agit des valeurs de la distribution des scores Binois-Pichot correspondant à chaque décile (centiles 10, 20, 30, 40, 50, 60, 70, 80 et 90).

Tableau 4

Normes néo-brunswisckoises 2003-2006 de trois test de vocabulaire

Normes néo-brunswisckoises 2003-2006 de trois test de vocabulaire

Note : centilages basés sur la fonction de distribution empirique (« définition 5 » de SAS).

-> See the list of tables

Lavoie-Laurendeau

Méthode

Sujets. Des données de sous-test vocabulaire Lavoie-Laurendeau ont été obtenues de 227 élèves de 5e (n = 77), 6e (n = 83) et 7e année (n = 67) de deux écoles françaises de la grande région de Moncton. De ce nombre, on compte 111 garçons et 110 filles (6 données sont manquantes). Ces élèves sont âgés de 10 à 14 ans (M = 11,4 ans, ET = 1,0).

Instrument. Le sous-test vocabulaire du Test collectif d’intelligence générale (Lavoie et Laurendeau, 1960; dans la suite : Lavoie-Laurendeau) est, comme le test Binois-Pichot, une épreuve assez ancienne, mais d’origine canadienne. Il est constitué de 28 items, classés par ordre de difficulté, où un synonyme au mot inducteur doit être identifié parmi quatre choix de réponses.

Déroulement. Les élèves ont répondu au sous-test vocabulaire Lavoie-Laurendeau dans le cadre d’une étude portant sur les aptitudes cognitives qui comportait huit épreuves de type papier-crayon complétées au cours de deux rencontres en groupes-classes. Les épreuves étaient présentées par l’expérimentateur à l’aide d’un exemple sur rétroprojecteur. Six minutes étaient accordées pour répondre aux 28 items du sous-test vocabulaire.

Résultats

Les indices de difficulté et de discrimination des items du sous-test vocabulaire Lavoie-Laurendeau sont présentés au tableau 1. Dans l’ensemble, les items du test sont rangés en ordre croissant de difficulté. Les corrélations item-total vont de -0,05 à 0,44, avec une moyenne de 0,22 (écart type = 0,13).

Une analyse en composantes principales des 28 items du test Lavoie-Laurendeau a été effectuée. Les onze premières composantes principales ont une valeur propre supérieure à 1. Cependant, le test Scree est plutôt indicateur d’une solution à un facteur (voir le tableau 2). La première composante principale rend compte de 12,9 % de la variance des items. La première composante principale d’une analyse de la matrice de corrélations tétrachoriques rend compte, elle, de 20,3 % de la variance. Dans le cas de cette dernière analyse, une solution à deux facteurs est aussi envisageable, mais ces deux facteurs correspondent alors au niveau de difficulté des items, le premier facteur saturant les items plus faciles, le second les plus difficiles.

Le coefficient alpha de Cronbach est de 0,69. Le coefficient de bissection (pair-impair avec correction Spearman-Brown) est de 0,74.

Le score total se distribue pratiquement normalement (minimum = 1; maximum = 19; moyenne = 10,5; écart type = 3,9; asymétrie = 0,0; aplatissement = -0,5). Les données descriptives du score total pour chaque niveau scolaire sont présentées au tableau 3.

La différence de score total entre garçons (n = 111; M = 10,1, ET = 4,1) et filles (n = 110; M = 10,9, ET = 3,6) n’atteint pas le niveau de la significativité statistique : t(219) = 1,43; p = 0,16 (d = 0,19). Le score total, sans être significativement associé à l’âge (r = 0,11; p < 0,09), est corrélé significativement au niveau scolaire (r = 0,19; p < 0,01).

Les valeurs de la distribution des scores Lavoie-Laurendeau correspondant à chaque décile sont présentées au tableau 4.

Mill Hill

Méthode

Sujets. Un échantillon composé de 94 garçons et 95 filles de 4e (n = 80) et de 5e année (n = 109) a été examiné à l’aide de la version « junior » de la partie B du test Mill Hill. Ces élèves proviennent de six écoles françaises du Nord-Ouest et du Sud du Nouveau-Brunswick; ils sont âgés de 9 à 11 ans (M = 9,8 ans, ET = 0,7).

Instrument. Le test Mill Hill (Deltour, 1993) est l’adaptation du test Mill Hill original anglais mis au point par Raven (Raven Mill Hill Vocabulary Scale; Raven, 1965). Cette adaptation, comme la version originale, est composée de deux parties. La première partie (partie A) est une épreuve de définition de termes de format libre, et la seconde (partie B), une épreuve de sélection de synonymes. Seule la partie B a été retenue pour la présente étude. Elle comprend, dans sa version « junior » (enfants), 33 items de difficulté croissante, où le synonyme du mot inducteur doit être trouvé parmi un groupe de six réponses possibles.

Déroulement. Les élèves ont répondu au test Mill Hill dans le cadre d’une étude portant sur les capacités d’attention et les aptitudes cognitives pendant laquelle des mesures étaient recueillies au cours de cinq rencontres de groupe. Pour chacune des épreuves, les consignes étaient données à l’aide d’un exemple présenté au rétroprojecteur par l’expérimentateur. Une période d’environ dix minutes était accordée aux élèves pour répondre aux items du test Mill Hill.

Résultats

Les indices de difficulté et de discrimination des items du test Mill Hill sont présentés au tableau 1. La difficulté des items correspond, grosso modo, à leur position dans le test (à l’exception notable de l’item 19, beaucoup plus facile que les items avoisinants). Les corrélations item-total vont de -0,16 à 0,54, avec une moyenne de 0,24 (écart type = 0,16).

Les douze premières composantes d’une analyse en composantes principales de la matrice d’intercorrélations des items (items 2 à 33) ont une valeur propre supérieure à 1. La première composante rend compte de 13,6 % de la variance des items. Le test Scree indique que des solutions à un, deux ou trois facteurs peuvent être adéquates (cf. tableau 2 ). Les solutions à deux et trois facteurs semblent cependant produire des facteurs associés au niveau de difficulté des items, éventuellement teintés d’un effet de position des items dans le test ou même de discrimination des items. Ce patron pourrait être confirmé par les résultats d’une analyse de la matrice de corrélations tétrachoriques, mais cette dernière s’avère ici peu fiable (présence de cas de Heywood).

Le coefficient alpha de Cronbach calculé pour les items 2 à 33 est de 0,75. Le coefficient de bissection (pair-impair avec correction de Spearman-Brown) est de 0,78.

Le score total se distribue pratiquement normalement (minimum = 0; maximum = 23; moyenne = 9,8; écart type = 4,2; asymétrie = 0,5; aplatissement = 0,3). Les données descriptives du score total pour chacun des deux niveaux scolaires composant l’échantillon sont présentées au tableau 3.

Il n’y a pas de différence moyenne entre garçons (n = 94; M = 9,9; ET = 4,2) et filles (n = 95; M = 9,8; ET = 4,3) quant au score total : t(186) = 0,08; p = 0,94 (d = 0,01). En revanche, le score total, sans être significativement associé à l’âge (r = 0,14; p = 0,06), est corrélé significativement au niveau scolaire (r = 0,29; p < 0,01), et ce en dépit du fait que cette dernière variable ne comprenne ici que deux niveaux (4e et 5e année).

Les valeurs de la distribution des scores Mill Hill correspondant à chaque décile sont présentées au tableau 4.

Conclusion

Les qualités psychométriques obtenues dans la présente étude pour chacun des trois instruments examinés sont comparables : les trois tests présentent une structure raisonnablement unidimensionnelle, leur fidélité telle qu’estimée par des méthodes de cohérence interne (coefficient alpha, bissection) est modérée, et leur validité est confortée dans les trois cas par une association du score de vocabulaire avec le niveau scolaire doublée d’une absence de différence moyenne entre garçons et filles.

Le test Mill Hill, en dépit du fait que c’est pour ce test que l’échantillon de sujets était le plus homogène du point de vue de l’aptitude mesurée, présente à la fois la corrélation item-total moyenne la plus élevée (M = 0,24), les coefficients de fidélité les plus élevés, et la relation avec le niveau scolaire la plus élevée des trois échelles évaluées ici. Ceci laisse croire que, auprès d’une population plus large, des données encore plus favorables pourraient être obtenues. Les trois échelles ayant été utilisées auprès d’échantillons distincts, les différences observées quant aux qualités métrologiques de ces instruments pourraient néanmoins être le fruit de différences d’échantillonnage autant que de leurs qualités intrinsèques. Comme l’échantillonnage et la conduite des études se sont déroulés dans des conditions très similaires dans les trois cas, nous avons cependant de bonnes raisons de croire que les différences observées sont d’abord attribuables aux instruments eux-mêmes. Cependant, seule une étude où les trois instruments seraient employés auprès des mêmes sujets serait à même de distinguer les effets d’échantillonnages des différences propres aux instruments.

On pourrait s’attendre a priori à ce qu’un test de sélection de synonymes, en tant que mesure du vocabulaire réceptif, présente une structure unidimensionnelle. Dans ce cadre, les solutions multidimensionnelles entraperçues pour les tests Lavoie-Laurendeau et Mill Hill peuvent surprendre. De telles solutions multifactorielles peuvent avoir plusieurs origines. L’une de ces origines possibles est un artéfact associé à la nature dichotomique des items : comme les items de difficultés contrastées ont des distributions statistiques d’asymétrie contrastées, les facteurs obtenus peuvent être le produit de ces propriétés statistiques plutôt que celui de phénomènes psychologiques. Le recours aux corrélations tétrachoriques devrait en théorie pallier ce problème, mais ce n’est pas toujours le cas, et ce type de corrélations pose parfois des problèmes d’estimation, en particulier dans les échantillons de petite taille (cf. les résultats du test Mill Hill). D’autres sources de la multidimensionnalité d’une échelle de vocabulaire peuvent être envisagées. On peut penser au problème des items laissés sans réponse, plus nombreux en fin de test pour des raisons de limite de temps, ou encore à certaines stratégies de réponse adoptées par les sujets lors d’épreuves à choix multiples. Certains chercheurs ont par ailleurs donné à la multidimensionnalité des échelles de vocabulaire une signification théorique dans d’autres travaux, où l’on défend l’idée d’une distinction entre vocabulaire élémentaire et vocabulaire « avancé » (Bowles, Grimm et McArdle, 2005). Ces diverses possibilités devraient être testées par l’analyse et éventuellement par l’expérimentation. En particulier, nous n’avons analysé dans la présente étude que les données de bonnes réponses; on peut penser que des données nouvelles permettant de mieux interpréter une éventuelle multidimensionnalité pourrait émerger d’analyses qualitatives des réponses erronées.

Le présent travail contribue à pallier l’absence de normes actuelles pour chacun des tests examinés. Nous souhaitons que cette contribution préliminaire soit suivie d’autres – normes pour d’autres groupes d’âges, pour d’autres régions francophones – et favorise ainsi le développement de repères pour l’utilisation d’un test de vocabulaire de qualité.