L’utilisation du facteur de Bayes pour identifier les étudiants qui répondent au hasard

Béland, Sébastien; Raîche, Gilles; Magis, David

doi:https://doi.org/10.7202/1035310ar

1. Introduction et problématique

Certains étudiants peuvent répondre au hasard dans le cadre d’épreuves d’évaluation à visée certificative ou sommative. Par exemple, il est connu que les étudiants évalués au moyen du Law school admission test (LSAT) ou au moyen du test de classement en anglais, langue seconde, (TCALS-II) du réseau collégial québécois francophone ont parfois intérêt à répondre au hasard. Dans le premier cas, cette stratégie est utilisée par des étudiants pour éviter de laisser des questions sans réponses et ainsi tenter d’obtenir un meilleur résultat. Dans le second cas, ceux-ci peuvent plutôt tenter de sous-performer intentionnellement pour être ensuite classés dans un cours plus facile (Raîche, 2002). Ce problème de réponses au hasard peut alors nuire à l’interprétation des résultats par une surévaluation du niveau d’habileté des étudiants, dans le premier cas, et par une sous-évaluation de ce niveau d’habileté, dans le second. Mentionnons, de plus, qu’Angoff (1989) a montré que les étudiants les plus habiles sont avantagés par la réponse au hasard, alors que les étudiants moins habiles sont désavantagés par la réponse au hasard. Enfin, ce type de réponse peut biaiser l’estimation des paramètres des modèles de réponses à l’item (Waller, 1983) et le calcul de la corrélation bisériale (Ashler, 1979), qui sont toutes deux des approches permettant d’obtenir des informations importantes sur les qualités métriques d’un test.

1.1 Identifier la nature de la réponse au hasard : un défi

Selon Brassard (2011), la réponse au hasard consiste à répondre à un questionnaire sans choisir, sans réfléchir. Dans ce cas-ci, l’étudiant décide volontairement de ne pas mettre son niveau d’habileté réel à contribution lors d’un test.

Ce type de réponse intéresse les chercheurs depuis très longtemps (Slakter, 1968 ; Votaw, 1936). Par exemple, Cronbach (1946) parlait déjà de la réponse au hasard (tendency to gamble) pour référer à l’un des plus importants problèmes susceptibles de survenir lors d’une situation d’évaluation en éducation. Plus récemment, Brassard (2011) demandait à des étudiants de répondre à une épreuve de classement, en anglais langue seconde, en utilisant plusieurs stratégies, dont celle de la réponse au hasard. L’objectif de Brassard était non seulement d’identifier les différents comportements utilisés par les étudiants pour tenter de se sous-classer intentionnellement mais aussi de leur associer des patrons de réponses représentatifs. Elle demandait, dans un premier temps, à des étudiants de niveau collégial (entre 17 et 19 ans) de sous-performer intentionnellement au test de classement. Ensuite, ceux-ci devaient décrire la stratégie qu’ils avaient appliquée pour sous-performer. Une analyse de contenu a été effectuée pour classer les diverses stratégies décrites par les étudiants, et une analyse de régression logistique pour données nominales a ensuite été appliquée pour tenter de prédire l’utilisation de ces stratégies à partir des patrons de réponses observés. Malheureusement, ces analyses n’ont pas permis d’identifier de patrons de réponse type représentant un comportement de réponses au hasard. Il reste donc beaucoup de travail à faire afin de mieux comprendre la nature de la réponse au hasard dans les épreuves d’évaluation.

1.2 Détecter le hasard : un défi méthodologique

Selon Lanning (1989), il est important de comprendre que les réponses inappropriées telles que la réponse au hasard ne sont pas des événements fréquents. Malheureusement, la détection d’événements rares est très difficile. À ce jour, les chercheurs ont développé relativement peu d’outils permettant de détecter les étudiants qui auraient présenté un patron de réponses au hasard. Ainsi, les auteurs se sont surtout concentrés à développer des stratégies visant à détecter si un étudiant répond en conformité avec un modèle de mesure (Karabatsos, 2003 ; Meijer et Sijtsma, 2001) ou encore si un étudiant semble avoir copié sur ses voisins (Angoff, 1974 ; Sotaridona et Meijer, 2002 ; Wollack, 1997 ; Wollack et Cohen, 1998). Malheureusement, ces stratégies ne permettent pas d’identifier spécifiquement un comportement de réponse au hasard.

Dans le cadre de cet article, nous aurons comme objectif de présenter et d’illustrer une toute nouvelle méthode permettant de détecter les étudiants qui répondent au hasard dans les épreuves d’évaluation des apprentissages en éducation. Pour ce faire, nous nous inspirerons des travaux de Hoijtink (2012) et de Hoijtink, Klugkist et Boelen (2008) en utilisant le facteur de Bayes afin d’évaluer un nombre fini d’hypothèses informatives sur les réponses offertes par les étudiants dans les épreuves d’évaluation en éducation. L’intérêt d’une telle méthode est qu’elle permet d’analyser des données recueillies avec des échantillons relativement limités et de tester des hypothèses de différente nature.

Le contenu du présent texte se divise en six grandes sections. Dans la deuxième section, nous présentons le contexte théorique. Nous exposons la méthodologie dans la troisième section. Dans la quatrième section, nous présentons les résultats avant de continuer par une discussion. Le texte se terminera par une conclusion générale, à la section six.

2. Contexte théorique

2.1 Principales stratégies psychométriques permettant de détecter le comportement de réponse au hasard

Nous présentons deux approches permettant de soutenir la détection de la réponse au hasard : les indices de détection de patrons de réponses inappropriés (person-fit indexes) et le modèle multidimensionnel à quatre paramètres de personnes de Raîche, Magis, Blais et Brochu (2012). Notez qu’il est possible de trouver quelques méthodes peu usuelles telles que l’indice de sabotage de Cattell (Cattell’s sabotage index), mais O’Dell (1971) a déjà montré que cette méthode n’offrait pas toujours des résultats convaincants. De plus, il est extrêmement difficile de retracer des écrits portant sur ces approches, car elles ont été utilisées de façon relativement marginale dans le passé.

Selon Waller (1973), la réponse au hasard peut biaiser l’estimation des paramètres des modèles de réponse à l’item. Pour contourner ce problème, cet auteur a développé le modèle Ability Removing Random Guessing, qui utilise un modèle de réponse à l’item permettant d’obtenir des estimations moins biaisées des paramètres en présence de réponses au hasard. Bien que cette approche offre un certain intérêt, nous ne l’avons pas retenue puisqu’elle présente un problème de taille : elle ne permet pas de détecter formellement la réponse au hasard.

2.1.1 Les indices de détection de patrons de réponses inappropriés (person-fit indexes)

Les indices de détection de patrons de réponses inappropriés permettent de détecter les réponses qui ne respectent pas un modèle de mesure précis. Selon Meijer et Sijtsma (2001), il existe deux grandes catégories d’indices de détection de patrons de réponses inappropriés : les indices paramétriques et les indices non paramétriques. D’une part, les indices paramétriques reposent sur l’utilisation d’un modèle de réponse à l’item (Bertrand et Blais, 2004 ; Hambleton et Swaminathan, 1985) qui permet de calculer la probabilité π_j qu’un étudiant obtienne une bonne réponse à l’item j (j = 1,…, J). Ainsi, le modèle de Rasch peut s’écrire comme suit :

où θ est un paramètre de personne correspondant au niveau d’habileté de celle-ci et b_j est un paramètre de difficulté de l’item. Il est à noter que d’autres modèles tels que le modèle à deux paramètres et le modèle à trois paramètres ont aussi été proposés (Hambleton et Swaminathan, 1985).

Le modèle présenté à l’équation (1), comme ses déclinaisons à deux ou à trois paramètres, est le point de départ permettant de calculer l’indice l_z (Drasgow, Levine et Williams, 1985), qui est fort probablement le plus connu de tous. D’abord, il faut calculer la somme du logarithme (…) de la vraisemblance du niveau d’habileté à chacun des items d’une épreuve d’évaluation contenant des items à réponses dichotomiques :

où x_j est la réponse d’un étudiant à l’item j, codée 1 (correspondant à une bonne réponse) ou 0 (correspondant à une mauvaise réponse). Cette probabilité est généralement calculée selon une des modélisations pour réponses dichotomiques issues de la théorie de la réponse à l’item que nous avons présentée précédemment à l’aide de l’équation (1). Ensuite, puisque l’indice l₀ n’est pas standardisé, celui-ci doit être transformé en scores z pour faciliter son interprétation et le rendre comparable, quelle que soit la valeur du niveau d’habileté de l’étudiant :

où

sont respectivement la moyenne (espérance mathématique) et la variance de l₀. Puisque l’indice l_zdevrait se distribuer asymptotiquement selon une loi normale, on dira qu’un patron de réponses est inapproprié lorsqu’il respecte la condition suivante

où z_α correspond au quantile d’une loi normale centrée réduite. Par exemple, au seuil de détection α de 0,01, un étudiant présentant un score l_z plus petit ou égal à -2,33 sera considéré comme présentant un patron de réponses inapproprié. Les valeurs positives de cet indice indiquent, au contraire, que le patron de réponses est approprié. Enfin, il est pertinent de noter que Lee, Stark et Chernyshenko (2014) ont démontré que l’indice l_z est efficace pour détecter la réponse au hasard.

D’autre part, les indices non paramétriques reposent plutôt sur la logique du vecteur parfait de Guttman (1950). Imaginons une épreuve d’évaluation contenant six items l’étudiant peut obtenir une bonne réponse (symbolisée par 1) ou une mauvaise réponse (symbolisée par 0). Une fois tous les items classés en ordre croissant de difficulté, les réponses 111000 représentent un ensemble de réponses parfait : l’étudiant donne des bonnes réponses aux items faciles et des mauvaises aux items difficiles. À l’opposé, le patron 010011 semblerait inapproprié, car l’étudiant aurait obtenu de bonnes réponses aux deux items les plus difficiles et une seule bonne réponse aux quatre items les plus faciles.

Il existe deux familles d’indices qui sont utilisés pour comparer le patron parfait au patron observé. La première est basée sur le nombre de fois où le patron observé ne correspond pas au patron parfait. C’est cette famille qu’on rencontre le plus souvent. La seconde est basée sur le calcul d’un coefficient de corrélation entre le score obtenu à chacun des items et un indice associé à chacun des items du patron parfait : il s’agit généralement du rang ou du niveau de difficulté calculé selon la proportion de bonnes réponses dans le groupe de référence.

Ces indices, qu’ils soient paramétriques ou non paramétriques, présentent de nombreuses limites. Premièrement, puisqu’ils ne vérifient que l’ajustement global du modèle, ils ne permettent pas de détecter directement le comportement spécifique de réponse au hasard. Au mieux, on doit s’inspirer de patrons de réponses-modèles et voir si un indice est capable de bien les détecter. Deuxièmement, les indices de détection ont une interprétation dichotomique : à partir d’un modèle de mesure tel que celui présenté à l’équation (1), on ne peut que dire si les réponses d’un étudiant sont appropriées ou inappropriées. Or, la réalité comporte beaucoup plus de nuances, surtout si un chercheur souhaite détecter un comportement aussi précis que la réponse au hasard.

2.1.2 L’indice de pseudo-chance personnelle C

Une deuxième approche est inspirée d’une modélisation multidimensionnelle de la théorie de la réponse aux items (Reckase, 1985, 1997, 2009). Raîche et ses collaborateurs (2012) ont élaboré un modèle probabiliste comprenant un indice de personne de pseudo-chance. Dans le cadre de cette modélisation, la probabilité d’obtenir une bonne réponse à un item correspond maintenant à :

où θ est un paramètre de personne correspondant au niveau d’habileté de celle-ci, a_j est un paramètre de discrimination de l’item, b_j est un paramètre de difficulté de l’item et c_j est un paramètre de pseudo-chance de l’item. Dans ce cas-ci, C est un paramètre de pseudo-chance propre à chacune des personnes plutôt qu’à l’item. Raîche et al., (2012) ont déjà démontré que le modèle présenté à l’équation (7) semble suffisamment efficace pour corriger de façon appréciable le niveau d’habileté de l’individu. De plus, cette modélisation, comme d’autres variations de celle-ci, n’engendre pas trop de biais ni d’augmentation importante de l’erreur type dans l’estimation du niveau d’habileté lorsque le patron de réponses est approprié. Nous suggérons au lecteur intéressé de consulter Raîche et al., (2012) pour obtenir plus de détails techniques sur cette approche.

L’indice C permettrait de détecter le comportement de réponse au hasard. Par contre, son utilisation présente toujours des limites importantes Raîche, Béland, Magis, Blais et Brochu, (2010). Premièrement, l’estimation de C impose l’utilisation d’une source de données importante, puisqu’il repose sur la calibration préalable des items d’un test ou d’une banque d’items. Il est alors généralement difficile d’utiliser cet indice pour analyser des résultats au sein d’un seul groupe-classe. Deuxièmement, à ce jour, peu d’études ont été effectuées sur ce modèle et on en connaît encore trop peu les caractéristiques et, donc, les limites. Il faudrait, entre autres, investiguer plus en détail au sujet de la distribution de cet indice pour en faciliter l’interprétation.

2.2 Évaluation d’hypothèses informatives à l’aide du facteur de Bayes

Nous avons vu que les modèles de mesure permettant de détecter la réponse au hasard présentent certaines limites : ils nécessitent en général le recours à de vastes banques de données et ne permettent pas de détecter directement le comportement de réponse au hasard. Ainsi, il serait utile de développer de nouvelles méthodes permettant de détecter plus adéquatement le comportement de réponse au hasard.

Dans le cadre de cet article, nous nous inspirerons de l’utilisation du facteur de Bayes dans le contexte d’hypothèses dites informatives (Hoijtink, 2012 ; Hoijtink, Klugkist et Boelen, 2008) pour détecter les étudiants qui répondent au hasard dans les épreuves d’évaluation en éducation. Pour utiliser cette méthode, nous devons tout d’abord :

définir les hypothèses à évaluer ;
calculer le facteur de Bayes et
interpréter le facteur de Bayes.

Les sections suivantes expliquent ces étapes en détail.

2.2.1 Définir les hypothèses à évaluer

L’utilisation du facteur de Bayes nécessite l’emploi de modèles à comparer (Kass et Raftery, 1995). Dans le cadre de cette étude, nous parlerons plutôt d’hypothèses (informatives) à évaluer, afin de rester cohérents avec la terminologie employée par Hoijtink (2012) et Hoijtink, Klugkist et Boelen (2008). Avec un test d’hypothèses classique, nous poserions l’hypothèse nulle (notée H₀) selon laquelle un ensemble de statistiques sont égales, par exemple des probabilités notées de j = 1 à J :

Dans ce cas-ci, l’hypothèse H₀ est considérée comme une hypothèse informative, car elle donne une information très précise sur le lien existant entre les probabilités π_j: elles sont toutes égales. À l’opposé, l’hypothèse alternative classique (notée H₁) est plutôt une hypothèse informative non contrainte, car les paramètres π_j sont tous libres :

Évidemment, comparer H₀ à H₁ paraît un peu simpliste pour le chercheur qui a des hypothèses précises à évaluer : par exemple, dans une situation où nous souhaitons tester la présence d’un comportement de réponse au hasard. Dans le cas où un étudiant répondrait à une série de questions ou d’items contenant chacun quatre choix de réponses, nous pourrions poser l’hypothèse suivante :

où l’étudiant obtient une probabilité π égale à 0,25 d’obtenir une bonne réponse pour chacun des j items (soit une chance sur quatre). Le symbole ζ permet de borner la probabilité π selon les valeurs désirées. Par exemple, dans une situation où ζ = 0,05, l’hypothèse H_hasard= 0,20 < π_j < 0,30. L’avantage de cette notation repose donc sur sa grande flexibilité.

Un autre système d’hypothèses d’intérêt consisterait à évaluer si les réponses d’un étudiant respectent le principe de monotonicité. Cela implique que les réponses d’un étudiant doivent être ordonnées en ordre croissant de difficulté pour tous les items ou questions j = 1, …, J d’une épreuve d’évaluation. Par exemple, π₁> … > π_Joù π_j est la probabilité qu’un étudiant obtienne une bonne réponse à l’item j. Notez que les π_jpeuvent être estimés à partir de n’importe quel modèle d’intérêt tel que le modèle de Rasch ou à partir de la proportion de bonnes réponses pour chacun des items ou questions. Aussi, la monotonicité implique que l’ordre de difficulté soit respecté autant pour les items que pour les étudiants :

2.2.2 Calculer le facteur de Bayes

Nous l’avons déjà dit : le facteur de Bayes permet de comparer plusieurs hypothèses entre elles. Il existe deux grandes composantes pour calculer le dit facteur : l’adéquation et la complexité, qui sont respectivement générées à partir d’une distribution a priori et d’une distribution a posteriori. Dans le cadre de cet article, nous nous en servirons pour évaluer quelle hypothèse est la plus représentative des réponses fournies par chacun des étudiants à une épreuve d’évaluation.

Imaginons que nous souhaitons comparer l’hypothèse H_m à l’hypothèse H_m’ en utilisant les données X. La fonction de probabilité associée à l’hypothèse m peut être définie comme étant égale à :

où π est un paramètre de probabilité, h_m (π) est la distribution a priori de ce paramètre et f_m(^X|π) la fonction de densité des données selon l’hypothèse m. De là, on peut calculer le facteur de Bayes entre ces deux hypothèses en utilisant la forme suivante :

qui est la portion de la distribution a posteriori en accord avec l’hypothèse m divisée par la portion de la distribution a posteriori en accord avec l’hypothèse m’. Ainsi, dans une situation où l’évaluateur souhaite évaluer une hypothèse informative (la contrainte entre les π_jest précise) et une hypothèse non informative, Mulder, Hoijtink et Klugkist (2010) ont simplifié le calcul du facteur bayésien de la façon suivante :

où c_m est la complexité (complexity) et f_m est l’adéquation (fit) des hypothèses m et m’. Dans une situation où deux hypothèses informatives sont évaluées, Hoijtink (2012) a démontré que FB_mm’ devient.

Les lignes qui suivent donnent plus de détails sur la façon de calculer les éléments contenus dans les équations (12) et (13).

Pour la présente étude, nous utilisons la distribution bêta lors de l’évaluation d’hypothèses non contraintes

où les paramètres {1, 1} la rendent équivalente à la loi uniforme. Par contre, lorsque les hypothèses sont contraintes selon un ordre du type π_j > π_jr ou π_j < π_jr, la complexité n’est pas dépendante de cette loi de distribution. De plus, la proportion de la distribution a priori en accord avec l’hypothèse contrainte H_mpeut être réécrite comme suit :

où l’élément π ∈ H_m détermine que la probabilité est soutenue par l’hypothèse H_m. Cette fonction représente la complexité. En ce qui a trait à la génération des données à partir de la distribution a posteriori, la fonction de densité des données est définie par :

et elle stipule que les x_j sont indépendants. Ainsi, l’adéquation f_m est définie comme la proportion de la distribution a posteriori en accord avec l’hypothèse H_moù :

2.2.3 Échantillonnage des distributions de probabilité a priori et a posteriori

Selon Jeffreys (1961), les modèles bayésiens peuvent être simplifiés sous la forme suivante :

Plus explicitement, l’équation (18) souligne que la distribution a posteriori est proportionnelle (∝) au produit de la distribution des données et de la distribution a priori. Dans ce cas-ci, la distribution a posteriori représente l’information obtenue après avoir pondéré les données à l’aide de la distribution a priori. Comme le lecteur le comprendra, c’est surtout la fonction de densité des données telles qu’elles ont été observées qui est pertinente. Ensuite, la distribution a priori est l’information que le chercheur possède avant l’observation des données. Cette information est généralement tirée d’études antérieures ou d’hypothèses théoriques pertinentes. Elle peut prendre la forme d’une distribution de probabilité précise : par exemple, la loi normale pour exprimer l’étalonnage du niveau d’habileté des étudiants (nous pensons à la moyenne et à l’écart type obtenus à une enquête internationale en science, tel que le Trends in international mathematics and science study – TIMSS).

Quelques propriétés doivent être mises en relief pour bien comprendre la portée technique de cette méthode. Premièrement, c’est la distribution de probabilité bêta qui sera utilisée comme distribution a priori. Le choix de cette loi est lié au fait qu’elle permet de générer des probabilités pour des données qui sont bornées dans l’intervalle [0, 1] avec une probabilité uniforme. Deuxièmement, le fait de fixer les paramètres bêta(π_j|1,1 rend cette distribution de probabilité a priori assez vague, et donc non informative, de telle façon qu’elle influence peu la distribution a posteriori. Du même coup, cela permet à la distribution a posteriori d’être complètement déterminée par les données observées, ce qui confère un caractère dit objectif à cette dernière distribution de probabilité (Hoijtink, Klugkist et Boelen, 2008).

Dans le cas présent, nous utilisons la méthode de Gibbs pour échantillonner les données des distributions de probabilité a priori et a posteriori pour calculer la complexité ainsi que l’adéquation du facteur de Bayes. Rappelons rapidement que l’échantillonnage de Gibbs est une méthode numérique permettant de générer des données selon des distributions de probabilités conditionnelles complexes à partir de fonctions de distribution de probabilités connues et plus simples. Dans le contexte des hypothèses que nous désirons vérifier ici, son fonctionnement peut être synthétisé en trois grandes étapes :

spécification des valeurs initiales des paramètres π_j;
pour chacun des échantillons, génération aléatoire de nouveaux paramètres π_j^k pour les valeurs de π_jgénérées à la k^e itération ;
répétition des étapes i) et ii) le nombre de fois désiré en utilisant toujours comme point de départ les paramètres obtenus à l’étape précédente.

C’est la loi Bêta qui est utilisée pour générer les π_j. Le lecteur intéressé à obtenir plus d’information sur cette approche est invité à consulter Casella et George (1992) ou Jackman (2009).

2.2.4 La complexité c_m et l’adéquation f_m

Dans un premier temps, la complexité est définie comme le rapport de la distribution de probabilité a priori en accord avec l’hypothèse H_m et la distribution de probabilité a priori en accord avec une hypothèse de rechange. Par exemple, pour l’hypothèse H_ordre : π₁ > … > π_J, nous calculerions la complexité en utilisant H_ordre = 1/J ! Sachant que nous comparons trois items :

la valeur de c_m serait de un sur six, puisque l’on peut dériver six autres configurations de H_ordre ; par exemple, H_ordre : π₃ > π₂ > π₁ ou H_ordre : π₂ > π₁ > π₃. Un autre exemple pertinent est l’hypothèse H_hasard. Dans ce cas particulier, on calculerait H_hasard : 0,25 - ζ < π_j < 0,25 + ζ pour les trois items de la façon suivante : c_hasard = (2ζ)^-3.

Dans un deuxième temps, l’adéquation (fit) est le rapport qui consiste à comparer la distribution de probabilité a posteriori des données D en accord avec l’hypothèse H_m : P(D, H_m) et la distribution de probabilité a posteriori des données en accord avec une hypothèse de rechange P(D, H_a). Dans ce cas-ci, nous vérifions si les données confirment bien une hypothèse précise. Par exemple, imaginons les patrons de réponses, celles-ci mises en ordre croissant de difficulté, x₁ = [111010] et x₂ = [010101]. Si nous souhaitons tester l’hypothèse H_ordre : π₁ > … > π_J, nous voyons que x₁ a plus de chances d’être en accord avec H_ordre que x₂. Dans le cas de l’hypothèse H_hasard : 0,25 - 0,05 < π_j < 0,25 + 0,05, c’est plutôt le patron de réponse x₂ qui respecte le mieux l’hypothèse évaluée. Ainsi, f_m sera élevé si les données permettent bien de vérifier l’hypothèse à évaluer.

2.2.5 Interprétation du facteur de Bayes et nomenclature

Le tableau 1 permet aussi d’obtenir plus d’informations sur l’interprétation du facteur de Bayes. Sachant que les réponses ont été ordonnées selon l’ordre croissant du niveau de difficulté des items, nous pouvons remarquer que les réponses du haut du tableau 1 sont clairement en accord avec l’hypothèse du respect de l’ordre de la double monotonicité. À l’opposé, nous pouvons remarquer que les deux patrons de réponses au bas du tableau penchent plus en faveur de l’hypothèse d’un comportement de réponses au hasard.

Il est à noter qu’il existe plusieurs règles pour interpréter le facteur de Bayes. Par exemple, Kass et Raftery (1995) ont produit une nomenclature visant à faciliter l’interprétation de celui-ci. Les correspondances interprétatives vont comme suit : pour un facteur de Bayes de 1-3, peu important ; de 3-20, présence de preuves positives ; de 20-50, présence de preuves fortes et de plus de 50, présence de preuves convaincantes.

Données théoriques et FBordre,hasard — Tableau 1

**Données théoriques et FB_ordre,hasard**

2.3 Un exemple

Imaginons une situation où nous souhaiterions analyser les données suivantes :

et tester l’hypothèse H_ordre : π₁ > … > π_J contre l’hypothèse H_hasard : 0,25 - 0,05 < π_j < 0,25 + 0,05. En nous inspirant des étapes présentées à la section précédente, le calcul du facteur de Bayes peut être décomposé comme suit.

2.3.1 Étape 1 : Calculer les probabilités

Le chercheur doit fournir le vecteur des probabilités π_j pour chacun des j items. Ces probabilités sont généralement obtenues à l’aide d’un modèle probabiliste tel que celui présenté à l’équation (1) ou sont fournies à partir de toute autre information à la disposition de l’analyste. Dans cet exemple, nous déterminons le vecteur des probabilités suivant :

Selon ce patron de réponses, un étudiant a une probabilité de 0,8 d’obtenir une bonne réponse à l’item 1 et de 0,3 au dernier item.

2.3.2 Étape 2 : Calcul de la complexité c_m

Pour calculer la complexité c_m, il faut et il suffit de générer le nombre de probabilités désiré à partir de la distribution de probabilité choisie, ici une distribution Bêta[1, 1]. Par exemple, pour 1 000 000 itérations, nous avons obtenu les résultats suivants présentés au tableau 2.

Les deux dernières colonnes de ce tableau indiquent si les probabilités générées à chacune des itérations sont en accord avec les hypothèses testées. Ainsi, l’itération cinq est en accord avec l’hypothèse H_ordre , alors que l’itération trois est en accord avec l’hypothèse H_hasard.

Itérations générées pour le calcul de cm — Tableau 2

**Itérations générées pour le calcul de c_m**

2.3.3 Étape 3 : calcul de l’adéquation f_m

Il est nécessaire d’apporter quelques nuances pour calculer l’adéquation f_m. Dans ce cas-ci, nous devons utiliser l’échantillonnage de Gibbs pour pondérer le vecteur des probabilités P(x_j) à l’aide de la distribution bêta[1, 1]. Pour 1 000 000 d’itérations, nous présentons les résultats au tableau 3 (sensiblement différents de ceux présentés au tableau 2).

Itérations générées pour le calcul de fm — Tableau 3

**Itérations générées pour le calcul de f_m**

Dans cet exemple, nous remarquons que les probabilités générées aux itérations un et cinq sont en accord avec l’hypothèse H_ordre, alors que les probabilités générées à l’itération trois sont en accord avec l’hypothèse H_hasard.

2.3.4 Étape 4 : Calcul du facteur de Bayes FB

La dernière étape consiste à utiliser les résultats obtenus aux tableaux 2 et 3 pour calculer le facteur de Bayes. Puisque nous avons calculé, c_ordre = 20 / 1000000 = 0,00002, f_ordre = 600 / 1000000 = 0,0006, c_hasard = 1 / 1000000 = 0,000001 et f_hasard = 6 / 1000000 = 0,000006, cela nous permet d’obtenir un facteur de Bayes FB_ordre,hasard = [0,0006 / 0,00002] / [0,000006 / 0,000001] = 5 (voir l’équation 13), ce qui indique ainsi que l’hypothèse H_ordre est 5 fois plus fréquentes selon les données que l’hypothèse H_hasard.

3. Méthodologie

La méthode de détection d’un comportement de réponse au hasard selon le facteur de Bayes présentée ci-haut sera appliquée à l’aide d’une simulation informatique et à partir des réponses d’étudiants à une épreuve de classement en anglais langue seconde, au collégial. Il est à noter que nous souhaitons uniquement illustrer le potentiel de cette méthode.

3.1 Étude de simulation

3.1.1 Génération des données

Dans un premier temps, nous allons utiliser le modèle de Rasch, qui a été présenté à l’équation (1), pour générer des données pour 3 longueurs de test (6, 12 et 18 items). Dans le cadre de cette étude, le paramètre d’habileté θ sera généré à l’aide de la loi normale N(0, 1) et les difficultés b_i seront fixées et distribuées uniformément entre les valeurs -2,2 à 2,2. Ensuite, 1000 patrons de réponses seront générés de la façon suivante : 1) nous créerons l’échantillon des habiletés θ, 2) nous générerons J nombres aléatoires (pour 6, 12 et 18 items) à partir de la loi uniforme U[0, 1] et 3) pour chacun des j = 1, ... J items, la réponse x_j à un item sera égale à un si la valeur tirée à partir de la loi uniforme U[0, 1] est plus petite que la probabilité π_j calculée à partir du modèle de Rasch. Si ce n’est pas le cas, x_j sera égal à zéro.

Dans un deuxième temps, nous générerons des données au hasard pour trois longueurs de test : 6, 12 et 18 items. Dans ce cas-ci, la procédure suivra les étapes ci-dessous. 1) Nous générerons J nombres aléatoires pour 6, 12 et 18 items à partir de la loi uniforme U[0, 1]. 2) Pour chacun des j = 1, ... J items, la réponse x_j à un item sera égale à un si la valeur tirée de la loi uniforme U[0, 1] est plus petite que la probabilité π_j = 0,25. Si cette valeur est plus petite que π_j = 0,25, x_j est égal à zéro. Cette procédure sera répétée 1000 fois.

3.1.2 Méthode d’analyse des données

Nous allons présenter les résultats pour l’hypothèse

où H_non-ordre est une hypothèse non contrainte. De plus, nous allons analyser les données simulées à l’aide de l’hypothèse

où H_non-hasard est une hypothèse non contrainte. Dans tous les cas, nous indiquerons le pourcentage d’erreur de FB < 1.

3.2 Analyse d’un test en anglais langue seconde

La loi des grands nombres stipule que pour une épreuve d’évaluation contenant quatre choix de réponse, un étudiant répondant au hasard aurait une chance sur quatre de répondre correctement. Pour cette deuxième étude, nous utiliserons une épreuve de classification contenant des items qui présentent chacun quatre choix de réponses pour vérifier si les étudiants qui obtiennent entre 20 % et 30 % de bonnes réponses ont effectivement répondu au hasard.

3.2.1 Sujets

En 1998, 1373 étudiants du Cégep de l’Outaouais (749 femmes et 624 hommes) ont été soumis à cette épreuve obligatoire pour tous lors de la période d’inscription aux cours d’anglais. Dans le cadre de cette étude, nous analyserons seulement les résultats des 19 étudiants des deux sexes qui ont obtenu entre 20 % et 30 % de bonnes réponses à cette épreuve.

3.2.2 Instrumentation

Une grande partie des étudiants francophones nouvellement admis dans certains cégeps francophones de la province de Québec (Canada) passent le test de classement en anglais langue seconde, de niveau collégial (TCALS-II). Cette épreuve comprend de 85 items, à quatre choix de réponse, répartis en deux domaines (oral et écrit). On l’utilise pour classer les étudiants dans un groupe-classe adapté à leur niveau de maîtrise de l’anglais langue seconde. Il est à noter que les qualités métriques de ce test ont déjà été vérifiées par Raîche (2002) ainsi que par Laurier, Froio, Pearo et Fournier (1998). Selon ces auteurs, il est possible de postuler l’unidimensionnalité du construit, et la fidélité du test est égale à 0,96, donc une valeur assez importante. Notons, de plus, que cette épreuve d’évaluation présente principalement des items relativement faciles et aucun item difficile : la proportion moyenne de bonnes réponses est égale à 0,78 (s = 0,15).

3.2.3 Déroulement

Les étudiants doivent répondre aux questions du TCALS-II en moins de 90 minutes. Ce test comporte deux grandes sections. Dans la première moitié, ils écoutent une bande audio afin que soit analysée leur compréhension auditive. Dans la seconde moitié, c’est la compréhension écrite et la compréhension de la lecture qui sont évaluées. Il est à noter que le test se fait de façon individuelle et en silence. Enfin, tout le matériel est récupéré à la fin de l’épreuve d’évaluation.

3.2.4 Méthode d’analyse des données

Pour cette deuxième étude, nous testerons l’hypothèse selon laquelle l’étudiant a répondu de façon ordonnée contre l’hypothèse selon laquelle il a répondu au hasard :

Rappelons que chacun des items du test de classement en anglais, langue seconde, comportait quatre choix de réponse. Ainsi, un étudiant qui répondrait au hasard aurait 25 % de chance d’avoir une bonne réponse à un item. Pour être moins limités, nous avons sélectionné uniquement les répondants qui ont obtenu entre 20 % et 30 % de bonnes réponses, soit une approximation du nombre théorique de bonnes réponses en présence d’items contenant quatre choix de réponses. Ensuite, nous avons utilisé le code en langage FORTRAN produit par Hoijtink afin de calculer les facteurs de Bayes des réponses de chacun de ces étudiants. Finalement, nous interpréterons les facteurs de Bayes afin de mettre en relief l’hypothèse qui permettra le mieux de vérifier les données.

3.2.5 Éthique

Il s’agit de données secondaires qui avaient déjà été utilisées dans une recherche antérieure et obtenues dans le cadre d’une opération administrative au Collège de l’Outaouais. Il n’a donc pas été nécessaire de prendre en considération des aspects éthiques. Toutefois, les résultats de recherche ont été communiqués dans un rapport (Raîche, 2002) adressé au personnel du Collège impliqué dans l’administration du test.

4. Résultats

4.1 Étude de simulation

Les résultats sont présentés au tableau 4.

Observons la première colonne. Si les données sont générées à l’aide du modèle de Rasch, le pourcentage d’erreurs (choisir H_non-ordre plutôt que H_ordre) est faible et borné entre 14 % et 16 %. De plus, le nombre d’erreurs est relativement indépendant du nombre d’items. En ce qui concerne les données au hasard, nous observons que le pourcentage d’erreurs est beaucoup plus élevé (il est borné entre 69 % et 87 %). De plus, ce pourcentage augmente au fur et à mesure que le nombre d’items augmente.

Tableau 4

**Probabilités d’erreurs (en %)**

Observons maintenant la deuxième colonne. Lorsque les données sont générées à partir du modèle de Rasch, (choisir H_non-hasard plutôt que H_hasard) le pourcentage d’erreurs est plus élevé et borné entre 62 % et 75 %. De plus, nous observons que le nombre d’erreurs augmente lorsque J augmente. En ce qui concerne la génération de données au hasard, nous observons que le pourcentage d’erreurs est beaucoup moins élevé et indépendant du nombre d’items.

4.2 Étude des données en anglais, langue seconde

Le Tableau 5 présente les résultats des 19 étudiants qui ont obtenu entre 20 % et 30 % de bonnes réponses au TCALS-II

Selon les résultats illustrés au Tableau 5, c’est l’hypothèse d’un comportement de réponses au hasard H_hasard qui est la mieux validée par les patrons de réponses de ces étudiants. Ainsi, pour tous les patrons de réponses analysés, les FB_ordre/hasard obtenus tendent vers zéro ou sont égaux à 0,04, ce qui est une manifestation de soutien des données à l’hypothèse H_hasard. Encore une fois, l’utilisation de la nomenclature de Kass et Raftery (1995) nous permet de classifier les résultats à cette épreuve d’évaluation.

Tableau 5

**Résultats de 19 étudiants ayant obtenu entre 20 % et 30 % de bonnes réponses au TCALS-II**

5. Discussion des résultats

Les résultats présentés à la section précédente sont encourageants et permettent de comprendre un peu mieux le comportement du facteur de Bayes pour réaliser la sélection d’hypothèses visant la détection d’un comportement de réponses au hasard chez les étudiants. En effet, l’étude de simulation a montré que le facteur de Bayes semblait détecter adéquatement les réponses au hasard.

Il est important de comprendre que nos résultats avaient surtout comme objectif d’illustrer une méthode plutôt que d’étudier le fonctionnement de celle-ci de façon approfondie. Dans ce contexte, il n’est pas facile de faire des liens avec les autres approches qui concernent à la réponse au hasard. En effet, on ne connaît pas encore la distribution des scores de l’indice de pseudo-chance personnelle C, et les indices de détection tels que l_z sont des approches fondées sur l’adéquation des données à un modèle de mesure. Ils ne sont pas construits pour répondre spécifiquement au problème de la réponse au hasard.

Quelques limites doivent cependant être soulignées à propos des analyses effectuées à l’intérieur de cette recherche. Premièrement, les hypothèses émises pour détecter le comportement de réponses au hasard doivent être considérées comme une représentation fondée sur des données théoriques, et non pas empiriques, de la réalité. Il va de soi qu’analyser une série d’items où la probabilité de donner un score de 1 est égale à 0,25 peut sembler quelque peu artificiel. Par exemple, nous savons que des étudiants répondant au hasard pourraient être plus chanceux dans une section d’une épreuve d’évaluation que dans une autre. Considérer que cette probabilité est fixée et ainsi constante pour tout le test peut, certes, être contestable.

Deuxièmement, la qualité des items peut certainement influencer le calcul du facteur de Bayes. Puisque celui-ci repose sur des analyses probabilistes, il est important de procéder à un calcul adéquat de ces probabilités. Par exemple, les postulats d’unidimensionnalité des données et d’indépendance locale des items doivent être respectés si le modèle de Rasch est utilisé.

Troisièmement, le fait d’utiliser une distribution a priori spécifique plutôt qu’une autre peut être critiquable. Bien que la stratégie présentée dans cet article vise à prioriser une distribution vague, donc non informative, il ne faut pas perdre de vue que le choix de cette approche fait en sorte qu’il y a tout de même une part de subjectivité dans ces analyses.

6. Conclusions

Le survol des écrits de recherche est explicite : les administrateurs de tests manquent d’outils pour évaluer adéquatement si un étudiant a répondu au hasard lors de l’administration d’épreuves d’évaluation en éducation. Le but de cet article était de présenter une nouvelle approche permettant de pallier ce problème. Cette méthode est fondée sur l’utilisation du facteur de Bayes pour procéder à l’évaluation d’hypothèses informatives (Hoijtink, 2012 ; Hoijtink, Klugkist et Boelen, 2008). Grâce aux résultats obtenus à l’étude de simulation, nous constatons que le facteur de Bayes permet de bien détecter la réponse au hasard. L’analyse de données provenant du test de classement en anglais langue seconde nous permet aussi d’être optimistes et de croire que le facteur de Bayes peut être utile pour détecter un comportement de réponses au hasard. En effet, nous avons été en mesure de détecter toutes les réponses fondées sur une probabilité de 0,25 d’obtenir une bonne réponse.

Bien qu’il reste encore beaucoup de travail pour comprendre le comportement du facteur de Bayes, nous pouvons affirmer que cette approche présente déjà de nombreux avantages. Premièrement, le facteur de Bayes est fondé sur des hypothèses simples. Deuxièmement, cette approche peut être interprétée selon certains critères (par exemple, la nomenclature proposée par Kass et Raftery en 1995), même si ces critères pourraient être éventuellement mieux reliés à une réalité pratique. Troisièmement, l’approche peut être adoptée pour convenir à des ensembles de données plus petits que ceux généralement utilisés avec d’autres approches.

Certes, d’autres recherches devront être entreprises pour étendre l’applicabilité de l’approche et optimiser l’utilisation du facteur de Bayes. Premièrement, un devis mixte serait pertinent pour examiner plus spécifiquement les patrons de réponses des sujets qui admettent avoir répondu au hasard et de détecter ces individus avec la méthode présentée dans cet article. Deuxièmement, il serait important de comparer les résultats de la détection à l’aide du facteur de Bayes à ceux d’indices de détection de patrons de réponse inappropriés paramétriques et non paramétriques. Cela n’a pas été fait ici, car nous désirions plutôt présenter la méthode et non pas comparer son efficacité avec d’autres approches. Troisièmement, il serait pertinent d’étendre l’applicabilité de cette méthode à d’autres types de données. Par exemple, il est possible d’envisager une application à des réponses polytomiques. Enfin, il serait pertinent d’utiliser d’autres densités de distribution telles que la distribution de Jeffreys afin d’observer si celles-ci peuvent potentiellement changer la portée de nos résultats.

L’utilisation du facteur de Bayes pour identifier les étudiants qui répondent au hasardThe use of the Bayes factor to identify students who guess at randomLa utilización del factor de Bayes para identificar a los estudiantes que responden al azar

Résumé

Abstract