Mesure et évaluation en éducation
Volume 39, Number 1, 2016
Table of contents (5 articles)
-
Application de l’indice lz pour l’élimination de données de recherche en langues
François Pichette, Sébastien Béland and Gilles Raîche
pp. 1–22
AbstractFR:
L’indice de détection de patrons de réponses inappropriés lz (Drasgow, Levine & Williams, 1985) a été appliqué à un test d’habileté en lecture en langue seconde de 64 items soumis à 171 étudiants universitaires. L’objectif était de confronter un rejet intuitif de données de recherche à une élimination suggérée par lz. En outre, lz a été mis à l’épreuve pour détecter 12 participants additionnels ayant répondu par pseudo-hasard. Les résultats suggèrent que, bien que lz détecte efficacement des patrons de réponses aberrants pour de grands groupes et qu’il soit préférable à l’élimination intuitive, cet indice présente des limites pour l’analyse de plus petites matrices de données.
EN:
With the intent to detect inappropriate response patterns, the lz index (Drasgow, Levine & Williams, 1985) was applied to a 64-item test of second language reading ability administered to 171 university students. Our goal was to compare intuitive rejection of research data to data elimination suggested by lz. In addition, lz was challenged to detect 12 additional participants who had responded by pseudo-chance. Results suggest that although lz detects efficiently aberrant response patterns for large groups and that it proves superior to intuitive rejection, that index has limitations when it comes to analyzing smaller data matrices.
PT:
O índice de deteção de respostas inapropriadas lz (Drasgow, Levine & Williams, 1985) foi aplicado a um teste de competência de leitura em segunda língua com 64 itens administrado a 171 estudantes universitários. O objetivo era confrontar uma rejeição intuitiva de dados de investigação com uma eliminação sugerida pelo lz. Além disso, lz foi testado para detetar 12 participantes adicionais que responderam de modo pseudo-aleatório. Os resultados sugerem que, apesar de lz detetar eficazmente padrões de respostas aberrantes por grandes grupos e que é preferível à eliminação intuitiva, este índice tem limitações para a análise das matrizes mais pequenas de dados.
-
Éclairer les performances par une analyse après coup pour évaluer des compétences professionnelles
Florent Chenu
pp. 23–44
AbstractFR:
Est-il pertinent, pour évaluer des compétences professionnelles, d’observer un individu évalué dans une situation de travail, puis de s’entretenir avec lui à propos de son activité dans cette situation ? La question posée dans cet article s’inscrit dans le cadre théorique proposé par la didactique professionnelle. Elle interroge l’intérêt d’une méthodologie d’évaluation des compétences professionnelles qui, au-delà de l’observation d’une performance dans une situation donnée, tente de pronostiquer la « répétabilité » de celle-ci en examinant après coup les raisonnements mis en oeuvre dans cette situation. C’est dans cette perspective que nous avons mené une étude expérimentale sur la relation entre performance et conceptualisation. Cet article présente les résultats de cette étude. Nos travaux ont été conduits dans le domaine de l’utilisation professionnelle du traitement de texte, mais ouvrent le questionnement sur des considérations dont l’intérêt dépasse ce contexte particulier.
EN:
What is the relevance, in order to assess vocational skills, of observing the evaluated subject in a work situation, and then of having a discussion about their activity in that situation? The subject of this paper adheres to the theoretical framework proposed for vocational didactics. It also questions the interest of a vocational skill assessment methodology which, beyond the observation of a performance in a given situation, tries to forecast the “repeatability” of this performance by investigating afterwards the reasoning applied in this situation. This is the framework in which an experiment about the link between performance and conceptualization has been conducted. This paper presents the results of this experiment. Our research has been realized in the field of the professional use of a word processing software, but the conclusions go far beyond this particular context.
PT:
Será pertinente, para avaliar as competências profissionais, observar um indivíduo avaliado numa situação de trabalho e, depois, conversar com ele sobre a sua atividade nesta situação? A questão colocada neste artigo insere-se no quadro teórico proposto pela didática profissional e questiona o interesse de uma metodologia de avaliação de competências profissionais que, para além da observação de um desempenho numa determinada situação, tenta prever a sua “repetibilidadeˮ, examinando depois os argumentos aplicados nesta situação. É nesta perspetiva que realizamos um estudo experimental sobre a relação entre desempenho e concetualização. Este artigo apresenta os resultados deste estudo. Os nossos trabalhos foram realizados no domínio da utilização profissional do processamento de texto, mas abre o questionamento sobre considerações cujo interesse ultrapassa este contexto particular.
-
Une théorie des seuils psychométriques à double contrôle d’erreur – Partie II : l’erreur de mesure et le concept de norme sûre
Louis Laurencelle
pp. 45–66
AbstractFR:
La décision psychométrique qui consiste à décréter qu’un candidat, évalué par un test et dont le score est confronté à une norme, « passe » ou « ne passe pas » fait face à deux incertitudes, deux sources d’erreur : l’erreur de mesure, reflétée par le coefficient de fidélité du test et modifiant peu ou prou la valeur vraie du candidat, et la variabilité échantillonnale de la norme, celle-ci étant ordinairement basée sur un échantillon et présentant sa propre distribution d’erreur. À la suite de l’examen de l’incertitude de la norme et de son contrôle (Laurencelle, 2015), nous abordons ici l’erreur de mesure et son interaction avec l’incertitude de la norme, puis nous intégrons les deux dans un système mathématique basé principalement sur la loi normale. La probabilité que soit sélectionné un candidat non méritant ou non qualifié peut être calculée, tout comme celle qu’un candidat qualifié soit rejeté. Nous proposons enfin le concept et la méthodologie de la « norme sûre » (Laurencelle, 2002), laquelle permet de contrôler statistiquement le risque d’une erreur de décision.
EN:
Test-based ruling, i.e. deciding whether an examinee whose test score is compared to some norm or threshold « passes » or « passes not », must cope with two uncertainties, two error sources: measurement error, associated with the test’s reliability index and corrupting somewhat the individual’s true score, and the sampling variability of the norm, a value generally based on a sample and slurred by its own error distribution. Following our study of the norm’s statistical properties and their control (Laurencelle, 2015), we now tackle measurement error and its interaction with the norm’s uncertainty, incorporating both in a mathematical system based generally on the normal distribution. The odds that an unqualified candidate be retained may be calculated, as may those of a qualified one be rejected. Finally, we propound the concept and methodology of the «safe norm » (Laurencelle, 2002), a device that makes possible to statistically control the risk of a decision error.
PT:
A decisão psicométrica de declarar que um candidato, avaliado por um teste e cujo resultado é confrontado com uma norma, «passa» ou «não passa» enfrenta duas incertezas, duas fontes de erro: o erro medição, reflectido pelo coeficiente de fidelidade do teste e pela alteração mais ou menos do valor verdadeiro do candidato, e a variabilidade de amostragem da norma, geralmente baseada numa amostra e apresentando a sua própria distribuição de erro. Após análise da incerteza da norma e do seu controlo (Laurencelle, 2015), discutimos aqui o erro de medição e a sua interação com a incerteza da norma, integrando os dois num sistema matemático com base principalmente na distribuição normal. A probabilidade de ser selecionado um candidato sem mérito ou não qualificado pode ser calculada, assim como a probabilidade de um candidato qualificado ser rejeitado. Finalmente, propõe-se o conceito e a metodologia da «norma segura» (Laurencelle, 2002), a qual permite controlar estatisticamente o risco de um erro de decisão.
-
La catégorisation des élèves par les enseignants : une étude critique des propositions de Hofer
Philippe Wanlin, Marie-Louise Aliprandi, Angela Mossaz and Malika Revilloud
pp. 67–94
AbstractFR:
Notre contribution présente les recherches de Hofer (1981, 1986) qui se sont intéressées aux catégories d’élèves contenues dans le répertoire cognitif des enseignants. Elle se penche plus spécifiquement sur l’approche utilisée par cet auteur afin d’en extraire la méthodologie, dont nous avons fait usage notamment à l’aide des approches utilisées dans les recherches sur la catégorisation des objets et des personnes (Sternberg, 2007 ; Reed, 2011). Neuf enseignantes genevoises du primaire ont participé à notre dispositif de recherche, qui poursuit deux objectifs : (a) vérifier la pertinence du recours à une méthode statistique, soit l’analyse par grappes (cluster analysis), pour identifier les catégories d’élèves disponibles dans le bagage cognitif des enseignants, et (b) examiner si la structure interne centrale-périphérique de catégories isolées de connaissances que Hofer pense démontrer n’est pas le produit des algorithmes statistiques qu’il utilise. Nous concluons par une discussion sur nos résultats concernant la méthodologie et les perspectives de recherche.
EN:
This article presents Hofer’s (1981, 1986) research about students’ categories in teachers’ cognition. Its aim is to extract Hofers’ methodology and to supply it with approaches used by researchers interested in the categorization of persons or objects (Sternberg, 2007; Reed, 2011). Nine Geneva elementary school female teachers took part in this research that pursue two goals: (a) verifying the relevance of a statistical method (cluster analysis) to identify students’ categories in teachers’ general pedagogical knowledge, and (b) confirm whether or not the central-peripheral internal structure of the conclusions Hofer thought he was demonstrating is the result of his statistical algorithms. Results are discussed in terms of methodological and empirical perspectives.
PT:
Este artigo apresenta as investigações de Hofer (1981, 1986) sobre as categorias de alunos incluídos no repertório cognitivo dos professores. Mais especificamente, analisa a abordagem utilizada por este autor para extrair a metodologia que usamos, nomeadamente no apoio às abordagens utilizadas nas investigações sobre a categorização de objetos e pessoas (Sternberg, 2007; Reed, 2011). Nove professoras do ensino básico (1.º ciclo) de Genebra participaram no nosso dispositivo de investigação, o qual tem dois objetivos: (1) verificar a pertinência do recurso a um método estatístico – análise de conglomerados (cluster analysis) – para identificar as categorias de alunos disponíveis na bagagem cognitiva dos professores, e (2) analisar se a estrutura interna central-periférica de categorias isoladas de conhecimentos que Hofer pensa demonstrar não é o produto de algoritmos estatísticos que ele utiliza. Concluímos com uma discussão dos nossos resultados no que respeita à metodologia e às perspetivas de investigação.
-
Étude de nouveaux indices de détection de la réponse au hasard et de l’inattention selon différentes valeurs de l’habileté dans le contexte de la modélisation de Rasch
Sébastien Béland, Gilles Raîche, David Magis and Martin Riopel
pp. 95–118
AbstractFR:
Certains étudiants peuvent répondre au hasard ou être inattentifs dans une situation de testing. Plusieurs approches ont déjà été développées pour détecter ce type de réponse. Parmi celles-ci, l’utilisation d’indices de détection (person-fit indexes) de patrons de réponses inappropriés est l’approche qui est la plus étudiée et qui semble la plus prometteuse. Dans le cadre de cette étude, nous nous concentrons sur trois indices de détection populaires qui présentent des caractéristiques permettant d’en faciliter l’interprétation : lz, ZU et ZW. Des études antérieures ont montré que ces trois indices sont fortement affectés par le fait que l’habileté d’un étudiant est estimée plutôt que réelle. Snijders (2001) a proposé une version corrigée de l’indice lz (nommée lz*) afin de tenir compte de cette difficulté. Magis, Béland et Raîche (2014) ont déjà corrigé deux autres indices selon l’approche de Snijders : U* et W*. Il reste cependant à analyser plus en détail le comportement des indices corrigés lz*, U* et W* et des indices standardisés lz, ZU et ZW. Pour ce faire, nous effectuons deux études selon différentes valeurs de l’habileté, soit une analyse des erreurs de type I des indices (probabilité de se tromper en identifiant un patron de réponses inapproprié) et une analyse de leur puissance de détection. Ces analyses permettront de démontrer que ce sont généralement les indices corrigés lz* et W* qui sont les plus intéressants à utiliser puisque leurs scores suivent approximativement la loi normale et qu’ils permettent de bien détecter la réponse au hasard et l’inattention.
EN:
Some students may guess at random or be inattentive in a testing situation. Several approaches have been developed to detect these types of behavior. The use of person-fit index is the most studied approach and seems very promising. In this study, we focus on three popular indices which have many features to facilitate their interpretation: lz, ZU and ZW. Nevertheless, previous studies have shown that these three indices are strongly affected by the fact that the ability of a student is estimated rather than known. Snijders (2001) proposed a corrected version of the lz index (named lz*) to take account of this problem. Magis, Béland, and Raîche (2014) have already used the Snijders correction to create two person-fit indexes: U* and W*. It is now time to extend our understanding of the corrected indexes lz*, U*, and W*, and standardized indices lz, ZU, and ZW. To do this, we conduct two studies using different values of the student’s ability: an analysis of type I errors (probability of being wrong in identifying inappropriate response patterns), and an analysis of the power of detection of theses indexes. Our results show that the corrected indices lz* and W* are most interesting because their scores are approximately normally distributed and allow to adequately detect guessing at random and inattention response patterns.
PT:
Alguns alunos podem responder de forma aleatória ou desatenta numa situação de teste. Várias abordagens têm sido utilizadas para detetar este tipo de resposta. A utilização de índices de deteção (person-fit indexes) de padrões de respostas inapropriadas é a abordagem mais estudada e a que parece ser mais promissora. Neste estudo, concentramos-nos em três índices de deteção populares que apresentam características que permitem facilitar a interpretação: Iz, ZU e ZW. Estudos anteriores demonstraram que estes três índices são fortemente afetados pelo facto de que a habilidade de um aluno é mais estimada do que real. Snijders (2001) propôs uma versão corrigida do índice Iz (denominado Iz*) para ter em conta esta dificuldade. Magis, Béland e Raîche (2014) já corrigiram dois outros índices segundo a abordagem de Snijders: U* e W*. Resta, porém, analisar mais em detalhe o comportamento dos índices corrigidos Iz*, U* e W* e os índices padronizados lz, ZU e ZW. Para fazer isso, realizámos dois estudos usando diferentes valores de habilidade, seja uma análise dos erros do tipo I dos índices (probabilidade de estar errado na identificação de respostas inapropriadas) e uma análise do seu poder de deteção. Estas análises permitirão demonstrar que são geralmente os índices corrigidos lz* e W* que são os mais interessantes, uma vez que as suas pontuações seguem aproximadamente a lei normal e permitem detetar adequadamente a resposta ao acaso ou desatenta.