Mesure et évaluation en éducation
Volume 31, numéro 2, 2008
Sommaire (7 articles)
-
Nouvelles pistes en méthodologie de la mesure
-
Mesure sans démesure : la contribution de Jean Cardinet aux méthodologies de la mesure et de l’évaluation en éducation
Dany Laveault
p. 5–17
RésuméFR :
Cet article dresse un bilan de l’oeuvre de Jean Cardinet autour de deux grands principes : le besoin de résultats fidèles et valides pour informer et fonder la recherche en éducation et l’utilisation appropriée de cette information afin de soutenir les prises de décisions à tous les niveaux du système éducatif. L’article conclut en démontrant comment l’oeuvre de Jean Cardinet fournit des pistes pour traiter la problématique et les défis d’aujourd’hui.
EN :
This paper summarizes the work of Jean Cardinet around two major principles. The first one consists in the need for reliable and valid results to inform and found educational research. The second is concerned with how such results may be used to support decision making at all levels of an educational system. The paper concludes with an illustration of how Jean Cardinet’s work may provide insights for today’s issues and challenges.
PT :
Este artigo faz um balanço da obra de Jean Cardinet em torno de dois grandes princípios:por um lado, a necessidade de resultados fiéis e válidos para informar e fundamentar a investigação em educação e, por outro, a utilização apropriada desta informação para sustentar a tomada de decisões a todos os níveis do sistema educativo. O artigo conclui mostrando como a obra de Jean Cardinet fornece pistas para tratar os problemas e os desafios actuais.
-
Item response theory in educational assessment and evaluation
Cees A.W. Glas
p. 19–34
RésuméEN :
Item response theory provides a useful and theoretically well-founded framework for educational measurement. It supports such activities as the construction of measurement instruments, linking and equating measurements, and evaluation of test bias and differential item functioning. It further provides underpinnings for item banking and flexible test administration designs, such as multiple matrix sampling, flexi-level testing, and computerized adaptive testing. First, a concise introduction to the principles of IRT models is given. The models discussed pertain to dichotomous items (items that are scored as either correct or incorrect) and polytomous items (items with partial credit scoring, such as most types of openended questions and performance assessments). Second, it is shown how an IRT measurement model can be enhanced with a structural model, such as, for instance, an analysis of variance model, to relate data from achievement and ability tests to students’ background variables, such as socio-economic status, intelligence or cultural capital, to school variables, and to features of the schooling system. Two applications are presented. The first one pertains to equating and linking of assessments, and the second one to a combination of an IRT measurement model and a multilevel linear model useful in school effectiveness research.
FR :
La théorie de réponse à l’item (TRI) fournit un cadre utile et théoriquement bien fondé pour la mesure en éducation. Elle soutient des activités telles que la construction d’instruments de mesure, les procédures de mise en relation et de vérification d’équivalence des mesures, l’évaluation du biais d’un test et le fonctionnement différentiel d’items. Elle prévoit la base pour des banques d’items et des designs flexibles pour l’administration d’un test, comme les méthodes d’échantillonnage multicritérié, « flexi-level testing », et la méthode du test adaptatif par ordinateur. Tout d’abord, une brève introduction aux principes de modèles TRI est donnée. Les modèles discutés concernent des items dichotomiques (items qui sont corrects ou incorrects) et des items polytomiques (items à un crédit partiel, comme la plupart des questions ouvertes et questions de l’évaluation des compétences). Deuxièmement, on montre comment un modèle de mesure TRI peut être amélioré en utilisant un modèle structurel, par exemple, un modèle d’analyse de la variance, pour établir un lien entre les données provenant de tests pour mesurer le rendement et la capacité des élèves à des variables, tels leur statut socio-économique, leur niveau d’intelligence ou leur capital culturel, et à des variables caractérisant l’école et le système scolaire. Deux applications sont présentées. La première se rapporte aux procédures de type mise en parallèle (equating et linking), et la seconde à une combinaison d’un modèle de mesure TRI et d’un modèle linéaire multiniveaux utilisé dans la recherche relative à l’efficacité de l’école.
PT :
A teoria de resposta ao item (TRI) fornece um quadro útil e teoricamente bem fundamentado para a medida em educação. Sustenta actividades como a construção de instrumentos de medida, os procedimentos de relacionamento e de verificação de equivalência de medidas, avaliação do desvio de um teste e o funcionamento diferencial de itens. Prevê a base para os bancos de itens e desenhos flexíveis para a administração de um teste, como os métodos de amostragem multicriterial, “flexi-level testing” e o método do teste adaptativo por computador. Antes de mais, é dada uma breve introdução aos princípios dos modelos TRI. Os modelos discutidos dizem respeito aos itens dicotómicos (itens que são correctos ou incorrectos) e a itens politómicos (itens de crédito parcial, como a maior parte das perguntas abertas e das perguntas de avaliação de competências). Em segundo lugar, mostra-se como um modelo de medida pode ser melhorado utilizando um modelo estrutural, por exemplo, um modelo de análise da variância, para relacionar os dados provenientes de testes para medir o rendimento e a capacidade dos alunos com variáveis, tais como o seu estatuto socio-económico, o seu nível de inteligência ou o seu capital cultural e com variáveis que caracterizam a escola e o sistema escolar. Apresentam-se duas aplicações. A primeira está relacionada com procedimentos do tipo colocar em paralelo (equating et linking), e a segunda é uma combinação de um modelo de medida TRI com um modelo linear multinível utilizado na investigação relativa à eficácia da escola.
-
Validation of competence models for developing education standards: Methodological choices and their consequences
Erich Ramseier
p. 35–53
RésuméEN :
Following PISA 2000, Switzerland launched a project called HarmoS (Harmonization of obligatory School) to develop binding education standards for compulsory education in the three language regions of the country. These standards for four subject areas are based on models of competence. Part of the development is an empirical study to validate these competence models. The present article describes the design, methods, and some results of this validation study. It also discusses the study’s usefulness for defining the standards and the consequences of some methodological choices, particularly the heuristic application of the Rasch model.
FR :
À la suite de PISA 2000, la Suisse développe des standards de formation contraignants pour la scolarité obligatoire dans les trois régions linguistiques (projet HarmoS: Harmonisation de la scolarité obligatoire). Ces standards pour quatre sujets sont basés sur des modèles de compétence. Une partie du développement consiste en une étude empirique visant à valider ces modèles de compétence. Le présent article décrit la conception, les méthodes et certains résultats de cette étude de validation. Il traite aussi de l’utilité de l’étude dans l’optique d’une définition des standards ainsi que des conséquences de certains choix méthodologiques, en particulier la façon heuristique d’appliquer le modèle de Rasch.
PT :
Na sequência de PISA 2000, a Suíça desenvolveu referenciais normativos de formação para o ensino obrigatório nas três regiões linguísticas (Projecto HarmoS: Harmonização da escolaridade obrigatória). Estes referenciais para quatro domínios são baseados nos modelos de competências. Parte do desenvolvimento consistiu num estudo empírico para validar esses modelos de competências. O presente artigo descreve a concepção, os métodos e certos resultados deste estudo de validação. Trata também da utilidade do estudo na óptica de uma definição de referenciais, bem como as consequências de certas escolhas metodológicas, em particular o modo heurístico de aplicar o modelo de Rasch.
-
The versatility of generalizability theory as a tool for exploring and controlling measurement error
Sandra Johnson
p. 55–73
RésuméEN :
Measurement error arises from many sources in educational assessment. It is important to estimate the importance of this error, and, if appropriate, to seek ways to reduce it. Generalizability theory represents a powerful tool in this sense, allowing identifiable error contributions to be separately quantified, and measurement error to be estimated and even predicted in response to possible changes in the measurement procedure. The paper offers examples of generalizability analysis of numeracy attainment data deriving from the Scottish Survey of Achievement, with the aim of illustrating the versatility of the methodology for error estimation and prediction in this type of sample-based programme.
FR :
L’erreur de mesure découle de nombreuses sources dans l’évaluation en éducation. Il est important d’estimer l’ampleur de cette erreur et, si c’est le cas, de chercher les moyens de la réduire. La théorie de la généralisabilité représente dans ce sens un outil puissant qui permet d’identifier les sources de l’erreur et de les quantifier séparément, d’estimer l’erreur de mesure et même de prédire la réponse à d’éventuels changements dans la procédure de mesure. Cet article offre des exemples d’application de l’analyse de la généralisabilité sur des données pour le suivi des acquis des notions de calcul, données provenant de l’enquête écossaise sur la réussite, dans le but d’illustrer la polyvalence de la méthodologie d’estimation et de prévision de l’erreur dans ce programme d’évaluation basé sur un échantillonage.
PT :
Na avaliação em educação, o erro de medida decorre de numerosas fontes. É importante calcular a amplitude deste erro e, se for o caso, procurar meios para a reduzir. A teoria da generalizabilidade representa, neste sentido, um instru mento poderoso que permite identificar as fontes do erro e quantificá-las separadamente, calcular o erro de medida e mesmo prever a resposta a eventuais mudanças nos procedimentos de medida. Este artigo fornece exemplos de aplicação da análise da generalizabilidade sobre os dados das aprendizagens adquiridas de noções de cálculo, dados provenientes do Estudo Escocês sobre o Sucesso, com o objectivo de ilustrar a versatilidade da metodologia de cálculo e previsão do erro neste programa de avaliação baseado numa amostra.
-
La détermination de standards minimaux dans le cadre d’indicateurs de résultats : méthodologie, intérêt, utilité
Thierry Rocher
p. 75–91
RésuméFR :
Les questions méthodologiques que soulève la mise au point de standards minimaux sont discutées à travers l’exemple d’un dispositif français d’évaluation destiné à produire des indicateurs de résultats du système éducatif. Une attention particulière est portée sur la méthode employée pour fixer les seuils de performance.
EN :
The methodological issues raised by the development of minimum standards are discussed through the example of a French evaluation design intended to produce performance indicators of the education system. Special attention is given to the method used to set performance thresholds.
PT :
As questões metodológicas levantadas pelo desenvolvimento de standards mínimos são discutidas através do exemplo de um dispositivo francês de avaliação destinado a produzir indicadores de resultados do sistema educativo. É dada uma atenção particular sobre o método utilizado para fixar os limiares de desempenho.
-
Les standards de performance en éducation
Jean-Guy Blais
p. 93–105
RésuméFR :
En éducation, lorsqu’il faut établir des niveaux pour différencier les apprentissages et les performances des individus, il faut mettre en place des standards de performance. Il existe un grand nombre de méthodes proposées pour élaborer de tels standards. Ces méthodes partagent des points communs, mais ont également des spécificités qui permettent de les classer en quatre grandes catégories en fonction de la tâche demandée aux panélistes experts. Il n’existe pas de méthode universelle pour toutes les situations; la démarche est perfectible et, étant donné la recrudescence de ce type d’opération, elle exige qu’on s’y intéresse attentivement.
EN :
In education, when one must establish levels that differentiate learning and/or performance of individuals, it is necessary to define standards of performance. There are many proposed methods for developing such standards. These methods share common features, but also have specific characteristics that allow their classification into four main categories, depending on the task requested from the panel of experts. There is no universal method for all situations; the procedures can be improved and, given the increasing frequency of this type of operation, require a high degree of attentive interest.
PT :
Em educação, quando é necessário estabelecer níveis para diferenciar as aprendizagens e os desempenhos dos indivíduos, é preciso definir standards mínimos de desempenho. Existe um grande número de métodos para elaborar tais standards. Este métodos partilham pontos comuns, mas têm igualmente especificidades que permitem classificá-los em quatro grandes categorias, em função da tarefa solicitada ao painel de peritos. Nâo há um método universal para todas as situações; o processo é perfectível e, assumindo que este tipo de operação é cada vez mais frequente, reclama um interesse muito atento.