Corps de l’article

Introduction

Combiner plusieurs tests non indépendants constitue un problème fréquent en économétrie et en statistique. En effet, les modèles économétriques suggèrent souvent de tester plusieurs hypothèses différentes ou encore de tester la même hypothèse au moyen de plusieurs tests différents, tout cela à partir des mêmes données. Le premier problème est typiquement associé à la construction de régions de confiance simultanées (inférence simultanée), tandis que le second conduit à combiner des tests différents qui sont valides sous la même hypothèse mais dont les caractéristiques de puissance varient suivant la contre-hypothèse considérée. Les tests obtenus en combinant plusieurs tests séparés constituent des tests induits (ou tests combinés). Bien que distincts, ces deux problèmes soulèvent des difficultés statistiques assez semblables et font intervenir les mêmes techniques. Le lecteur trouvera des discussions générales de ces problèmes dans Miller (1981), Folks (1984), Savin (1984), Dufour (1989) et Dufour et Torrès (1998).

Dans le cas de tests induits, le problème consiste à contrôler le niveau global de la procédure (c.-à-d., la probabilité de rejeter l’hypothèse nulle lorsque celle-ci est vraie) dans une situation où la distribution de chaque statistique de test est habituellement connue (ou relativement facile à obtenir) mais la loi conjointe des statistiques est inconnue (ou difficile à établir). En outre, il est facile de voir que l’utilisation de points critiques individuels, fournissant des tests au niveau désiré pour chaque statistique, peut conduire à un niveau global beaucoup plus élevé que celui des tests individuels. Par exemple, si le niveau de chaque test parmi 10 tests est égal à 0,05, la probabilité qu’au moins un de ces tests soit significatif est typiquement beaucoup plus élevée (pouvant aller jusqu’à 0,50). Il est donc impératif de tenir compte de la relation entre les différentes statistiques. Dans le cas de tests simultanés pour différentes hypothèses, le problème consiste à contrôler la probabilité de rejeter au moins une hypothèse vraie dans un ensemble d’hypothèses qui peut être considérable (dans certains cas, infini). Il est facile de voir que ce problème est une généralisation du précédent (où plusieurs hypothèses distinctes sont examinées plutôt qu’une seule) et, à nouveau, on doit tenir compte de la loi jointe des différentes statistiques. La possibilité de considérer plusieurs hypothèses devient importante lorsque l’on veut déterminer quel aspect d’une hypothèse jointe détermine le rejet de celle-ci, en vue par exemple d’améliorer la spécification d’un modèle. Les problèmes distributionnels soulevés par l’utilisation de plusieurs statistiques sont exceptionnellement complexes. Une méthode habituelle dans ces contextes consiste à avoir recours à des bornes (par exemple, des bornes fondées sur des inégalités de type Boole-Bonferroni), mais celles-ci sont typiquement conservatrices et peuvent avoir un effet très négatif sur la puissance des procédures.

Récemment, les progrès de l’informatique ont rendu possible l’emploi de techniques de rééchantillonnage basées sur la simulation afin d’aborder des problèmes distributionnels complexes, qui ne se prêtent pas bien à la dérivation de la distribution exacte requise (pour une taille donnée d’échantillon) ni même parfois d’une approximation de grand échantillon. On distinguera notamment ici le bootstrap (voir, par exemple, Hall, 1992; Efron et Tibshirani, 1993; Davison et Hinkley, 1997; Horowitz, 1997; Chernick, 1999) et la méthode des tests de Monte-Carlo (Dwass, 1957; Barnard, 1963; Dufour et Khalaf, 2001; Dufour, 2002). Dans le cadre des tests d’hypothèses, ces méthodes sont, pour la plupart, proposées pour améliorer le contrôle de niveau dans les échantillons finis. De plus, pour certains problèmes non standards (par exemple, lorsque certains paramètres ne sont pas identifiés sous l’hypothèse nulle), les approches simulées sont non seulement plus fiables mais peuvent être plus faciles à mettre en oeuvre que les solutions asymptotiques disponibles; voir Dufour et Khalaf (2001), Dufour, Khalaf, Bernard et Genest (2003).

Les techniques de rééchantillonnge peuvent notamment être exploitées afin de résoudre divers problèmes de tests multiples. C’est le cas du bootstrap, qui permet d’améliorer de manière sensible la qualité des approximations asymptotiques; voir par exemple Westfall et Young (1993) et White (2000). L’emploi de résultats de convergence dans les échantillons finis reste toutefois sujet à caution[1]. Afin d’obtenir des procédures dont la validité est démontrable à distance finie, nous avons récemment proposé d’appliquer la technique des tests de Monte-Carlo à différents problèmes économétriques; voir Dufour et Farhat (2001), Dufour et Khalaf (2002b, 2002c), Dufour, Khalaf, Bernard et Genest (2003) et Dufour, Khalaf et Beaulieu (2002, 2003). Spécifiquement, nous montrons comment, sans recourir à la méthode de Bonferroni, on peut obtenir des tests induits exacts sur divers modèles paramétriques, possiblement non gaussiens, et même non paramétriques. Pour ce faire, on calcule des seuils de signification marginaux (valeurs-p) combinés par l’application des tests de Monte-Carlo (Dufour, 2002). Les problèmes considérés incluent en particulier divers tests de spécification sur les résidus de régressions univariées et multivariées : corrélation contemporaine entre les résidus de plusieurs régressions, changement structurel, autocorrélation des erreurs, hétéroscédasticité, ainsi que des tests d’ajustement.

Dans le présent article, nous allons nous intéresser en priorité à la construction de tests induits. Plus précisément, nous poursuivons un double objectif. Premièrement, nous décrivons un cadre unifié qui permet de voir comment de nombreux problèmes de tests induits peuvent être résolus en appliquant des techniques de tests de Monte-Carlo. Ceci permettra à la fois de réinterpréter des procédures déjà proposées et de considérer de nouvelles applications. Afin de mieux cerner le problème, nous réexaminons – à la lumière de ce cadre – deux exemples de tests induits dont le niveau est contrôlé par cette technique : (1) tests pour détecter une rupture de la variance des erreurs dans un modèle de régression; (2) tests d’indépendance entre les erreurs de plusieurs régressions linéaires (diagonalité de la matrice de covariance). Deuxièmement, nous proposons une application nouvelle à un problème économétrique important : tester la normalité des erreurs dans une régression en combinant plusieurs tests basés sur des moments différents, notamment des moments d’ordre supérieur à quatre. Alors que les tests habituels de ce type considèrent surtout les moments d’ordre trois et quatre – c.-à-d., les coefficients d’asymétrie et d’aplatissement – et sont fondés sur des approximations de grands échantillons (par exemple, Bowman et Shenton, 1975; Jarque et Bera, 1987), l’approche que nous décrivons ici fournit une méthode simple qui permet de combiner un nombre arbitraire de moments dans le cadre d’une procédure valide dans les échantillons finis. On obtient ainsi une version exacte du test de normalité proposé par Kiefer et Salmon (1983) ainsi que plusieurs modifications de celui-ci, qui peuvent fournir des gains de puissance.

Nous mettons l’emphase sur le caractère général des procédures que nous proposons et qui s’appliquent à tout test multiple simulable sous l’hypothèse nulle. Pour ces problèmes, nous formulons un cadre général qui permet d’étendre l’application de tests combinés originalement proposés pour des statistiques indépendantes, spécifiquement les procédures suggérées par Tippett (1931) et Fisher-Pearson (Fisher, 1932; Pearson, 1933)[2]. En appliquant la technique des tests de Monte-Carlo, nous généralisons ces procédures aux cas qui nous concernent.

Le plan de l’article est le suivant. Dans la première section, afin de motiver notre exposé, nous passons d’abord en revue divers problèmes pour lesquels notre méthodologie est pertinente. La deuxième section présente la méthodologie suggérée, tandis qu’à la troisième section nous décrivons deux applications spécifiques basées sur Dufour et Khalaf (2002b) et Dufour, Khalaf, Bernard et Genest (2003). Dans la quatrième section, nous décrivons une application originale à des tests de normalité des erreurs basés sur plusieurs moments dans un modèle de régression linéaire. Nous concluons à la dernière section.

1. Tests multiples

Les tests de spécification constituent un des problèmes de base qui conduit à effectuer des tests multiples. Par exemple, les tests d’autocorrélation portent habituellement sur plusieurs retards et les tests d’ajustement distributionnel peuvent suggérer l’examen de moments à divers ordres. Dans ces cas, on applique typiquement des tests portmanteau ou omnibus qui combinent des transformations asymptotiquement non corrélées des critères individuels, par exemple : (i) le test de normalité de JB (Jarque et Bera, 1980) qui combine un coefficient d’asymétrie avec un coefficient d’aplatissement ou celui de Kiefer et Salmon (1983) qui permet de considérer des moments d’ordre supérieur; (ii) le test portmanteau de Box et Pierce (1970) ou le test de ratio-de-variance multiple de Fong, Koh et Ouliaris (1997) contre la dépendance à plusieurs délais; ou (iii) le test de spécification conjoint de Bera-Jarque (Bera et Jarque, 1982) conçu pour tester simultanément l’absence de corrélation, l’homoscédasticité et la normalité. Ces tests peuvent avoir le bon niveau asymptotiquement, mais il est bien connu que le contrôle du niveau dans les échantillons finis peut être très insatisfaisant. En outre, on sait que le rejet d’une hypothèse jointe par un test omnibus peut être difficile à interpréter sans procéder à l’examen de plusieurs tests qui réagissent différemment à diverses contre-hypothèses.

Dans le cadre des tests de spécification, les tests de stabilité structurelle méritent une attention particulière. Le problème se pose lorsque le point de rupture est supposé inconnu. Par exemple, des tests de type Chow sont appliqués pour tout point de rupture éventuel, ce qui pose naturellement un problème de combinaison; voir Andrews (1993) et Andrews et Ploberger (1994). Cependant, la performance dans les échantillons finis des procédures de combinaison usuelles est insatisfaisante, ce qui motive la recherche d’autres méthodes, notamment celles basées sur des simulations. Pour des exemples pertinents, voir entre autres Christiano (1992), Diebold et Chen (1996) et Dufour et Kiviet (1996).

Les tests sur des modèles multivariés constituent un autre exemple typique. Les difficultés dans ce cas proviennent particulièrement de la dimensionnalité. Par exemple, on peut transformer un test d’hétéroscédasticité ou de normalité m-dimensionnel en une suite de m test univariés. Dans de tels cas, les tests omnibus sont couramment utilisés. Toutefois, ces tests reposent sur des approximations asymptotiques et peuvent très mal se comporter dans les échantillons finis; voir Bewley et Theil (1987), Zhou (1993), Deschamps (1996), Kilian et Demiroglu (2000), et Dufour, Khalaf et Beaulieu (2002, 2003).

2. Tests multiples simulés à distance finie

Les divers exemples discutés dans la section précédente peuvent sembler peu reliés. Toutefois, malgré la diversité des hypothèses en question, tous ces problèmes ont un point en commun : on considère m statistiques Si non indépendantes, chacune conçue pour tester une hypothèses nulle H0i, i = 1, ..., m (où les H0i peuvent être identiques). Afin de simplifier l’exposé (et sans perte de généralité), nous allons supposer que l’hypothèse H0i est rejetée au niveau α lorsque Si est « grand », c.-à-d. Sicici est un point critique tel que P[Sici] ≤ α lorsque H0i est « vraie ». De manière équivalente, le test Sici peut être considéré comme significatif au niveau α lorsque pi ≤ α où pi est le seuil de signification marginal du test (valeur-p). Dans le cas où Si ne peut suivre qu’une seule distribution sous H0i, on peut écrire pi = G(Si) où G(x) = P[Six] est la fonction de survie de Si sous H0i. Afin de simplifier l’exposé, nous supposerons ici que chaque statistique Si suit une loi continue sous H0i. Dans ce cas, on voit aisément que pi a une distribution uniforme sur l’intervalle (0, 1) sous l’hypothèse nulle :

De façon plus concrète, nous formulons le problème qui nous intéressera ici comme suit : comment peut-on combiner ces différents tests pour évaluer l’hypothèse conjointe

de façon à contrôler la probabilité de rejeter l’hypothèse jointe H0?

Pour ce faire, nous proposons d’appliquer la technique de tests de Monte-Carlo (MC) que l’on peut résumer comme suit. En premier lieu, on obtient une statistique combinée que nous dénotons S. Afin de simplifier la présentation et sans perte de généralité, nous allons supposer que le test basé sur la statistique S rejette lorsque la statistique S est grande. Plusieurs choix sont possibles, incluant :

  1. les tests de type Tippett (1931) fondés sur le minimum des valeurs-p,

ou encore

l’hypothèse H0 est rejetée lorsque pmin est petit (ou, de manière équivalente, lorsque Smin est grand);

  1. la procédure de Fisher-Pearson (Fisher, 1932; Pearson, 1933) qui considère le produit des valeurs-p,

ou encore une des transformations suivantes de ce produit :

dans ce cas, on rejette H0 lorsque p× est petit (de manière équivalente, lorsque S× (ou Sln) est grand).

Il est possible de considérer aussi un produit (ou une somme des logarithmes) pondéré

où les pondérations peuvent refléter des croyances a priori (Good, 1955) ou encore dépendre du vecteur des valeurs-p (Wilkinson, 1951). Pour un survol des différentes méthodes pour combiner plusieurs tests, le lecteur pourra consulter Folks (1984).

Considérons par exemple le cas des tests de ruptures structurelles. Tel que popularisé par Christiano (1992), évaluer conjointement les m critères de type Chow les plus grands peut apporter plus d’information que juste considérer leur supremum. Dans ce cas, m peut refléter une information a priori sur le nombre de ruptures multiples possibles. Nous pouvons donc formuler la suggestion de Christiano (1992) dans le cadre des statistiques combinées de la forme (8) en prenant wi = 1 pour les q valeurs-p les plus petites et wi = 0 pour les autres (q < m). L’exemple que nous traitons dans la section 3.1 illustre cette suggestion.

Dans le cas où les statistiques combinées que nous venons de décrire sont indépendantes, il est relativement facile de calculer leurs distributions sous l’hypothèse nulle. En effet, si les statistiques Si sont indépendantes, les valeurs-p individuelles le sont aussi et on voit facilement que

Il suffit alors de choisir α0 = 1 – (1 – α)1/m pour que la région critique pmin ≤ α0 ait pour niveau α . De même, dans ce cas, on a

une distribution qui est facile à calculer (et simuler). On notera en particulier que

de sorte que des points critiques pour p×, S× ou Sln peuvent être obtenus à partir de loi χ2(2m). Malheureusement, quand les statistiques Si ne sont pas indépendantes, ces résultats ne sont plus valides et calculer la distribution d’une statistique comme pmin ou p× peut devenir extrêmement difficile. Toutefois, dans beaucoup de situations, il est facile de simuler cette distribution. On peut alors effectuer des tirages aléatoires dans la loi du modèle sous l’hypothèse nulle et construire les statistiques associées aux échantillons ainsi simulés.

Afin d’avoir une notation bien claire, nous désignerons par S0 la statistique calculée à partir de l’échantillon observé et par S1, ..., SN ses contreparties simulées. Finalement, on calcule une valeur-p MC basée sur le rang equation: 011397are012n.png de la statistique observée dans la série S0, S1, ..., SN . La région critique du test MC correspond alors à

equation: 011397are014n.png est le nombre de statistiques simulées qui sont plus grandes ou égales à S0. Par exemple, on rejette l’hypothèse nulle au seuil 5 % si la statistique observée S0 excède le 95e quantile des valeurs simulées.

La question qui se pose alors est : sous quelles conditions cette procédure simulée contrôle-t-elle le niveau exact du test combiné? Si la distribution sous l’hypothèse nulle de la statistique considérée est simulable et ne dépend d’aucun paramètre inconnu, on peut démontrer qu’une région critique de la forme (13) contrôle le niveau dans le sens où

pourvu que α(N + 1) soit un nombre entier. La preuve repose sur des résultats distributionnels fondamentaux concernant la distribution des rangs associés à un ensemble fini de statistiques échangeables; voir Dufour et Khalaf (2001) et Dufour (2002).

Dans le cas qui nous concerne, une condition (suffisante) qui garantit le niveau d’un test de MC conjoint est une pivotalité conjointe : en d’autres termes, un test simulé tel que décrit ci-dessus satisfait (14) lorsque la distribution conjointe, sous l’hypothèse nulle (2), ne dépend pas de paramètres de nuisance; voir Dufour et Khalaf (2002a).

3. Deux exemples économétriques

Afin de rendre plus concrète la procédure générale décrite plus haut, nous allons examiner dans cette section deux exemples économétriques, où celle-ci a déjà été appliquée. Ces exemples portent sur les tests d’indépendance entre équations dans les modèles à régressions empilés (SURE, Dufour et Khalaf, 2002b), et des tests d’hétéroscédasticité contre une alternative de rupture de la variance en un point inconnu (Dufour, Khalaf, Bernard et Genest, 2003).

3.1 Tests d’indépendance dans les modèles SURE

Considérons un modèle SURE à m équations de la forme :

yj est un vecteur de T observations, Xj est une matrice (fixe ou strictement exogène) de plein rang colonne et de dimension T × kj, βj comprend kj coefficients inconnus et uj = (u1j, u2j, ..., uTj)′ est un vecteur T × 1 d’erreurs aléatoires. Soit Ut⋅ = (ut1, ut2, ..., utm)′ le vecteur des erreurs associé à la tième observation. Concernant la loi des erreurs, nous allons supposer que

J est une matrice triangulaire inconnue telle que

et W1, ..., WT sont des vecteurs aléatoires dont la distribution conjointe est complètement spécifiée (possiblement mais non nécessairement gaussienne). Nous voulons tester l’hypothèse que la matrice de corrélation contemporaine Σ est diagonale.

Pour ce problème, nous avons déjà montré que les statistiques usuelles (entre autres les critères LM et LR) sont pivotales (Dufour et Khalaf, 2002b). On peut alors obtenir facilement des versions exactes de ces tests sur la base de la méthode des tests de MC. Par ailleurs, Harvey et Phillips (1980, HP) ont proposé le test exact suivant afin de vérifier si le terme d’erreur d’une équation (disons la première) est indépendant des autres : on ajoute à la première régression les résidus correspondant aux autres équations et on applique un test F pour l’exclusion de ces résidus. Cette procédure est généralisée dans Dufour et Khalaf (2002b) afin de tester la forme diagonale de la matrice de covariance des erreurs. Deux types de tests induits sont proposés. Le premier (dénoté F) combine les m critères de type HP obtenus en testant l’indépendance de chaque équation par rapport au reste du système. Le second test (dénoté FS) examine consécutivement, si la première équation est indépendante des équations 2, ..., m, puis si la seconde est indépendante des équations 3, ..., m, et ainsi de suite. Pour chacun de ces deux ensembles de statistiques, on peut calculer des critères agrégés correspondants de type Tippett (dénotés Fmin et F×) et Fisher (FSmin et FS×).

Sous l’hypothèse nulle, la distribution conjointe des statistiques combinées par les critères Fmin, F×, FSmin et FS× ne dépend pas de paramètres inconnus. En effet, on peut obtenir des réplications indépendantes dans la loi conjointe de ces statistiques sous l’hypothèse nulle, en effectuant des tirages dans la loi des Wt (qui est complètement spécifiée). Les variances des erreurs dans les différentes équations n’interviennent pas dans la distribution en question (sous l’hypothèse de diagonalité, les covariances sont nulles). La procédure de MC explicitée ci-dessus peut donc être appliquée facilement.

Le tableau 1 résume les résultats d’une étude de MC basée sur ce modèle avec m = 5 équations et 25 observations par équation. Ici LR réfère à la version MC du test du quotient de vraisemblance. Dans le cas de tests à borne de type Bonferroni, les tests de type F sont obtenus en prenant α = α / m, tandis que, pour le test FS, nous avons utilisé une suite de niveaux qui décline suivant un schéma exponentiel (dont la somme est égale à α) : α1 = α / 2, α2 = α / 22, ..., αm-1 = α / 2m-1, αm = α / 2m-1. La matrice Σ1 a été obtenue à partir d’un exemple empirique, tandis que les autres matrices de covariance ont été construites en modifiant cette dernière de manière à réduire les covariances (en divisant les éléments de la décomposition Cholesky de Σ1 par des constantes appropriées). Les éléments non nuls de Σ0 correspondent à la diagonale de Σ1. Dans tous les cas, le niveau nominal des tests est 5 %, le nombre de réplications est égal à 1 000, et les tests de MC utilisent 99 échantillons simulés[3].

Tableau 1

Puissance des tests de diagonalité

Puissance des tests de diagonalité
Source : Dufour et Khalaf (2002b)

-> Voir la liste des tableaux

À partir de ces résultats, on voit que tous les tests MC contrôlent le niveau[4]. Les tests de MC induits ont une puissance nettement supérieure à celle des tests correspondants basés sur la borne de Bonferroni. La variante de Fisher du test de MC induit émerge comme étant le meilleur choix dans ce cas : sa puissance est excellente et surpasse même dans certains cas celle du test LR.

3.2 Tests de rupture d’une variance

Considérons maintenant une régression linéaire univariée :

y = (y1, ..., yT)′, X est une matrice d’observations sur k régresseurs (fixes ou strictement exogènes), β est un vecteur inconnu de coefficients de régression, u = (u1, ..., uT)′ est un vecteur d’erreurs tel que

σ1, ..., σT sont des paramètres d’échelle possiblement aléatoires et ε = (ε1, ..., εT)′ est un vecteur dont la distribution conditionnelle à X est complètement spécifiée (possiblement normale), par exemple

F0 est une loi donnée. Par exemple, nous pourrions considérer une distribution gaussienne sur les erreurs, c.-à-d.

mais d’autres distributions pourraient être envisagées. L’hypothèse nulle qui nous intéressera ici est celle d’homogénéité (ou homoscédasticité) des erreurs :

ce qui implique que u1, ..., uT sont i.i.d. selon la loi P(utv) = F0(v / σ) sous H0.

Dans ce contexte, considérons le problème qui consiste à détecter des bris structurels dans le paramètre d’échelle σt. Pour ce problème, Dufour, Khalaf, Bernard et Genest (2003) proposent des extensions des tests usuels, en particulier le test de Goldfeld et Quandt (1965, GQ), pour tenir compte d’un point de rupture non spécifié. Nous discutons cet exemple afin d’expliciter les critères de type (6).

Soit GQ(T1, T3, k) le test de Goldfeld et Quandt (1965, GQ) usuel où k est le nombre de régresseurs (incluant la constante), T1 et T3 dénotent respectivement les tailles du premier et dernier sous-échantillon sur lequel le test est basé (k < T1 et k < T3), ce qui signifie que les T2T – (T1 + T3) observations centrales sont omises. Sur la base d’une loi F(T3k, T1k), on peut associer une valeur-p à GQ(T1, T3, k), soit pv(GQ; T1, T3, k). Pour tenir compte du point de rupture inconnu, nous considérons :

avec

L0 et U0 sont les tailles minimales et maximales des sous-échantillons (0 ≤ T2T – 2k – 2, L0k + 1, U0TT2k – 1). En d’autres termes, cette définition produit un ensemble de statistiques {GQ(T1, T3, k) : (T1, T3) ∈ K} pour lesquelles le nombre d’observations centrales omis est maintenu constant. Nous considérons aussi

equation: 011397are026n.png contient les quatre plus petites valeurs-p de l’ensemble {pv(GQ; T1, T3, k) : (T1, T3) ∈ K}. Le choix du nombre maximal des valeurs-p retenues (m dans ce cas) pourrait refléter le nombre de ruptures attendues ou encore le nombre de minima locaux dans la série pv(GQ; T1, T3, k).

Sous l’hypothèse nulle, la distribution conjointe des statistiques combinées par les critères Fmin(GQ; K) et equation: 011397are027n.png est pivotale. En effet, on peut obtenir des réplications indépendantes dans la loi conjointe de ces statistiques sous l’hypothèse nulle d’homoscédasticité, en effectuant des tirages dans la loi des εt (qui est complètement spécifiée); voir Dufour, Khalaf, Bernard et Genest (2003). En d’autres termes, sous l’hypothèse nulle, le coefficient de régression β et le paramètre d’échelle σ2 n’interviennent pas dans la distribution en question. La condition de validité des tests de MC est donc vérifiée.

Le tableau 2 résume les résultats d’une étude de MC qui compare le test GQ standard et les tests combinés définis ci-dessus[5]. Le modèle considéré comprend une équation de régression linéaire avec une taille d’échantillon T = 50, k = 6 régresseurs incluant une constante. La variance des erreurs pour l’observation t, σ2t = σ1, si t ≤ τ0, et σ2t = σ1 + δ, si t > τ0, où δ ≥ 0 et τ0 représente la date de rupture (considérée inconnue). Les régresseurs sont tirés suivant une loi uniforme U(0, 10) et les coefficients de régression sont égaux à un. De plus, α0 = 1, et (δ, τ0) sont tels que : (σ1 + δ) / σ1 = 1, 4, 16, et τ0 / T = 0,3, 0,5, 0,7. Le test GQ considéré est basé sur T2 = [T / 5], T1 = T3 = (TT2) / 2. Pour chacun des critères combinés Fmin (GQ; K) et equation: 011397are028n.png deux choix pour K sont considérés. Le premier est le plus grand possible KA = S1(T, T2, k + 1, TT2k – 1), où T2 = (T / 5). Le second est plus informatif, centré sur un intervalle prédéterminé autour de la vraie date de rupture KS = S1(T, T2, τL0(k), τL0(k)), où T2 = (T / 5), τL0(k) = max{k + 1, τ0 – [T / 5]}, τU0(k) = min{TkT2, τ0 + [T / 5]}. Dans tous les cas, le niveau nominal des tests est de 5 %, 1 000 réplications sont considérées et les tests de MC utilisent 99 échantillons simulés.

Ces résultats illustrent clairement les avantages de considérer les tests combinés et surtout les critères de type Fisher-Pearson. En effet, les méthodes simultanées permettent d’atteindre une meilleure puissance et des décisions plus informatives.

Tableau 2

Puissance des tests de rupture sur la variance, avec points de ruptures non spécifiés

Puissance des tests de rupture sur la variance, avec points de ruptures non spécifiés
Source : Dufour et Khalaf-Bernard-Genest (2003)

-> Voir la liste des tableaux

4. Tests de normalité basés sur plusieurs moments

Nous allons maintenant considérer un problème pour lequel aucune procédure valide à distance finie n’a encore été proposée. Il s’agit de tester la normalité des erreurs dans un modèle de régression à partir d’un nombre arbitraire de moments empiriques des résidus. En particulier, on voudrait pouvoir considérer des moments d’ordre supérieur au quatrième moment. Le modèle considéré est la régression linéaire (18) avec σ2t = σ2, t = 1, ..., T. Dans ce modèle, les tests de normalité sont typiquement basés sur le vecteur des résidus des moindres carrés ordinaires :

equation: 011397are031n.png. Soit

Nous supposerons en outre ici que la matrice X comprend le régresseur constant ιT = (1, ..., 1)′. Lorsque X = ιT, nous obtenons le modèle moyenne-variance usuel, dans le cadre duquel la majorité des tests de normalité est étudiée en statistique.

Le problème consiste à tester

f(u) est la fonction de densité inconnue et φ(μ, σ2) représente la densité normale centrée de variance σ2. Cette question constitue un problème fondamental en statistique et en économétrie. En effet, dans le cadre des tests d’ajustement, l’hypothèse de normalité joue un rôle particulièrement important, étant donné la popularité de cette distribution tant sur le plan théorique que sur le plan pratique; pour des survols de la littérature pertinente, voir Mardia (1980), D’Agostino et Stephens (1986), Dufour, Farhat, Gardiol et Khalaf (1998) et Thode (2002). Évidemment, un très grand éventail de tests de normalité est disponible; par exemple, Thode (2002) recense au moins 40 tests différents sans compter les extensions et variantes de ceux-ci.

Dans ce contexte, nous avons déjà montré que la méthode des tests de MC permet de résoudre le problème du contrôle de niveau, pour la classe des tests de normalité invariants à la localisation et à l’échelle (qui contient presque sans exception toutes les procédures couramment utilisées), voir Dufour et al. (1998). Alors que les distributions de ces statistiques (à distance finie et même asymptotiquement) sont complexes et habituellement spéciales, les valeurs-p exactes obtenues par MC demeurent très faciles à calculer. Cette flexibilité permet d’envisager de nouveaux tests dont les caractéristiques de puissance seraient plus prometteuses. Il est important de rappeler que le problème du contrôle de niveau (ou concrètement la disponibilité d’une théorie distributionnelle exacte ou asymptotique) pose des limites réelles sur le choix des statistiques. Dans le cas qui nous concerne, à la lumière des résultats dans Dufour et al. (1998), la seule contrainte dont nous devons tenir compte consiste à construire les statistiques de test en fonction du vecteur des résidus standardisés, ce qui n’est guère restrictif en pratique.

Ce résultat nous incite à étudier d’autres procédures de test, notamment des procédures qui considèrent plusieurs moments. En effet, une famille couramment appliquée de tests de normalité s’appuie sur les déviations entre les moments empiriques des résidus et ceux (connus) de la loi normale. Même si les tests usuels se limitent aux troisième et quatrième moment (voir Jarque et Bera, 1987; Dufour et al., 1998), Kiefer et Salmon (1983) ont proposé d’exploiter les moments d’ordre supérieur à quatre. Dans notre cas, ceci conduit à considérer les moments empiriques

ainsi que les transformations suivantes de ces moments :

Sous l’hypothèse de normalité des erreurs, et dans le cadre du modèle moyenne-variance, Kiefer et Salmon (1983) démontrent que chacun des ces critères suit asymptotiquement une distribution χ2(1); de plus, ces critères sont asymptotiquement orthogonaux, ce qui permet de définir des tests portmanteau basés sur leurs sommes[6]. Par exemple, le test le plus couramment utilisé en économétrie, qui est dû à Jarque et Bera (1987), combine les coefficients d’asymétrie et d’aplatissement (basés sur les troisième et quatrième moments) :

Suite aux arguments de Kiefer et Salmon (1983), on peut aussi considérer une statistique du type

est l’ordre maximal considéré. Par exemple, Kiefer et Salmon (1983) définissent la statistique S(3, 5). Dans ce qui suit, nous allons prendre = 7, c.-à-d.

Il est important de rappeler que ces moments empiriques, particulièrement les coefficients d’asymétrie et d’aplatissement, sont largement étudiés dans la littérature. Pour une revue historique concernant les coefficients d’asymétrie et d’aplatissement, qui remontent au travaux de Fisher (1930), et un survol des résultats concernant leurs distributions, le lecteur pourra consulter D’Agostino et Stephens (1986) et Thode (2002). Campbell, Lo et MacKinlay (1997 : 18-20) proposent une approximation asymptotique (N(0, 6 / T) et N(0, 24 / T) respectivement) pour leurs lois sous une hypothèse nulle compatible avec des données financières.

Les résultats de l’étude de puissance rapportée par Dufour et al. (1998) illustrent la supériorité des procédures basées sur les troisièmes et quatrièmes moments, une fois leur niveau sous contrôle. Les études résumées dans Thode (2002) semblent corroborer cette évidence. Nous proposons ici des versions exactes des tests de Kiefer et Salmon (1983), ainsi que des statistiques modifiées en combinant les différents moments suivant les arguments de la section 2. Ainsi, notre procédure de combinaison permet de considérer :

pj = la valeur-p associée à Mj (par exemple, avec des points critiques approximatifs découlant de la loi χ2(1)).

Tel que démontré dans Dufour et al. (1998), les moments standardisés des résidus sont invariants par rapport au coefficient de régression et au paramètre d’échelle σ2 . En d’autres termes, on peut obtenir des valeurs simulées pour ces moments sous l’hypothèse de normalité des erreurs en effectuant des tirages dans la loi normale standard, conditionnelle à la matrice de projection MX. Il s’ensuit que la distribution conjointe des moments Mi, i = 1, ..., 7 est pivotale sous l’hypothèse nulle conjointe. Un test de MC basé sur (7)-(8) conduit à des procédures différentes de celles de Kiefer et Salmon (1983). Il est donc intéressant d’examiner leur performance vis-à-vis des tests asymptotiques et des versions exactes de ces derniers.

Comme cette question n’a pas été étudiée dans le cadre d’un modèle moyenne-variance, nous nous concentrerons sur ce modèle simple pour évaluer, par simulation, la performance relative des différentes procédures. Nous considérons une taille d’échantillon de 25 observations. À lumière des résultats dans Dufour et al. (1998), il est important de considérer une taille qui n’est pas trop grande afin de comparer la puissance des différents tests de normalité[7]. Les observations sont simulées sous la forme MX u; il n’est donc pas nécessaire de spécifier une valeur pour β et, sans perte de généralité, on peut poser σ2 = 1.

Pour chaque échantillon (de taille T = 25) nous avons calculé la moyenne et la variance empirique, les statistiques Mi, i = 1, ..., 7 ainsi que les statistiques portmanteau JB, S(3, 7), P(3, 7) et Min(3, 7). Nous rapportons, dans le tableau 3, les rejets empiriques (en pourcentage, sur 10 000 réplications) sous l’hypothèse nulle et diverses lois alternatives. Dans ce tableau, equation: 011397are045n.png et t(5) dénotent respectivement la loi normale, la loi Bêta(2, 3), la loi de Cauchy, la loi Gamma(2, 1), la loi log-normale centrée réduite et la loi de Student t(5). La partie du tableau intitulée « tests standards » se base sur les développements asymptotiques de Kiefer et Salmon (1983). Nos résultats se résument comme suit.

  1. Les tests standards sous-rejettent sérieusement. Les conséquences de ce sous-rejet sur la puissance des tests sont évidentes. La technique de MC améliore ainsi la puissance effective des tests.

  2. Dans le cas de la loi Bêta, les tests omnibus de type somme (à la Kiefer et Salmon, 1983) sont tous biaisés. La méthode de MC ne corrige pas ce problème, dans le cas du test de Jarque-Bera, même avec l’ajout de moments supérieurs. Par contre, malgré le fait que la puissance des tests induits P(3, 7) et Min(3, 7) reste faible, elle est supérieure au niveau. Notons que tous les tests étudiés dans Dufour et al. (1998), notamment le test de Jarque-Bera, sont biaisés dans ce cas.

  3. La version de MC du test JB fournit la meilleure puissance dans le cas de la loi de Student t(5). Par contre, pour la loi Gamma(2, 1), l’ajout des moments supérieurs semble pertinent, et une certaine amélioration de la puissance est observable pour les lois log-normale et de Cauchy, par rapport au test JB. Enfin, les tests P(3, 7) et Min(3, 7) sont préférables aux tests de type somme pour les alternatives Bêta et Cauchy.

Tableau 3

Puissance des tests de normalité basés sur les moments

Puissance des tests de normalité basés sur les moments

-> Voir la liste des tableaux

On voit, par ces exemples, qu’il est possible de réaliser des gains de puissance par rapport aux méthodes de combinaison usuelles. De plus, il semble que les tests combinés selon Tippett ou Fisher-Pearson ne souffrent pas du problème de biais (contre les lois platikurtiques) souvent rapporté dans cette littérature. Nous estimons donc que cette expérience motive des travaux plus poussés sur ce sujet, notamment dans un contexte multivarié. Dans ce cas, le problème (supplémentaire) consiste à combiner les critères de tests entre équations voir là-dessus Kilian et Demiroglu (2000) et Dufour, Khalaf et Beaulieu (2003).

Conclusion

Cet article décrit des stratégies de tests multiples fondées sur des simulations et dont la validité peut être démontrée pour une grande classe de modèles économétriques. En particulier, nous avons décrit un cadre unifié qui permet de montrer comment de nombreux problèmes de tests induits peuvent être résolus en appliquant des techniques de tests de Monte-Carlo. Ceci permet en particulier de voir comment les méthodes classiques proposées par Tippett (1931) et Fisher-Pearson (Fisher, 1932; Pearson, 1933) pour combiner des tests indépendants s’étendent à des statistiques non indépendantes. Ensuite, après avoir montré comment certaines procédures proposées dans Dufour et Khalaf (2002b) et Dufour, Khalaf, Bernard et Genest (2004) peuvent s’interpréter comme des cas spéciaux de l’approche considérée, nous avons proposé une application nouvelle qui permet d’obtenir des tests de normalité pour les résidus d’une régression basés sur un nombre quelconque de moments. On obtient ainsi une version exacte de la procédure de Kiefer et Salmon (1983) ainsi que des tests combinés de types Tippett et Fisher-Pearson. Les résultats que nous rapportons pour les exemples étudiés suggèrent que les tests de MC induits présentent des avantages par rapport aux méthodes courantes.

Nous soulignons le caractère général des procédures que nous proposons et que ces dernières peuvent s’étendre à toute espèce de tests multiples lorsque la loi conjointe des statistiques de test est simulable sous l’hypothèse nulle. Par conséquent, des raffinements et des extensions selon les orientations évoquées plus haut, permettent d’anticiper des résultats fort utiles en économétrie du point de vue théorique et empirique.