En raison des circonstances exceptionnelles dues à la COVID-19, Érudit souhaite assurer à ses utilisateurs et partenaires que l'ensemble de ses services demeurent opérationnels. Cependant, afin de respecter les directives gouvernementales, l’équipe d’Érudit est désormais en mode télétravail, et certaines opérations pourraient en être ralenties. Merci de votre compréhension. Plus de détails

Articles

Application de l’analyse des séries chronologiques à la projection d’effectifs de population scolaire par la méthode des composantesApplication of Time-Series Analysis to the Projection of School Enrollments by Cohort

  • Herbert L. Smith

…plus d’informations

  • Herbert L. Smith
    Population Studies Center, Université de Pennsylvanie, Philadelphie, États-Unis.

Corps de l’article

Prolégomènes

Une perspective économétrique

L’objet de cet article est de démontrer qu’il est possible de recourir à l’analyse des séries chronologiques afin de sous-tendre un nouveau type de projections démographiques incluant des intervalles de confiance, aussi grands soient-ils. Bien que les modèles autorégressifs servant à effectuer des prévisions soient bien connus des démographes, cette application particulière n’a encore jamais été tentée. Après avoir présenté notre cadre d’analyse et détaillé la structure de nos données dans une perspective économétrique puis démographique, nous passerons en seconde partie à l’application illustrative de l’analyse des séries chronologiques à la projection des effectifs de population scolaire d’un comté de l’État de Californie. Pour ce faire, l’utilisation de la méthode des composantes, par le biais des ratios de survie scolaire, mettra en évidence l’apport des séries chronologiques à la projection démographique, de même que dans son extension stochastique. En conclusion, nous proposerons, à partir de ces résultats, des pistes de recherche prometteuses dans le domaine de la prévision démographique.

Pour commencer, nous présentons dans la figure 1 une structure de données stylisées dans laquelle les rangées sont marquées par les indices {t - T, ..., t - 2, t - 1, t, t + 1, t + 2, ...} afin d’indiquer la nature temporelle de cet échafaudage. On observe les données pendant T + 1 périodes dont la plus récente est t. Les lignes dénotées par t + ... signifient l’avenir. Ainsi, on ignore les valeurs des cellules (grisâtres) qui s’y rapportent. Il s’agit de déceler des relations parmi les observations faites antérieurement dans le but de proposer un modèle qui pourra servir à prévenir l’évolution de ces valeurs.

Figure 1

Quelques colonnes de données rangées par période

Quelques colonnes de données rangées par période
Source : figure et notations de l’auteur.

-> Voir la liste des figures

Du point de vue de l’économétricien, il y a une grande classe de modèles qui se prêtent à l’analyse de ces séries chronologiques, dont la prévision. Sans restreindre la généralité, nous nous concentrerons sur le système d’équations suivant :

où pour 1 <<p << T, les y sont p + 1 vecteurs de longueur J, le nombre de colonnes dans la figure 1 :

αo est un vecteur de constantes, également de longueur:

et nous avons p matrices carrées de dimension J × J qui relient les colonnes — en principe, chaque série à toutes les autres — jusqu’au décalage p :

Quant aux erreurs, elles sont distribuées en tant qu’ut~N(o,∑t), avec la matrice variance-covariance ∑t, également de dimension J × J, typiquement de la forme

Par exemple, si on substitue les contraintes

à l’équation (4), on réalise J équations pour les processus AR(p), auquel cas la prévision des valeurs futures au sein de chaque colonne ne s’appuie que sur les données antérieures à de la même colonne. En revanche, si on veut se servir de toutes les données antérieures, toutes variables confondues — c’est-à-dire que le passé de chaque variable peut influencer la prévision de toutes les autres — on se retrouve avec les équations (1)-(5) et, en particulier, avec l’équation (4) complètement non contrainte, au moins dans la mesure où T >> J, afin que tous les paramètres soient identifiés[1]. C’est un VAR ou ARV, un modèle vecteur autorégressif (Enders, 2004 : 264-272), encore appelé autorégression vectorielle (Gujarati, 2004 : 838-845).

Entre les deux extrêmes, les séries isolées de l’équation (6) et le « tout empiète sur tout » de l’équation (4), il existe une gamme de modèles qui ont été développés dans le cadre des modèles SVAR ou VARS, vecteur autorégressif structurel (Sims, 1986; e. g. Desnoyers, 2001). Bon nombre de théories et de débats ont marqué l’évolution de ces modèles et ont donné lieu à maintes discussions sur les circonstances dans lesquelles il faut, ou il ne faut pas, imposer des contraintes à la matrice de l’équation (4) (Stock et Watson, 2001; Favero, 2007). Nous n’entrerons pas dans ces débats, car ils s’encombrent d’un discours économique qui ne nous concerne pas, sauf pour constater ici qu’il s’agit de distinguer les variables qui sont exogènes par rapport aux autres. Dans l’équation (4), toutes les variables sont mutuellement endogènes.

La notation sera adaptée plus bas de façon à écarter les variables exogènes des variables endogènes, à l’instar d’un modèle VARX (Bierens, 2004), avec les vecteurs x pour les variables exogènes et les vecteurs y réservés aux variables endogènes. Pour l’instant, il suffit de considérer que les vecteurs y1 et y2 restent endogènes, en ce sens que chacun empiète sur l’autre, et que tous les deux dépendent des autres vecteurs, y3, ..., yj, ..., yJ, mais qu’ils ne causent pas, au sens de Granger (1969), cette deuxième série de variables. Par conséquent, on précise les matrices à la place de celles de

l’équation (4). Ce schéma de base — à remarquer que le coin gauche en bas de chaque matrice ne se compose que des éléments nuls — est typique des dessins qui viennent structurer les VARS, autrement débridés.

Ce qui nous intéresse ici, c’est que la caractérisation exogène d’un tel ensemble de variables et les contraintes conséquentes à la façon de l’équation (7) sont censées découler de la théorie économique (cf. Sims, 1980). Or, celles-ci n’ont rien à voir avec l’ordre des colonnes dans la figure 1. Les indices J = 1, …, J ne servent qu’à indiquer les variables au sens nominal et sont sans signification ordinale. On peut les permuter pourvu qu’on se souvienne à quel indice correspond chaque variable. Par contre, on ne peut pas permuter les lignes du tableau de la figure 1 sans perdre le sens temporel des données.

Une perspective démographique

Dans l’optique d’un démographe, une structure de données comme celle de la figure 1 peut représenter une deuxième dimension de temps, soit de l’âge ou, plus généralement, de la durée. Dans cette perspective, les diagonales d’un tel tableau prennent une signification, comme le montre la figure 2, où l’on suppose que la distance entre chaque période (chaque rangée) est identique à celle de chaque âge ou durée (chaque colonne). L’exposant, k = (t - T - J + 1), …, t - T, …, t - 2, t - 1, t, t + 1, t + 2, …, marque, pour chaque diagonale, le temps d’entrée dans la première colonne de la structure. Ce sont les cohortes qui vieillissent du haut, à gauche de la figure, vers le bas, à droite, avec le déroulement du temps. Comme la vie est relativement longue, de nombreuses régularités par âge apparaissent au travers de son cours, c’est-à-dire, au sein d’une cohorte. Ainsi, la projection par cohorte est un outil très puissant pour la prévision chez les démographes[2]. Ceci est explicite dans les modèles canoniques de la projection d’une population par âge au moyen des matrices de Leslie (Namboodiri, 1991 : 160-172, 184) et d’autres (Ledent, 1995). C’est la colonne vertébrale du modèle fondamental des prévisions démographiques qui s’appuient sur la méthode des composantes (Leridon, 2003 : 630), ce que Le Bras (2005 : 174) a appelé « le noyau dur de la discipline ». Par exemple, on peut prévoir l’avenir du tabagisme (Wang, 2008 : 73-110) parce que le niveau de tabagisme d’une cohorte se fige par rapport au seuil d’initiation chez les adolescents et les jeunes adultes (Inserm, 2003 : 11), et parce que la mortalité s’ensuit forcément, on peut l’anticiper également (Wang et Preston, 2009). C’est probablement la raison pour laquelle seuls les démographes se permettent de faire des prévisions à longue échéance, dans un horizon de dix ans ou plus encore (Granger, 2007 : 6).

Figure 2

Quelques données rangées par durée, période et (sur les diagonales) cohorte

Quelques données rangées par durée, période et (sur les diagonales) cohorte
Source : figure et notations de l’auteur.

-> Voir la liste des figures

Alho et Spencer (2005 : 201) ont remarqué que les statisticiens probabilistes ont développé les modèles linéaires stationnaires au cours des années 1920, 1930 et 1940, en même temps que les démographes construisaient des projections originales à l’aide de la méthode des cohortes. Les auteurs ont abordé ces deux sujets en profondeur (inter alia, p. 180-186, 198-238). Ils ont estimé plusieurs modèles mixtes intégrés autorégressifs et de moyennes mobiles (ARIMA) pour les données démographiques classées d’après la figure 2 — les taux de fécondité et de mortalité, rangés par année et par âge — et ont déterminé qu’il n’y avait pas de séries chronologiques stationnaires, quel que soit l’âge (p. 207). En outre, et davantage intéressant, les auteurs ont constaté que le modèle VAR représentait une généralisation de plusieurs modèles AR, à l’instar de l’équation (4) par opposition à l’équation (6) (p. 204) et que la même algèbre matricielle de la projection par cohorte s’employait d’une façon différente par rapport à l’analyse des séries chronologiques (p. 181). Cependant, les deux littératures n’ont pas toujours évolué singulièrement; elles ont eu à s’entrecroiser plusieurs fois. On recense ainsi plusieurs illustrations de ce fait (inter alia, Butz et Ward, 1979; McDonald, 1980; Lee et Carter, 1992; Wachter, 1992 : 81; Lee et Tuljapurkar, 1994; Renshaw et Haberman, 2003) et on pourrait multiplier les exemples (cf. Booth, 2006).

De cette manière, « l’astuce » élaborée ci-dessus, le changement du sens des colonnes et le remaniement dans la foulée de la perspective sur la prévision, n’apparaît pas en soi comme quelque chose d’important. Pourtant, il s’avère que le modèle VAR constitue un cadre d’analyse très fructueux pour la compréhension, voire l’amélioration des dynamiques des modèles de projection démographique d’un usage courant. De la même façon, la structure par cohorte peut donner, par le biais des modèles VAR, une « mémoire » inédite aux séries temporelles. Nous en démontrons le bien-fondé par rapport au problème de la prévision de l’inscription scolaire.

Exemple d’une synthèse : la projection de l’effectif scolaire

Que ce soit au niveau national (UNESCO, 2009), provincial (Gouvernement du Québec, 2009) ou local (Morrison, 2000; Projet…, 2007) — même pour une école particulière (Lamy, 2004) — la projection (voire la prévision) de l’effectif scolaire s’appuie la plupart du temps sur une version de la méthode de la « survie de la cohorte ». L’idée est assez simple :

Posons que les éléments forme: forme pleine grandeur de la figure 2 expriment les effectifs d’élèves par classe afin que dans l’année t, il y ait w t-j+1 t,j étudiants au niveau j. Pour i<t, ces effectifs sont constatés mais pour i - t, il s’agit de l’avenir, et donc, de la prévision. Conséquemment, l’effectif dans la classe dans l’année t +1 aurait dû être prédit en fonction de l’effectif dans la classe précédente (j - 1) dans l’année antérieure (t). On écrit

où les forme: forme pleine grandeur représentent les « rapports de survie scolaire » ou les « rapports de progression » (Jacoby, 1959 : 28), par analogie avec le terme courant en anglais « grade-progression ratios » (e. g. Siegel, 2002 : 516). Ils se fondent sur les relations qui ont existé antérieurement. Ainsi, pour une seule période passée, ρ = 1,

En combinaison avec l’équation (8), on se sert du rapport qui a fait le glissement d’un niveau (j - 1) à un autre (j) dans la cohorte précédente (t - j + 1) pour prévoir ce qui va arriver au sein de la cohorte t - j + 2 entre les mêmes niveaux.

Dans le cas où l’on veut se servir de deux périodes passées (ρ = 2) pour estimer les rapports de survie, on constate la moyenne géométrique des deux rapports antérieurs :

et, en général, on peut écrire

pour la moyenne géométrique simple de ρ rapports passés.

Pour relier les éléments de la figure 1 à ceux de la figure 2, on définit :

de telle manière que le système d’équations (8)-(9) soit rendu linéaire. Pour ρ = 1, on prévoit :

et, en conséquence de l’identité (10) :

Pour ρ = 2, il s’agit de

De cette manière, on aboutit à la forme générale ρ,

Soulignons que l’équation (11) représente effectivement un ensemble d’équations dans la mesure où, pour J niveaux (classes) dans un système scolaire, cette projection se répète à J - 1 reprises. De plus, étant entendu que l’effectif pronostiqué au niveau j pour l’année t + 1 (yt+1,j) s’implique subséquemment dans la projection de l’effectif au niveau j + 1 pour l’année t + 2 (yt+2,j+1), et ainsi de suite, nous rappellerons qu’une telle combinaison linéaire pour la projection « se prête alors facilement au calcul matriciel » (Le Bras, 2005 : 188). En particulier, on précise pour l’équation (11) et tous les j,

où les y sont p + 1(= ρ + 2) vecteurs de longueur J,

et où il y a p = ρ + 1 matrices de type AM;ρ (moyenne simple de ρ rapports de progression) :

pour ℓ = 1, …, ρ [3] (ainsi, pour ρ = 2, il n’y a que deux matrices). Il convient de remarquer que bien qu’en passant des équations (8) et (9) à l’équation (11) on se débarrasse des exposants qui représentent les cohortes, les matrices de l’équation (14) retiennent fidèlement le système de projection par la méthode des composantes, c’est-à-dire par les rapports de survie scolaire appliqués aux cohortes. Notons également que ces équations s’accordent parfaitement avec l’équation (9), il faut stipuler ici que

mais on retient ce vecteur pour les ordonnées à l’origine parce qu’on s’en sert plus tard.

Le système d’équations (12)-(14) ressemble beaucoup à celui des équations (1)-(5), sauf sur les quelques points qui suivent :

  • les erreurs ne figurent plus;

  • le vecteur à gauche du signe d’égalité dans l’équation (12) a rapport à la période t + 1, c’est-à-dire à l’avenir (et ainsi tous les décalages à droite se déplacent d’une période par rapport à ceux dans l’équation [1]);

  • et enfin dans l’équation (14), il n’y a que des paramètres fixes, tandis que même avec beaucoup de contraintes sur les paramètres dans l’équation (3), à l’instar de celles de l’équation (6), il reste des paramètres libres.

Ces différences s’expliquent par une différence d’optique. La nouvelle perspective temporelle de l’équation (12) face à celle de l’équation (1) n’est pas une défaillance; elle découle directement de la définition canonique d’un rapport de survie scolaire et de son application aux données disponibles. Dans cette optique, il ne s’agit que de préciser ρ, le nombre de périodes passées qui figurent dans le calcul d’un rapport de survie scolaire et d’avancer les effectifs observés par classe dans l’année t , au moyen de l’équation (8). Ayant réécrit cette équation afin qu’elle ressemble à un modèle vecteur autorégressif, on constate que ce processus s’appuie effectivement sur un passé un peu plus profond, relié au futur par les paramètres de l’équation (14). Pourtant, ces paramètres sont fixes, conditionnels de ρ (et supposent que la moyenne dans l’équation [9] soit simple); ainsi, le système d’équations (12)-(14) est un système de projection et non un système d’estimation.

Dans la perspective économétrique, la prévision se déroule en deux étapes. On précise un modèle (voire plusieurs modèles) fondé sur les données dans l’équation (3) ainsi que les contraintes sur la répartition des erreurs, telles que celles de l’équation (5), afin d’estimer les paramètres dans l’équation (4) (ou les équations de contrainte, telles que [6] ou [7]). Après avoir établi ces paramètres, on peut commencer à faire des prévisions, d’abord pour l’année t + 1, en mettant à jour tous les décalages pour que l’équation (1) se transforme en équation de prévision comme l’équation (12).

Des intervalles de confiance pour les projections des effectifs scolaires

On fait dériver les variances des erreurs de prévision des séries chronologiques sous l’hypothèse simplificatrice que les coefficients matriciels des équations (3) et (4) sont connus (e. g. Enders, 2004 : 279-280, 291)[4]. Avec la projection par la méthode des composantes, on peut en effet renverser le processus : on pose les coefficients par le biais des équations (14) et (15); on déplace en temps l’équation (12); et on retrouve des erreurs du passé sous l’hypothèse que le modèle pour faire les projections dans le futur a duré longtemps :

Par rapport à celles de l’équation (1), ces erreurs sont complètement empiriques dans le sens où il n’existe pas de supposition sur leur répartition. Ainsi, on ne connaît pas réellement les propriétés statistiques des intervalles de confiance fondés sur ces erreurs de prévision. Malgré tout, les intervalles de confiance dans les projections démographiques non stochastiques restent une idée qui séduit (e. g. Tuljapurkar, 1992; Duchêne, 1999) et, jusqu’ici, l’évaluation des erreurs de prévision dans la projection des effectifs scolaires n’existe que par celles observées après l’écoulement des années (e. g. Spar, 1994; Grip, 2004, 2009).

Pour saisir dans le cadre des modèles VAR très contraints les apports et les limites de la projection par la méthode des composantes, nous considérerons ici deux modèles de prévision très élémentaires qui s’appliquent aux données d’un comté, tirées d’une façon peu méthodique de State of California (2008) pour les années 1974 à 2008 et portant sur 15 000 élèves par classe. On fixe le nombre des classes à J = 9, soit un kindergarten (j = 1) suivi par les classes 1 à 8. Pour le premier modèle, on pose ρ = 1, c’est-à-dire qu’on ne se sert que du rapport de progression (pour chaque classe) le plus récent en faisant les projections. Pour le second modèle, il s’agit de ρ = 2, on fait une moyenne géométrique des rapports de progression de 2006 à 2007 et de 2007 à 2008. En particulier, pour ρ = 1 on précise

et pour ρ = 2,

On suppose que les effectifs pour j = 1, donc {y1,t}, s’engendrent seulement grâce à un processus autorégressif d’ordre 2, ainsi

également pour les deux modèles[5].

Les résultats pour les classes 4 et 8 sont présentés dans la figure 3, avec ρ = 1 à gauche et ρ = 2 à droite. En raison de l’équation (10), l’ordonnée est en échelle logarithmique. Les équations (17) et (18) font ressortir l’atout de la méthode de projection des composantes par le biais des cohortes : ainsi, par exemple, l’augmentation de l’effectif dans la classe 4 qui est prévue en 2009 se reproduit dans les projections pour 2013 pour la classe 8, c’est-à-dire quatre ans plus tard, quand ces élèves ont avancé. Cet enchaînement n’existe pas dans le cas où les prévisions sont effectuées dans un système d’équations isolées, tel que celui précisé dans l’équation (6). Autrement dit, il ne peut se produire si les séries d’effectifs sont abordées classe par classe au sein d’un système dépourvu d’une structure de cohorte et déconnecté des modèles autorégressifs.

Figure 3

Prévisions avec intervalle de confiance de 95 %, pour la classe 4 et la classe 8 de deux modèles (nombre de rapports de progression utilisés, soit rho[ρ] = 1 ou rho[ρ] = 2)

Prévisions avec intervalle de confiance de 95 %, pour la classe 4 et la classe 8 de deux modèles (nombre de rapports de progression utilisés, soit rho[ρ] = 1 ou rho[ρ] = 2)
Source : données de 1974 à 2008 pour un comté de Californie, State of California, 2008.

-> Voir la liste des figures

Quant aux estimations de l’erreur dans les prévisions : les racines carrées de la variance résiduelle estimées pour la classe 4 et la classe 8 s’avoisinent à σ̂u4 ≅0,016 et σ̂u8 ≅0,014, c’est-à-dire une erreur moyenne de 1,5 %. Il s’avère qu’il n’y a aucune différence dans l’estimation de ces paramètres par rapport aux spécifications ρ = 1 et ρ = 2[6]. Par conséquent, les estimations des intervalles de confiance commencent, pour l’année 2009, avec ces valeurs (gonflées par le facteur 1,96 pour approcher le degré de confiance de 95 %)… et se détériorent par la suite. La vitesse et l’envergure de cette détérioration sont fonction de la durée, de la classe et, fait intéressant, du choix de ρ, le nombre de rapports de progression historique qui figurent dans le calcul des rapports pour la projection.

Le fait que plus on se déplace vers l’avenir plus les erreurs de prévision augmentent est en accord avec le « principe d’incertitude croissante » (Léridon, 2003 : 630) et avec l’arithmétique : l’évolution des valeurs pour n’importe quelle série {yt+1,j, yt+2,j,…, yt+n,j} est un processus dans lequel la prévision de chaque élément se fonde sur la valeur de la prévision précédente. Ainsi, ŷt+2,j s’appuie sur ŷt+1,j et ŷt+n,jsur ŷt+n-1,jde manière que les erreurs s’accumulent avec le temps (Enders, 2004 : 79-81).

Quant à la rapidité avec laquelle l’intervalle de confiance s’élargit : il est important de reconnaître que, bien que les équations du type de la (17) n’apparaissent que relier les séries contiguës, les valeurs antérieures — et les erreurs antérieures — se propagent en fait d’une série à l’autre au fil des années. Par exemple, avec ρ = 1, et la définition d’une différence, ∆yt,j = yt,j - yt-1,j, on peut réécrire le système d’équations (16), (13), (17) et (19) comme tel

donc forme: forme pleine grandeur et forme: forme pleine grandeur; et, après substitution forme: forme pleine grandeur

On pourrait répéter ce processus jusqu’à j = 5 (la classe 4) et même J = 9 (la classe 8) pour établir l’influence des erreurs à travers toutes les équations antécédentes. On remarque que les prévisions pour la classe 2 (soit j = 3), par exemple, deviennent une fonction croissante des erreurs, pas seulement celles de sa propre série (ut,3) et de la classe antérieure (c’est-à-dire la classe 1 ou j = 2) qui figurent directement dans l’équation originale pour yt,3 (ou ∆yt,3), mais également des paramètres et des erreurs de la série autorégressive pour le kindergarten (soit j = 1). Tout se complique davantage quand on transcrit les valeurs comme yt-3,1 et yt-4,1 en fonction de leurs erreurs.

Par conséquent, les séries pour la classe 4 et pour la classe 8 puisent au début dans les effectifs antérieurs observés. À titre d’exemple, quand on fait le calcul pour la projection de y2009,9, les valeurs pour y2008,8, y2008,9 et y2007,8 sont connues et non prévues ou projetées, et les erreurs sont de plus ou moins la même taille. Après quatre années, les prévisions pour la classe 4 ont épuisé l’information, dans le sens d’effectifs antérieurs observés, si fait qu’on ne tire plus que des erreurs du système. Par contre, les prévisions pour la classe 8 profitent des observations des effectifs réels pendant plusieurs années additionnelles.

D’ailleurs, on peut redéfinir {yt,9} en fonction d’une plus grande quantité d’équations précédentes, ce qui signifie également une plus grande récolte d’erreurs (Enders, 2004 : 278-280). Pour cette raison, après la huitième année, quand toutes les informations ont été épuisées sauf pour les erreurs, l’effondrement est encore plus prononcé. On remarque pour les variances des erreurs de prévision une tendance à se stabiliser qui s’accorde avec les résultats des études de projections d’effectifs scolaires de Spar (1994; Demographics and Workforce, sans date), et peut-être aussi avec quelques résultats obtenus sur le plan théorétique (Enders, 2004 : 80). Toutefois, ces derniers supposent que les séries sont stationnaires, or cette supposition ne s’accorde pas avec les coefficients précisés de 1, de - 1 et de - ½, d’après les équations (17) et (18).

Enfin, on doit noter la grande différence existant entre les intervalles de confiance pour les spécifications ρ = 1 et ρ = 2. Il semblerait que les erreurs de prévision s’atténuent avec la projection fondée sur la moyenne des deux rapports de progression les plus récents, comparé à l’emploi du plus récent rapport uniquement. Cependant, nous devons rappeler qu’il n’existe aucune différence entre les deux modèles par rapport à l’estimation de la variance résiduelle. Par conséquent, les différences dans les erreurs de prévision ne résultent que des différences entre les matrices des équations (17) et (18). Peut-on prouver de cette façon la supériorité des systèmes par lesquels on estime les rapports de projection d’une moyenne plus inclusive ? On ne peut pas mettre en valeur un système de prévision seulement par rapport à des estimations des erreurs de prévision dans l’avenir. On doit plutôt souligner que les erreurs d’« estimation » dans le passé, telles qu’obtenues par le biais de l’identité (16), ont des distributions inédites qui peuvent différer entre les spécifications ρ = 1 et ρ = 2 , même si leur erreur moyenne est semblable. Il vaut mieux mettre en cause les distributions comparatives de ces erreurs comme, par exemple, l’étendue relative de l’auto-corrélation non modélisée.

Un prolongement stochastique

L’équation (14), qui rend compte dans le cadre des SVAR des modèles habituellement utilisés pour la projection des effectifs scolaires, se généralise au plan stochastique par le biais de

Elle est stochastique dans la mesure où les éléments non nuls sont désormais les paramètres qui peuvent être estimés au moyen des données; ils ne sont plus les constantes, les coefficients fixes[7]. Toutefois, le fait qu’il n’y ait pas tant de paramètres à estimer évite de nous heurter aux problèmes d’identification qui menacent les VARS désordonnés. L’équation (14) est généralisée dans le sens où on peut préciser plusieurs modèles de projection par cohorte qui dépassent les suppositions avancées dans le modèle de l’équation (9), laquelle ne fait que susciter les équations matricielles complètement contraintes comme dans l’équation (14).

Afin de comprendre les implications d’une telle spécification pour l’estimation des rapports de survie, il faut réécrire l’équation (9) en tant que moyenne géométrique pondérée

avec les poids forme: forme pleine grandeur. Il s’agit typiquement (e. g. Spar 1994; Rushton et al., 1995 : 174-175; Grip, 2004; Grip, 2009) d’une moyenne simple, ainsi

l’équation (21) se simplifiant en l’équation (9). On peut aussi se servir de ce système de pondération pour spécifier un lissage exponentiel simple,

Dans ce cas, le problème de la précision de la durée ρ se transpose dans celui de la précision du paramètre λ (Montgomery et al., 2008 : 193-206; Grip, 1994 : 9; Siegel, 2002 : 516).

Cependant, si on formule le rapport de progression de l’équation (21), jj-1ϕ, en fonction des équations (10), (12), (13), (15) et (20), on aboutit, pour une moyenne en fonction de ρ cohortes (et pour les classes j >, 1) à

Il nous faut constater maintenant que le φ s’est doté des termes supplémentaires en t et t - 1 : il s’avère que le rapport de progression pour la transition entre la classe j - 1 et la classe j va dépendre de l’époque. Tout d’abord, s’agissant du terme en (ϕ1j,j-1-1) yt,j-1, pour ϕ1j,j-1≠1, la croissance de l’effectif vers la classe j dans l’année t + 1 va dépendre de la taille de l’effectif au sein de la même cohorte dans la classe antérieure dans l’année précédente yt,j-1. Par exemple, pour ϕ1j,j-1<1, il y aura un rajustement montrant que, toutes choses étant égales par ailleurs, autant la taille de la cohorte augmente, autant le rapport de progression utilisé dans les projections va diminuer. En tout cas, ce cadre permet qu’une telle relation puisse être explorée.

Soit qu’il est le résultat des tests, soit qu’on le précise a priori, on peut exiger que ϕ1j,j-1=1au moyen de

au lieu de AG1 dans l’équation (20). Mais cela seul ne suffit pas pour que le φ de l’équation (24) puisse se débarrasser des termes supplémentaires en t et t - 1 : cette fois, il s’agit de l’époque des cohortes antérieures qui se prêtent au calcul du moyen rapport pendant les ρ cohortes antécédentes. Parce que, même avec ϕ1j,j-1=1, l’équation (24) peut se rédiger de la façon suivante :

ou, en ce que jj-1φt-ℓ+1 = exp (yt-ℓ+1,j - yt-ℓ,j-1), comme

où les {ϕj,j} jouent le rôle des poids { j-1jαt-ℓ-j+2 } qui se rattachent aux cohortes dans la version multiplicative (donc non logarithmique) de l’équation (21). Toutefois, l’équation (27) se différencie de l’équation (21) d’une autre manière avec le terme forme: forme pleine grandeur, qui peut, en effet, gonfler ou dégonfler le rapport de progression observé pour une cohorte précédente en fonction de yt-ℓ,j-1. Si on imagine que les rapports { jj-1φt-ℓ+1 } vont rester fixes, dans le sens où un changement en yt-ℓ,j-1 va conduire à un changement proportionnel en yt-ℓ,+1,j (parce que le terme yt-ℓ, + 1,j n’apparaît pas ailleurs dans l’équation [27]), on se retrouve encore une fois avec un modèle de projection par cohorte où les paramètres canoniques vont varier en fonction des tailles relatives des cohortes.

Peut-être est-ce un avantage. Nous l’ignorons à l’heure actuelle car ce n’est pas une perspective qui a figuré dans les modèles de ce type-ci. L’hypothèse se met en valeur dans la rejection des contraintes

sur l’équation (20), pour tous les j. Sinon, l’équation (27) se réduit à

qui ressemble à l’équation (21) sauf que, en l’absence d’une contrainte de normalisation supplémentaire, à la manière de

on risque que la valeur de jj-1φ ne soit plus une mesure de tendance centrale pour l’ensemble des rapports { jj-1φt-ℓ+1 }. Que signifierait un tel résultat ? Si, par exemple, pour tous les ℓ, φt-ℓ+1 >1, et qu’il s’avère que forme: forme pleine grandeur, il s’agirait alors d’un rétrécissement de l’estimation de jj-1φ vers l’unité. Mais il reste plusieurs combinaisons que l’on aurait du mal à comprendre sur le plan substantif. En conséquence, la contrainte (30) se recommande en général.

Même avec toutes ces contraintes — les équations (25), (28) et (30) appliquées à l’équation (20) — on ne peut revenir aux équations typiques de la pratique de la projection des effectifs scolaires par cohorte, à l’instar de ceux de l’équation (14). En effet, étant conditionné par le choix de ρ , on va obtenir les estimations de tous les poids forme: forme pleine grandeur de l’équation (21), sans avoir besoin de préciser leurs égalités, comme dans l’équation (22), ou s’ils s’atténuent avec le temps, comme dans l’équation (23). Si maintenant on précise la contrainte supplémentaire sur l’équation (20),

pour tous les j, on teste effectivement l’hypothèse qu’il ne faut se servir que de ρ - 1 rapports (au lieu de ρ ) pour capter toute l’information dans les séries.

Conclusion

Ces sujets, comme par exemple la durée d’un décalage pour un VAR (Enders, 2004 : 357-358), constituent le gagne-pain des économétriciens. Ce faisant, ceux-ci ont développé de nombreux modèles qui s’avèrent applicables à la prévision démographique par la méthode des composantes. Les rapports canoniques qui relient les comptes ou les taux au sein des cohortes au fil des âges peuvent être exprimés d’une façon matricielle, telle qu’exemplifiée dans ces pages, et isomorphique comme dans le cadre plus vaste de l’économétrie. Aussi, les chercheurs-démographes oeuvrant dans le domaine de la prévision gagneraient à faire usage de la théorie et des logiciels existants, car ils préserveraient en même temps la « mémoire » qui est le pilier de la projection démographique par cohorte. De cette manière, nous avons aussi établi une dynamique antérieurement absente dans la prévision effectuée par le biais de l’analyse micro-économétrique des séries chronologiques. Nous avons voulu par là attirer l’attention sur ces possibilités à travers l’exemple des projections des effectifs de population scolaire.

Nous suggérons pour terminer une ébauche de trois pistes prometteuses dans le domaine de la prévision démographique, et qui se dégagent de nos analyses. La première piste concerne la stabilité du processus. On a montré que même les modèles les plus simples dans le cadre de la prévision faisant appel aux rapports de progression se prêtaient à une interprétation en tant que modèle autorégressif pour les séries chronologiques. Preuve a été également faite que ces derniers modèles, en impliquant une structure des erreurs à travers la durée de la série, peuvent servir à estimer à l’avance les erreurs de prévision; et que l’on peut se servir ultimement de ces données pour rendre stochastiques plusieurs paramètres qui, jusqu’à présent, étaient fixes. Par contre, la tendance au sein de la recherche sur les projections courantes d’effectifs scolaires est de croire que tout change et que « l’histoire de longue durée » de ces effectifs n’a rien à voir avec ce qui s’est passé plus récemment, voire ce qui va se dévoiler dans les années à venir (e. g. Spar 1994; Rushton et al., 1995 : 174-175; Grip 1994, 2004; cf. Campbell, 1997 : 29). Cependant, entre ces deux positions une question demeure sous-jacente : remarque-t-on un processus fixe, immuable et invariable ? Et en quel sens, ou plutôt, de quelle manière ? L’analyse des séries chronologiques est associée aux principes de la stabilité et de la stationnarité, de l’invariance des paramètres et de la dispersion des erreurs. Il existe des tests de ces propositions (e. g. Enders, 2004 : 266-268) ainsi que des transformations assez simples afin que, dans quelques cas, on puisse maintenir ces propositions quand elles ne se tiennent pas par rapport aux séries au niveau de leurs mesures originales. Certes, dans le monde des effectifs scolaires tout change tout le temps; mais plutôt que de simplement l’assumer sans avoir à se remettre en question, il vaut mieux le démontrer d’une façon formelle.

La seconde piste a trait aux données exogènes. Le système des équations (1), (2), (15) (ou [19]), (20) et (6) est un système récursif. Ainsi, pour chaque classe, tout dépend de l’histoire de cette classe et de la classe antérieure. Nous avons évité jusqu’à maintenant la question fondamentale : d’où viennent les élèves de la première classe, qu’il s’agisse d’un kindergarten ou d’une « vraie » classe 1 ? Si l’on peut faire entrer des élèves venant d’ailleurs, on peut réduire l’erreur qui, autrement, se répandrait partout par le biais d’un modèle complètement endogène et autorégressif du type de celui qui a été proposé ci-dessus lors de l’exploration des intervalles de confiance des prévisions. Il est bien connu qu’il devrait y avoir un rapport entre les naissances qui se produisent cinq, six ou sept années auparavant et les élèves qui arrivent à l’époque t, mais de quelles naissances s’agit-il, et vers quelle classe ces élèves vont-ils aller ? Il y a beaucoup de migration parmi les jeunes enfants, suivant naturellement les mouvements de leurs mères et pères. Pour les petits secteurs scolaires, en particulier, il est possible que la variabilité du flux des naissances locales ne se conformera pas assez bien au flux d’élèves, qui est fonction également des autres tendances macro-démographiques (Siegel, 2002 : 56-57). On a déjà constaté que le point d’entrée peut être ambigu : les kindergartens, par exemple, ne sont pas toujours obligatoires. Quant à la durée du décalage, il y a les âges « normaux » prescrits par la loi, mais il y a aussi les parents qui retiennent leurs enfants pour une raison ou pour une autre (e. g. Grondin et al., 1984), ou, à l’inverse, qui exigent une entrée précoce à l’école (Deschamps et Larivée, 2001). Enfin, la date à laquelle un enfant doit avoir six ans est rarement le premier janvier.

Ainsi, il existe une poignée de facteurs qui profiteraient d’un système omnibus de pondération, entre une ou plusieurs séries de naissances et les deux premières classes, pour plusieurs âges. On peut imaginer, par exemple, deux séries de naissances, l’une pour l’agglomération locale (celle qui correspond au secteur scolaire), l’autre pour un niveau d’agrégation plus élevé. Les deux séries seraient corrélées l’une avec l’autre. Toutefois, la relation entre les deux ne nous intéresse pas, car dans l’optique de la prévision d’effectifs d’élèves, elles sont exogènes. On a déjà rencontré, par le biais de l’équation (7), les modèles VARX (Bierens, 2004) qui se prêtent naturellement à cette tâche. Il s’agit d’augmenter l’équation (1) de la façon suivante :

où α est l’âge minimum pour qu’un enfant puisse commencer l’école, 1 < h <q est le nombre q de vecteurs x décalés. Si les naissances ne font que s’associer aux effectifs de la première année de l’école primaire, on aura tout de même q = 3 comme minimum[8] ! La longueur M de ces vecteurs indique le nombre de séries de naissances; typiquement, on a M = 2 ou même M = 1 , mais en général :

Ces vecteurs se relient aux effectifs scolaires par l’intermédiaire de

La dernière piste s’inscrit dans une perspective bayesienne. Le cadre matriciel pour la prévision des séries temporelles s’affilie assez naturellement à une perspective bayesienne (Montgomery et al., 2008 : 354). Les modèles comme ceux de l’équation (14) sur lesquels nous avons mis l’accent peuvent être généralisés (voir l’équation [20]) afin de permettre une plus grande concordance avec les données et, peut-être, créer des prévisions supérieures. Les macro-économistes sont parvenus à améliorer les prévisions des modèles VAR sans contraintes en les mêlant aux modèles plus simples, par exemple celui de la marche aléatoire, qui précisent les matrices A beaucoup plus structurés (e. g. Del Negro et Schorfheide, 2003). En comparaison, on pourrait dire d’un point de vue bayesien que les méthodes démographiques habituelles, exprimées notamment au travers des équations (14) et (15), relèvent d’une croyance tellement forte relativement à leur antériorité (un « prior ») que nulle évidence ne va les ébranler. Pourtant, on peut imaginer quelques estimateurs qui, toujours dans l’esprit de Bayes, commenceraient avec les estimations d’un modèle comprenant plusieurs contraintes relaxées, comme dans l’équation (20), et qui rétréciraient l’information vers le niveau des paramètres impliqués par les modèles démographiques canoniques. Mais ce type de proposition nécessiterait davantage d’observations et de réflexions conséquentes dans le cadre de recherches ultérieures.

Nous arrivons au terme de cette étude sans avoir épuisé toutes les idées suscitées par les modèles « simples » pour la projection par cohorte d’effectifs scolaires, tandis qu’il reste bien d’autres problèmes liés à la prévision démographique. Dans ce dernier registre, les méthodes de Lee et Carter (1992) pour la prévision de taux de mortalité par cohorte suggèrent l’élaboration d’une structure qui pourrait être également abordée à partir des idées et des identités esquissées dans ces pages.

Parties annexes