Corps de l’article

« Georges peut te dire un tas de conneries, et ça n'a pas d'importance. Ce qui compte c'est parler. C'est être avec un autre. Voilà tout. »

Steinbeck (1937). Des souris et des hommes

QUELS SONT LES ENJEUX CONCERNANT LA SANTÉ PSYCHIQUE DES ÉTUDIANTS?

Pourquoi la santé psychique des étudiants représente-t-elle un enjeu social important? Nous allons présenter en introduction quelques points synthétiques de la littérature afin, ensuite de faire émerger une lecture des résultats d’enquêtes dans un contexte plus large tant scientifique que celui de l’action publique. Premièrement, en France en 2016, la population étudiante représente plus de 2,6 millions de personnes et dans la tranche d’âge 18-24 ans ce sont 51 % des femmes et 46 % des hommes qui suivent des études (Algava et al., 2017; INSEE, 2016). Or, la fin de cette tranche d’âge correspond à l’émergence de près des trois quarts des troubles mentaux qui sont diagnostiqués au cours de la vie (Kessler et al., 2005; Rajji, Ismail et Mulsant, 2009). On peut également estimer qu’un étudiant sur quatre en France a présenté au moins un trouble mental au cours de l’année écoulée (Auerbach et al., 2017; Verger, Guagliardo, Gilbert, Rouillon et Kovess-Masfety, 2010). Deuxièmement, la présence d’un trouble mental a souvent un retentissement important sur le travail, les relations sociales et avec les proches ainsi que sur l’adaptation à l’environnement universitaire. Il a été estimé qu'environ deux tiers des étudiants présentant des troubles mentaux ne reçoivent pas de prise en charge médicale et/ou psychothérapeutique (Verger et al., 2010). Malheureusement, un trouble mental non pris en charge conduit à une baisse significative des résultats universitaires ainsi qu’à l’abandon prématuré des études (Hysenbegasi, Hass et Rowland, 2005; Van Ameringen, Mancini et Farvolden, 2003). En conséquence, la présence d’un trouble mental avec un échec scolaire associé peut conduire à un infléchissement des trajectoires et à des difficultés d’intégration sociale sur le long terme telles que l’obtention ou le maintien d’un emploi (Patel, Flisher, Hetrick et McGorry, 2007; Reavley et Jorm, 2010). Troisièmement, au-delà de l'impact personnel, les troubles mentaux représentent un poids important (près de 20 %) dans l’ensemble des années de vie vécues avec une maladie (Patel et al., 2016). Les troubles mentaux représentent un coût économique non négligeable évalué à 19,3 milliards d’euros en 2015 en France pour les simples coûts directs (hospitalisations, remboursement de soins médicaux et consommation de médicaments) (CNAM, 2017). Les coûts indirects, plus difficiles à évaluer, tels que les conséquences économiques qu’engendrent les troubles mentaux sur les proches, l’entourage, le travail ou encore en termes de perte de chances socio-économiques, doivent également s’ajouter à ces 19,3 milliards (Shaughnessy, Parker, Hollenshead, Clottey et Rubin, 2017). Il a pourtant été montré que des programmes de prévention ou d’intervention précoce pourraient diminuer les coûts à long terme : par exemple, un euro investi dans un plan de prévention de la dépression au travail permettrait d’économiser cinq euros à long terme (Knapp, McDaid et Parsonage, 2011).

En revanche, si les enjeux semblent effectivement importants, nombre de spécialistes du champ de la santé mentale considèrent qu’ils ne sont pas perçus à leur juste mesure comme l’indiquait le titre d’un communiqué de presse de l’OMS en 2011 : « L’OMS souligne le manque d’investissements dans les soins de santé mentale au niveau mondial » (OMS, 2011). Aussi, allons-nous tenter de présenter quelques éléments épistémologiques qui contribuent à éclairer cette situation et plus particulièrement la complexité qu’engendre la question du psychique, de sa mesure et, enfin, de son utilisation dans le débat sociétal. Dans cet article d’opinion, nous commencerons par expliquer les causes possibles de l’hétérogénéité des résultats obtenus et des problèmes d’interprétation qu’ils peuvent entrainer. Puis nous nous intéresserons aux spécificités de la santé psychique, notamment les problèmes de définition et de mesures psychométriques qui contribuent également à ces difficultés. Enfin, nous ferons appel aux sciences sociales pour envisager le processus scientifique dans un ensemble plus large que la seule évolution des connaissances et notamment pour son intégration dans les débats de société.

DES DIFFICULTÉS POUR COMPARER ET INTERPRÉTER LES RÉSULTATS D’ENQUÊTES…

Illustrons ce point avec deux articles parus dans Le Monde en 2015 et 2016 relatant des résultats d’enquêtes sur la santé des étudiants et notamment le stress. En 2015, ce sont les résultats de l’enquête EMEVIA qui sont rapportés avec environ 40 % d’étudiants souffrant de stress (Burrati, 2015). L’année suivante, ce sont les premiers résultats de l’enquête de Conditions de vie 2016 (Belghith, Ferry, Patros et Tenret, 2017) qui sont présentés avec près de 59 % des étudiants qui souffrent de stress indiquant une progression de six points en trois ans (Nunès, 2016). La question que l’on pourrait se poser est de savoir si « le stress » a pu faire un bon de près de 20 % chez les étudiants en une année? Une première difficulté pour comparer ces résultats réside dans le fait que les périodes temporelles d’évaluation des troubles ne correspondent très probablement pas et qu’elles ne seraient donc pas directement comparables. En effet, mesurer la présence d’un symptôme au cours des 7 derniers jours (Conditions de vie, 2016) à une probabilité bien moindre d’être observé (et donc considéré comme présent) que s’il est mesuré sur une période temporelle beaucoup plus longue, par exemple lors de la dernière année ou bien au cours de toute votre vie[2]. Toutefois, ce ne semble pas être le cas ici, car les résultats de l’enquête Conditions de vie 2016 semblent indiquer des proportions supérieures. Une seconde difficulté repose sur la capacité du questionnaire à bien détecter ce qu’il est censé mesurer (ici le « stress »). En effet, la qualité d’un questionnaire repose sur sa capacité à ne pas sur-détecter (dire qu’une personne est atteinte d’un trouble alors qu’elle ne l’est pas : un « faux positif ») ou bien sous-détecter (dire à une personne qu’elle n’est pas atteinte d’un trouble alors qu’elle l’est : un « faux négatif »). Ainsi, dans l’enquête EMEVIA, il s’agit d’identifier non pas uniquement des étudiants qui ressentent du stress, mais des étudiants qui, en plus, éprouvent des difficultés à le gérer (présence donc de deux critères : le ressenti du stress et la difficulté à gérer ce ressenti). En revanche, dans l’enquête Conditions de vie 2016, seul le ressenti du stress (au cours des 7 derniers jours) est évalué. Cela signifie que si l’on souhaite comparer les résultats obtenus à partir de questionnaires différents, il nous faut pouvoir bénéficier d’une définition du stress et d’une période temporelle communément acceptée (un critère précis décliné sous forme d’une question standardisée) pour autant qu’il existe une définition et une acception partagée de ce terme. Sinon, nous devons alors considérer que, par rapport à l’enquête EMEVIA, l’enquête Conditions de vie 2016 surestime probablement la prévalence du « stress » de par le nombre plus faible de critères évalués (le ressenti de stress uniquement), mais qu’en même temps elle sous-estime probablement cette même prévalence avec une période temporelle évaluée potentiellement réduite par rapport à l’enquête EMEVIA.

...ET DES INCOMPRÉHENSIONS QUI EN DÉCOULENT

Une autre difficulté réside dans l’incompréhension du dialogue entre différents acteurs pourtant impliqués et de bonne volonté sur une problématique commune. Illustrons ce point de manière plus détaillée autour de la problématique de la souffrance psychique des étudiants en médecine. Nous souhaitons, en préambule de cet exemple, préciser que cette problématique constitue un enjeu important qu’il convient de prendre en compte. Certains des auteurs ont, par ailleurs, déjà publié sur ce sujet (Chaumette et Morvan, 2017; Frajerman, Morvan, Krebs, Gorwood et Chaumette, 2019).

Une étude réalisée par plusieurs syndicats de jeunes médecins s’est intéressée à l’anxiété et la dépression des étudiants et jeunes internes. Ce sont près de 22 000 répondants sur internet qui ont participé à cette enquête au 1er trimestre 2017. L’évaluation de l’anxiété et de la dépression se base sur l’auto-questionnaire HAD (Hospital Anxiety and Depression Scale, une échelle validée pour évaluer la souffrance psychique à l’hôpital[3]) (Zigmond et Snaith, 1983). Cette étude a retenu un score seuil de 8 pour les symptômes dépressifs et anxieux au cours des 7 derniers jours comme indicateur de la présence d’une anxiété ou d’une dépression. Leslie Grichy, vice-présidente de l'Intersyndicale nationale des internes (ISNI) ayant participé à cette enquête, a ainsi commenté les résultats dans la presse de la manière suivante : « [Ces résultats] sont pires que ce à quoi l’on s’attendait (…). 66,2 % des jeunes soignants déclarent souffrir d’anxiété et 27,7 % de dépression (…). Et 23,7 % ont eu des idées suicidaires, dont 5,8 % dans le mois précédent l’enquête. Depuis novembre 2016, cinq internes se sont donné la mort. 700 ont déjà fait une tentative de suicide. » (AFP, 2017). Un des points importants soulignés dans la présentation des résultats (ISNI, 2017), repris dans la presse (Janin, 2017), est l’écart de prévalence des troubles chez les étudiants par rapport à la population générale des troubles anxieux (66,2 % contre 26,1 % en population générale), dépressifs (27,7 % contre 10,1 % en population générale) et des idéations suicidaires (23,7 % contre 4 % en population générale).

Si l’on reprend, par exemple, les résultats de l’enquête de l’ISNI et les comparaisons effectuées avec la population générale, une première difficulté réside dans le fait que les périodes temporelles d’évaluation des troubles ne correspondent pas et qu’elles ne sont donc pas directement comparables. En effet, mesurer la présence d’un symptôme au cours de la semaine écoulée (HAD) à une probabilité bien moindre d’être observée (et donc considéré comme présent) que s’il est mesuré sur une période temporelle beaucoup plus longue, par exemple lors des 12 derniers mois ou bien au cours de toute votre vie comme par exemple avec le Composite International Diagnostic Interview (CIDI) (Kessler, Andrews, Mroczeek, Ustun et Wittchen, 1998; Kessler et Ustun, 2004). Pour autant, les données du Baromètre Santé des Français 2010 sur la tranche d’âge des 20-34 ans (cité comme comparaison par l’ISNI) rapportaient 10,1 % de troubles dépressifs observés (à l’aide du CIDI dans sa forme courte ou CIDI-SF) en population générale au cours des 12 derniers mois (Beck et Guignard, 2012). Plus récemment, les premiers résultats de l’édition 2017 du Baromètre Santé ont été publiés et ont mis en évidence une augmentation de la prévalence mesurée de dépression (toujours à l’aide du CIDI-SF) en population générale par rapport aux éditions précédentes (2005 et 2010). Ainsi, la prévalence était de 11,7 % pour la tranche d’âge des 18-24 ans, de 11,2 % pour les 25-34 ans et de 13,3 % chez les personnes qui se déclaraient en situation d’étude (Léon et al., 2018). Les résultats de l’enquête ESEMED pour la France indiquent des taux de troubles anxieux de 9,8 % au cours des 12 derniers mois et de 22,4 % au cours de la vie (DREES, 2011). À partir de ces données, on retrouve donc environ trois fois plus de troubles présents sur une période temporelle plus courte chez les étudiants et jeunes médecins par rapport à la population générale, ce qui semble confirmer la position « d’alerte » de l’ISNI.

Pourtant, ces différences de taux observés dans les enquêtes peuvent aussi s’expliquer autrement que par une plus grande vulnérabilité des étudiants et des jeunes médecins à la dépression et à l’anxiété. Cette explication alternative repose notamment sur des aspects méthodologiques et psychométriques et plus particulièrement sur la qualité du questionnaire à bien détecter ce qu’il est censé mesurer (ici des troubles anxieux et dépressifs). En effet, comme nous l’avons déjà mentionné, la qualité d’un questionnaire repose sur sa capacité à bien détecter des « cas » sans se tromper. Dans le cas particulier ici évoqué, il convient de mentionner qu’une étude canadienne sur une population francophone a justement pu mettre en évidence la relation entre la mesure obtenue par la HAD (au cours de la dernière semaine en auto-administré) et un questionnaire passé ultérieurement, soit le CIDI dans sa forme courte (CIDI-SF au cours des 12 derniers mois et administré par un évaluateur) qui mesure la présence des critères diagnostiques caractérisant le trouble selon la classification internationale du DSM-IV (Roberge et al., 2013). C’est ce même outil qui a été utilisé pour obtenir les prévalences citées ci-dessus de 10,1 % de troubles dépressifs et la version longue de ce même outil pour les prévalences de troubles anxieux de 9,8 % au cours des 12 derniers mois et de 22,4 % au cours de la vie. Les données de l’étude canadienne montrent qu’avec des scores seuils de 8 utilisés pour obtenir des prévalences de trouble avec la HAD, les probabilités de repérer à juste titre (sans « faux positifs ») un trouble au CIDI-SF sur les 12 derniers mois ne sont que de 30 % et 41 % pour les troubles anxieux et dépressifs respectivement. Cela signifie que si l’on souhaite comparer les résultats obtenus par l’étude de l’ISNI chez les jeunes médecins au cours des 7 derniers jours et ceux provenant des études ayant utilisé une version du CIDI au cours des 12 derniers mois en population générale, il faut alors considérer que l’étude de l’ISNI surestime probablement la prévalence des troubles anxieux et dépressifs par un facteur d’environ 3 par rapport aux études en population générale auxquelles ils comparent leurs résultats. De plus, le choix de la valeur seuil peut varier selon les études pour observer qu’un cas doit être considéré comme appartenant davantage au registre « pathologique » que « normal ». Ainsi, dans la méta-analyse de Rotenstein et al. (2016) sur la dépression chez les étudiants en médecine, on observe que le seuil retenu varie entre 7 et 12 pour les 18 études inclues qui utilisaient la HAD comme critère « diagnostic ».

Si l’on prend en compte cette information dans notre raisonnement, on peut donc inférer (potentiellement à tort) qu’il n’y aurait pas de sur-risque global des étudiants en médecine et jeunes médecins de souffrir de troubles anxieux ou dépressif par rapport à la population générale. Cette représentation de la situation était possiblement partagée par le président de la Conférence des doyens des facultés de médecine de France, le Pr Jean Sibilia. Ainsi, dans l'interview publiée par What’s up Doc, site d'information destiné aux médecins, le journaliste l'interroge : « En France, des internes se suicident, qu’allez-vous faire pour améliorer leur qualité de vie au travail? » Le Pr Jean Sibilia répond : « Les suicides réels sont très très rares. Les étudiants ont des idées noires et des difficultés, mais je ne suis pas certain du tout que ce soit spécifique aux étudiants en médecine. Je crois que c’est l’expression de notre société, l’expression d’un mal-être plus global. Alors il ne faut jamais être dans le déni, mais il faut être juste, ne pas être dans l’instrumentalisation. Il y a intrinsèquement dans le métier de médecin quelque chose qui est stressant, mais ça n’a rien à voir avec l’organisation structurelle du système » (Moysan, 2018). Suite à cette interview, l'ISNI affirmera dans le Quotidien du médecin que le président de la conférence des doyens est dans le « déni de la réalité » et présente une « dialectique délétère, scientifiquement fausse ». Ce dernier argument s’appuyant pour l’ISNI sur différents indicateurs d’« enquête de santé mentale, mais également plusieurs études concordantes, montrent que les internes présentent deux à cinq fois plus d’idées suicidaires que la population générale. Elle montre également un taux d’anxiété 4 fois supérieur et un taux de dépression 2 fois supérieur à la population générale » (Dupuis, 2018). Enfin, l'ISNI avait également, dans ce même contexte, adressé à la ministre de la Santé, Agnès Buzyn, une lettre ouverte invoquant un « échec collectif » (ISNI, 2018).

Pour autant, l’ensemble des acteurs semblent bien partager « de bonne foi » une même préoccupation, celle de veiller à la santé des étudiants et des jeunes médecins. Si la « dialectique » de l’ISNI ne laisse pas de doutes quant à son intérêt confraternel, il faut également rappeler la seconde partie des propos du Pr Jean Sibilia dans l’interview qui vont aussi dans le sens d’une préoccupation de la souffrance des jeunes médecins ainsi qu’à une meilleure formation aux difficultés qu’ils vont rencontrer « Nous on est là 24/24, 7/7. On est là pour la continuité des soins et il faut que ça marche, pour les gens. Et ça a un coût : un coût humain, qu’il faut réguler le mieux possible, pour avoir le moins de souffrance possible. On a un boulot compliqué, en étant confronté régulièrement au malheur des gens. Et ça, il faut qu’on l’apprenne à nos étudiants, pour ne pas qu’ils le découvrent en fin d’études. Ce sont des valeurs à transmettre, mais ce n’est pas facile » (Moysan, 2018).

Récemment, Mesdames Frédérique Vidal, ministre de l'Enseignement supérieur, de la Recherche et de l'Innovation et Agnès Buzyn, ministre des Solidarités et de la Santé, ont lancé une structure de coordination nationale pour favoriser une meilleure qualité de vie des étudiants en santé (MESRI, 2019). À cette occasion, un article du quotidien du médecin sur ce dispositif reprenait en conclusion les chiffres de l’enquête de l’ISNI « Les dernières enquêtes (déclaratives) réalisées sur la santé et le bien-être des jeunes professionnels de santé montrent que 27 % des carabins ont des symptômes dépressifs, trois fois plus que la population générale. 24 % ont des idées suicidaires, presque six fois plus que la population générale » (Martos, 2019). Ces éléments illustrent, s’il fallait le rappeler, à quel point des données chiffrées issues d’enquêtes s’inscrivent dans un contexte beaucoup plus large que celui de la simple mesure et contribuent à constituer des éléments du débat collectif et sociétal en dehors même des aspects relevant de domaines scientifiques et de « mesure » comme la psychométrie et l’épidémiologie.

QUELS « NON-DITS » ET LIMITES POUR LE PSYCHIQUE?

Des problèmes de définitions?

Il est possible qu’une des difficultés « fondatrices » repose sur la définition même des objets étudiés. Si les termes de « santé mentale, mal-être, dépression, troubles mentaux » ne semblent pas poser de problème de définition, il semble cependant que la plupart de ceux qui utilisent ces termes « s’autorisent l’illusion confortable que tout le monde comprend de quoi l’on parle » (Kendell et Jablensky, 2003). Il faut pourtant rappeler que pour la question du psychique considéré comme un état de santé, il n’existe pas de signes directement observables ou du moins suffisamment spécifiques qui permettraient d’établir une base consensuelle pour le diagnostic. De manière générale, les classifications diagnostiques des troubles ont donc été établies sur la base de groupements de symptômes observables, lesquels peuvent varier selon la manière dont ils sont recueillis et interprétés (McPherson et Armstrong, 2006). Connaitre la manière précise dont sont recueillies les informations relatives à la santé mentale dans les enquêtes constitue donc un enjeu majeur. En effet, cela permet de mieux comprendre comment les différents signes et symptômes interrogés dans une enquête sont censés représenter l’étiquette diagnostique apparemment « uniforme », par exemple, d’un trouble comme la dépression. Par ailleurs, il convient également de rappeler que depuis le milieu du XXème siècle, la santé ne s’entend plus comme l’absence de maladie et qu’une définition de la santé et de la santé mentale ont été proposée. Le Pr. Bruno Falissard rappelant respectivement ces deux définitions : « La santé est un état de complet bien-être physique, mental et social, et ne consiste pas seulement en une absence de maladie ou d'infirmité » et « La santé mentale est un état de bien-être dans lequel une personne peut se réaliser, surmonter les tensions normales de la vie, accomplir un travail productif et contribuer à la vie de sa communauté ». Il caractérise ainsi justement « leur caractère peu opérationnel et le postulat hédoniste sur lequel elles reposent » se traduisant par une difficulté de mesure : « La notion de santé mentale définie ainsi se rapproche donc davantage d’une tentative humaniste d’accompagner la société que d’un concept opérationnel concret et mesurable » (Falissard, 2014b). Mais en quoi cela pourrait-il constituer un problème dans les enquêtes qui interrogent la santé mentale?

Des problèmes de mesure?

De plus, la construction des représentations sur l’état de la santé mentale des populations repose sur des études qui se basent sur :

  • des informations déclaratives dont on ne peut pleinement vérifier la réalité de manière empirique ;

  • des questions dont la comparabilité et la validité peuvent être questionnées dans la mesure où elles peuvent faire l’objet : a) d’une grande variabilité de modèles (quels types de signes et de symptômes sont questionnés, sur quelles périodes temporelles et selon quelles règles ou algorithmes de combinaisons) et/ou b) d’erreurs de classements (attribuer un trouble sur la base d’une série de réponses alors qu’en réalité la personne ne présente pas de trouble : un faux positif ; ou l’inverse, ne pas attribuer de trouble sur la base des réponses alors que la personne présente bien un trouble : un faux négatif).

Ainsi, les études sont souvent conduites selon des méthodologies différentes : grande diversité des échelles utilisées, consignes variables, méthodes de recueil multiples, absence de concordance des périodes temporelles d’évaluation des troubles (au cours de la semaine écoulée ou sur plusieurs mois) et seuils de détection des troubles (ou « cut-off ») retenus différents. Cette hétérogénéité des mesures est un problème bien connu et même une exposition explicite des méthodes, des outils, des périodes temporelles évalués et les critères de détection requiert de la prudence quant aux comparaisons effectuées entre les différentes études.

Les travaux d’Eiko Fried sur la dépression ont permis de mettre en évidence un certain nombre de non-dits méthodologiques qui illustrent concrètement cet aspect. Dans un article publié en 2015, il en recensait les différents aspects que nous allons brièvement résumer ici. Le premier point qu’il soulève concerne l’hypothèse sous-jacente que la dépression existerait en tant qu’entité distincte non directement observable (autrement appelée variable latente), mais dont on pourrait observer certains indicateurs (Fried, 2015). Ces indicateurs peuvent être de différentes natures : de l’ordre de la sémiologie (symptômes), de la biologie (marqueurs génétiques, chimiques, d’imagerie) où de l’environnement (exposition à des évènements et/ou situations spécifiques) et reflèterait la présence de la dépression en tant que maladie. Ces différents indicateurs sont parfois entendus au sens de conséquences observables de la présence de la dépression « latente », mais aussi en tant que cause ou encore de facteur de risques (Leoutsakos, Zandi, Bandeen-Roche et Lyketsos, 2010). Dans le cas où ce sont des conséquences observables de la dépression que l’on cherche à identifier, on parle d’hypothèse ou de modèle de « la cause commune ». La modélisation mathématique utilisée en psychométrie pour traduire cette hypothèse est connue sous le nom de variable latente et s’inscrit dans le paradigme des équations structurelles ou SEM pour Structural Equation Modeling en anglais. Il découle de ce modèle une traduction psychométrique, celle du « facteur commun » qui conduit à parfois à plusieurs « implicites » théoriques et méthodologiques. Un des premiers éléments rappelés par Eiko Fried réside dans l’hypothèse « d’indépendance locale » qui signifie que si plusieurs indicateurs « co-occurents » « covarient » fréquemment (i.e. différents symptômes apparaissent simultanément et/ou ont une même variation de l’intensité), ces indicateurs seraient uniquement expliqués par la présence d’une variable latente et constitueraient ainsi des marqueurs « observables » indirects de cette dernière. Or, cette hypothèse ou modélisation omet une autre possibilité ou modèle alternatif, celui de la dépression qui apparaitrait comme une propriété « émergente » issue de l’interaction complexe de différents éléments (et non plus des indicateurs indirects) sémiologiques et/ou biologiques. Ainsi, Fried rappelle que des symptômes comme l’insomnie peuvent aussi être considérés comme une cause de la fatigue, des difficultés cognitives (concentration et prise de décision) et d’une humeur plus basse ou négative. On retrouve ici une idée proche de certaines modélisations en thérapies comportementales et cognitives où les symptômes s’influencent et se maintiennent mutuellement en formant également « des cercles vicieux » (Fried, 2015; Fried et al., 2017). Un autre problème se cache également derrière l’hypothèse du « facteur commun » et réside dans la prise en compte de l’hétérogénéité très importante des profils symptomatiques présentés par les patients. Dans leur réanalyse des données de l’enquête STAR-D, Fried et Nesse (2015a) ont identifié 1030 profils symptomatiques uniques parmi les 3703 sujets souffrant de dépressions et 864 profils étaient composées de 5 sujets ou moins. Cette très grande variabilité des profils symptomatologiques des patients n’est pas sans conséquence du point de vue de la mesure psychométrique. Un premier problème réside dans le fait que l’on utilise un très grand nombre d’échelles différentes pour mesurer ces différents symptômes et il se peut que nous fassions, consciemment ou non, l’hypothèse auxiliaire sous-jacente que toutes ces échelles mesurent un même « facteur commun » latent et qu’elles pourraient donc être interchangeables. Parmi 280 instruments de mesure des symptômes dépressifs recensés, Fried a analysé sept instruments très largement utilisés en recherche et a pu montrer qu’ils mesuraient 52 symptômes différents dont 40 % d’entre eux apparaissaient dans une seule échelle, la CES-D (Fried, 2017). En plus de considérer que ces échelles sont interchangeables, on considère que chaque item qui la compose a la même « valeur » ou « poids ». La conséquence est que lorsque l’on calcule un score total par une somme ou « comptage » de symptômes, on considère également que les symptômes sont équivalents entre eux et donc interchangeables du point de vue du calcul. Dans le cas de la dépression, par exemple, cela signifie que l’humeur dépressive ou les idéations suicidaires « valent » autant que la perte d’appétit ou les troubles du sommeil d’un point de vue sémiologique et nosographique (Fried et Nesse, 2015b). Bien évidemment, tous les signes cliniques ont de la valeur pour le clinicien. En revanche, d’un point de vue psychométrique, cette équivalence des signes en termes de « poids » constitue une approximation. En effet, lorsque l’on s’intéresse à la validation « d’outils de mesure » par l’analyse factorielle, on réalise rapidement cette approximation. Ainsi, lorsque l’on « regarde » et compare les poids factoriels de différents items d’un facteur de n’importe quelle étude de validation, on réalise rapidement que tous n’ont pas un poids identique (i.e. valeur 1), mais varient par exemple entre 0,1 et 0,9. Cette interrogation vaut également lorsque l’on « observe » les « cross-loadings », c’est-à-dire le poids factoriel d’un item non plus sur un seul facteur, mais sur différents facteurs. Ainsi, il est possible d’induire des différences lorsque l’on analyse des données sur la base de « scores latents » (prenant en compte le « poids des items ») plutôt que des « scores totaux » (prenant en compte un « poids des items » identique et égal à 1) (Curran, Cole, Bauer, Hussong et Gottfredson, 2016; Nielsen, Vach, Kent, Hestbaek et Kongsted, 2016). De plus, lorsque des études de validation d’échelles mettent « en évidence » la présence de différents facteurs et de différents poids factoriels des items, dans quelle mesure est-il « acceptable » de calculer un score total (Reise, Moore et Haviland, 2010)? Et pouvons-nous être certains que ces « construits » sont stables ou « invariants » entre groupes (hommes et femmes par exemple) ou dans le temps (Liu et al., 2017; Orri et al., 2018)? Ce qui permettrait, dans ce cas, de bien s’assurer des effets d’une prise en charge ou d’un traitement et non d’un biais possible lié aux « variabilités » psychométriques de l’outil de mesure choisi (Epskamp et al., 2016). Pour tenter de résumer de manière intelligible cette question de la mesure en elle-même, nous reprendrons une métaphore que certains auteurs ont présentés (Morvan, Mignon et Chaumette, 2019) « C’est comme si je vous disais, tout ceci est du pain, en vous montrant de la farine, de l’eau, du beurre, de la levure, et ainsi de suite, en feignant d’ignorer qu’il y a des tas de sortes de pains différents, et que de nombreux acteurs environnementaux et une multitude de facteurs génétiques sont à l’oeuvre pour élaborer une baguette ou un pain de mie donné » (Les rendez-vous 2019 de la santé étudiante, 2019).

Il nous faudra également pointer la difficulté qui émerge, à savoir la prise de décisions importantes sur la base d’une très grande variabilité issue des mesures et des réponses individuelles à ces mesures. A ce titre, un article a récemment mis en lumière l’impact de l’hétérogénéité de patients « labélisés » comme souffrant de dépression sur les effets (modélisés) de différents traitements pharmacologiques dans des essais cliniques (simulés) et utilisant une échelle spécifique de mesure des symptômes (HDRS). Dans cette étude de simulation, les auteurs ont mis en évidence que des essais qui incluraient moins de 650 participants auraient des difficultés de puissance, c’est-à-dire ici moins de 80 % de chance de détecter un effet du traitement au cours du temps sur des patients labellisés comme souffrant d’une dépression tout en prenant en compte leur hétérogénéité. Cela illustre les difficultés inhérentes à la mesure par des échelles de la dépression sur des patients qui ne sont pas nécessairement « prototypiques » du point de vue des manifestations cliniques de leurs troubles et des effets possibles du traitement sur les symptômes (Chevance, Naudet, Gaillard, Ravaud et Porcher, 2019). Cette question de l’hétérogénéité ou non des profils cliniques interrogera également sur les rapports entre les effets d’un traitement identifié comme efficace dans des essais cliniques impliquant des analyses fondées sur des sujets « moyens ». Un article récent (Hieronymus, Lisinski, Nilsson et Eriksson, 2019) montre qu’en fonction des symptômes évalués et retenus comme critère de jugement, on peut trouver des résultats opposés quant à l’efficacité des antidépresseurs avec l’échelle de Hamilton (HDRS-17). En effet, dans la mesure où seuls les patients atteints de troubles sévères répondent à 11 des 17 symptômes à l’inclusion, si l’analyse se fonde sur l’évolution des scores moyens aux 17 items, seuls ces patients (et non les cas moins sévères) montrent une amélioration. En revanche, si l’on s’intéresse aux 6 des 17 symptômes pour lesquels les patients sévères et non sévères répondent à l’inclusion, la conclusion est différente : tous les patients montrent une amélioration. Enfin, une étude s’intéressant à la dynamique complexe des symptômes (parfois appelée « symptomique ») de la dépression chez les adolescents semble mettre en avant une dynamique différente des symptômes entre bons et moins bons répondeurs aux traitements, malgré les limites d’une approche transversale (Schweren, van Borkulo, Fried et Goodyer, 2018). Cependant, cet aspect de marqueur prédictif de la symptomique pour le cours évolutif des troubles dépressifs (rémission vs non rémission) avait été précédemment mis en évidence d’un point de vue longitudinal chez des sujets adultes (van Borkulo et al., 2015). Cette approche par sujets « moyens » et analyse de « moyennes » est parfois appelée approche nomothétique et se différencie donc des analyses qui tentent de prendre en compte la variabilité tant des individus et des effets, que ce soit dans les essais cliniques ou « dans la vraie vie » (patients pris en charge par les soins) et est parfois appelée approche idiographique (Falissard, 2017).

Que faire des résultats quantitatifs sur le psychique?

Cette position narrative est d’autant plus pertinente si l’on considère la définition de Fernando Gil, rappelée par Bruno Falissard, de ce qu’est une preuve : « Une proposition est dite prouvée si, ayant été établie par une méthode reconnue, elle fait l’objet d’une croyance » (Falissard, 2005). Mais cette définition pourrait-elle constituer une invalidation du processus scientifique? Pas nécessairement, si la pertinence des modèles proposés pour « tenter d’appréhender le réel » est contextualisée par la prise en compte rigoureuse des limites et de la rigueur méthodologique du modèle. Cela permet d’appréhender une réalité le moins imparfaitement possible et d’en évaluer son degré de plausibilité (Grice et al., 2017; Munafò et al., 2017); ou plutôt son degré de réfutabilité comme le rappelle également Bruno Falissard : « on retiendra ici l’approche poppérienne, pour laquelle la méthode scientifique repose sur la formulation d’hypothèses réfutables par des expériences reproductibles » (Falissard, 2005). Cette notion est importante car elle positionne en regard la question des méthodes et la question des preuves ou des faits « evidence based ». Là encore, Bruno Falissard nous interroge sur le fait que certaines lois, comme le mouvement ou la gravitation, nous sont enseignées comme des « vérités générales et universelles », alors qu’elles ne s’appliquent pas dans certaines situations. Une formulation plus juste serait, selon lui, de considérer que dans la mesure où ces lois s’appliquent très bien dans la vie de tous les jours, elles sont « vraies avec une excellente approximation ». Mais cela interroge donc ce qu’est une loi approximative. Selon Bruno Falissard, cette question met en exergue la place de l’outil statistique dans l’administration de la preuve ou de la réfutabilité des hypothèses et rappelle la position plus déterministe de Claude Bernard sur ce point : « la loi scientifique, suivant moi, ne peut être fondée que sur une certitude et sur un déterminisme absolu et non sur une probabilité » (Falissard, 2014a).

Cette particularité s’applique également aux données que nous avons présentées en introduction pour situer les enjeux sociétaux concernant la santé mentale. De la même manière, la prudence reste requise, car les « faits » en question peuvent tout autant faire l’objet des limites que nous avons évoquées sur les troubles mentaux, que ce soit au regard des données de prévalences, de la transition vers la pathologie et des âges de débuts, des conséquences sur le parcours de vie, du non-recours aux soins et des aspects économiques. Nécessairement, ce n’est pas parce que l’on peut douter de la présence de troubles psychiques avérés lorsque l’on parle de « stress » ou encore de « burn-out » qu’il n’y a pas pour autant des signes cliniques et qu’il serait impossible de penser en termes de probabilité. En effet, ces signes ou symptômes peuvent justement s’inscrire dans un continuum entre l’absence de difficulté et la présence de troubles (entre le normal et le pathologique). Ainsi, il est possible de lire autrement les résultats des enquêtes, notamment lorsqu’elles mesurent une réactivité émotionnelle symptomatique de nature anxieuse ou dépressive chez les personnes interrogées. Ainsi, au-delà de la question du seuil de détection d’un trouble, il est important de considérer que la répétition en intensité et en fréquence d’émotions que l’on peut qualifier de négatives peut effectivement être facteur de transition, de maintien ou de rechute vers une pathologie (Nelson, McGorry, Wichers, Wigman et Hartmann, 2017). Les résultats des enquêtes sur la santé des étudiants sont donc bien à resituer dans une logique d’intervention préventive et précoce visant à réduire le risque de survenue de troubles, ce d’autant plus lorsque le recours aux soins pour ces troubles reste faible (McGorry et Nelson, 2016). Là encore, il conviendra d’être prudent quant aux résultats de cette « façon de penser » en trajectoires développementales et en probabilités (Falissard, 2014a). Cependant, la capacité de modélisations complexes des facteurs influençant des trajectoires multiples constitue un objectif tant du point de vue de la recherche que de la clinique. La visée sera de tendre vers une meilleure identification statistique des différents états possibles, mais également des différents mécanismes à l’oeuvre (Arango et al., 2018; Fried et Cramer, 2017; Patel et al., 2018).

FAIRE CONFIANCE, MAIS À QUI ET À QUOI?

S’il nous faut être prudents avec les différents modèles explicatifs proposés et relativiser les résultats des différentes études (même s’ils peuvent être très largement repris par la presse sans nécessairement donner des éléments suffisants de compréhension), il ne faut pas pour autant pleinement les rejeter. Les données scientifiques obtenues à partir des enquêtes sont à considérer avec leurs limites et le caractère imparfait inhérent à tout processus de mesure en général. Mais est-ce que les données obtenues serviraient à raconter des histoires? Les articles scientifiques sont constitués, eux aussi, d’une structure narrative qui tente de proposer un modèle du « réel » en s’appuyant sur des données (Nuzzo, 2015). Il est donc également possible de considérer que les enquêtes peuvent, en surface, chercher à démontrer des faits de manière scientifique, mais qu’en réalité elles construisent des « mythes » ou des « éléments de narration » potentiellement utiles pour gagner l’opinion publique à une « cause spécifique » ou encore pour influencer les décideurs politiques dans un sens précis (Jorm, 2006). La réponse à cette dernière question pourrait donc s’avérer positive (en incluant le présent travail). L’espérance portée dans l’approche quantitativiste pour éclairer les débats publics et politiques n’est pourtant pas nouveau. Grob dans un article sur l’histoire des classifications de 1991, rappelait la croyance, au début du XXème siècle, en la connaissance des statistiques pour non seulement définir les politiques sociales, mais aussi pour mettre fin aux querelles « pernicieuses » entre théories, principes et politiques (Grob, 1991). Est-ce le cas où bien devons-nous nous rendre à l’évidence d’une sorte de paradoxe de la science en général et des statistiques en particulier? Alors que les connaissances scientifiques progressent et que les données devraient justement conduire à éclairer les débats, il nous faut aussi constater à regret que parfois elles conduisent à les rendre moins lisibles par leur complexité sous-jacente et les simplifications malheureuses ou habiles de ceux qui les véhiculent (Oreskes, 2004). Bien évidemment, il serait trop simple de tenir grief de ce constat envers la science en général et les approches quantitatives en particulier dans la mesure où une partie de la complexité relève de la difficulté à bien prendre la juste mesure des résultats produits tout en les resituant dans leurs limites.

Comment donc pourrions-nous faire confiance aux données de la littérature scientifique? Et pourquoi ne pas pleinement les remettre en cause, en les considérants non pas comme des faits, mais plutôt comme des fictions ou des croyances? À ce titre, les sciences sociales nous apportent un éclairage intéressant, partant du principe que la science n’établit pas nécessairement des faits, mais s’autorise à considérer un objet comme un fait lorsque celui-ci fait l’objet d’un consensus très large dans la littérature scientifique (Oreskes, 2004). Cela renvoie donc à la manière dont un consensus s’opère au sein de la communauté scientifique concernant certaines questions de sociétés (Shwed et Bearman, 2010). Un des points fondamentaux de ce consensus réside dans la capacité à argumenter et mettre en doute tant les modèles que les méthodologies proposées par les scientifiques (selon l’approche poppérienne déjà rappelée), conduisant ainsi à une forme de progrès par les améliorations ou les précisions itératives des connaissances ou des inconnues (Oreskes, 2003). Les données que nous avons présentées concernant la santé mentale sont-elles suffisamment « le moins imparfaites possible » pour faire l’objet d’un consensus? S’il est difficile de répondre par l’absolu, il est, en revanche, possible de considérer qu’ils représentent des « éléments dominant » du débat et possiblement « les moins imparfaits » (méthodologiquement parlant) de la littérature scientifique actuelle sur les troubles mentaux (Arango et al., 2018; Baingana, Al'Absi, Becker et Pringle, 2015; Collins et al., 2011; Patel et al., 2018). Comment présenter ce dialogue entre ces données « chiffrées » produit par la science et le rapport qu’elles entretiennent avec les personnes qui les produisent et ceux qui en construisent un récit, base de leur action en direction d’une communauté humaine plus large, vers la société? À notre sens, une très belle illustration se trouve dans les mots d’Oliver Sacks (Sacks, 2019), brillamment traduits et restitués par Jean-Claude Ameisen dans son émission radiophonique « Sur les épaules de Darwin » (Ameisen, 2019) dont nous souhaitions, en guise de conclusion, également reporter cette courte citation: « La science se considère parfois comme impersonnelle, comme étant pure pensée, indépendante de ses origines historiques et humaines. Et elle est souvent enseignée comme si tel était le cas. Mais la science est une aventure humaine de bout en bout, un processus de croissance organique, évolutive, humaine, avec des accélérations soudaines et des pauses et d'étranges détours aussi. »