Corps de l’article

Le projet de ce numéro thématique de la Revue de l’Université de Moncton a germé à l’occasion du 50e anniversaire de l’Université de Moncton, et sa parution coïncide avec le 15e anniversaire de la fondation du Laboratoire d’analyse de données textuelles de l’Université de Moncton (LADT). L’objectif de ce numéro est de proposer une rétrospective des recherches dans le domaine de l’analyse de données textuelles menées dans le cadre du Laboratoire de façon à mettre en valeur la variété et la richesse de ces travaux. Depuis sa création en septembre 1999, ce laboratoire de pointe est dirigé par Sylvia Kasparian avec l’aide, au fil des ans, des professeurs James de Finney et Gisèle Chevalier, ainsi que de plusieurs assistants et techniciens de recherche, dont Louise Caissie, Chantal Richard, Philippe Desjardins et Raymond Blanchard. Le LADT est niché à la Faculté des arts et des sciences sociales (FASS) de l’Université de Moncton, au Département d’études françaises depuis ses débuts.

Historique du LADT

Mis sur pied par deux professeurs du Département d’études françaises, Sylvia Kasparian (linguiste) et James De Finney (littéraire), le Laboratoire est le fruit de plusieurs collaborations avec des statisticiens, informaticiens, linguistes et littéraires d’Europe. Ceux-ci appartiennent au mouvement de la statistique textuelle amorcé par Charles Muller[1] et transformé par l’apport de l’Analyse Factorielle de Correspondance (analyse statistique avancée) développée par le célèbre mathématicien-statisticien Benzécri et ses élèves[2], Lebart, Salem et Reinert. C’est autour de ces chercheurs, qui ont développé le domaine de la textométrie ou logométrie, que s’est construit le Réseau européen d’analyse statistique de données textuelles, dans lequel s’inscrit le LADT. Interdisciplinaire, ce réseau fait appel à la collaboration de mathématiciens, statisticiens, linguistes, psychologues, sociologues, littéraires, économistes, médecins, artistes et autres chercheurs. C’est également ce réseau qui organise tous les deux ans les Journées d’analyse de données textuelles (JADT)[3], un lieu d’échanges entre théoriciens et utilisateurs des outils d’ADT. Des logiciels adaptés à chaque domaine sont développés par le réseau, et le Laboratoire d’analyse de données textuelles collabore avec leurs concepteurs dans le cadre de divers projets. Plusieurs chercheurs européens affiliés au réseau ont donné des conférences et des stages de formation dans le cadre des activités du Laboratoire, entre autres, Étienne Brunet, Damon Mayaffre (Université de Nice), Claude Condé et Max Silberztein (Université de Franche-Comté), Jean Moscarola (Université de Savoie), William Martinez (CNRS, Paris), Pascal Marchand (Université de Toulouse) et Adolfo Morrone (ISTAT, Rome).

Qu’est-ce que le LADT ?

Le Laboratoire de recherche en analyse de données textuelles se veut un espace interdisciplinaire, dynamique et ouvert où se côtoient des disciplines aussi diverses que la sociologie, les sciences politiques, l’histoire, la linguistique, la littérature, l’éducation, la musique, l’informatique et la statistique.

L’intérêt commun des collaborateurs du LADT a toujours été l’analyse des textes de tout genre, à la recherche de significations et de sens invisibles à l’oeil nu. Les logiciels dont le laboratoire s’est équipé[4] permettent, telle la loupe de Sherlock Holmes, de grossir certains traits, de faire ressortir un élément ou une structure dans des masses de données qui peuvent paraître insignifiantes au premier abord. Ils permettent ainsi de cartographier un texte, de rendre saillant l’organisation thématique des textes, les « mondes lexicaux » qui les composent, les représentations véhiculées par rapport à une thématique particulière, etc. Enquêtes, textes littéraires, politiques, philosophiques, publicitaires, articles de journaux, entretiens de type sociologique ou psychologique, idéogrammes chinois, textes codifiés, partitions de musique, etc., tout genre de « texte » est exploitable par ces logiciels, notamment les gros volumes de textes.

Le mot texte est donc pris plutôt dans le sens de texte informatique pouvant contenir des caractères, des symboles qui représentent des mots (dans différentes langues), des codes, des images, etc. Selon le type d’étude, ces outils permettent de traiter les textes en soi (par exemple, l’analyse lexicale/sémantique de discours politiques), ou en leur associant des variables extérieures (l’analyse de contenu des romans en fonction du sexe ou de l’âge de l’auteur, l’analyse des discours en fonction du parti politique, de la région, de l’époque, etc.). Enfin, l’analyse stylistique avec ces outils peut aussi servir à la discrimination des textes en vue de détecter leur paternité.

Des bases de données peuvent également être constituées et analysées avec ces logiciels. Le logiciel Sphinx sert, entre autres, à concevoir, rédiger, mettre en page et publier sur Internet des questionnaires et des enquêtes, en plus de permettre d’analyser par la statistique et la lexicométrie les résultats compilés des questions fermées et ouvertes.

Projets de recherche du LADT

Depuis sa création, le LADT a été le cadre de plusieurs projets, faisant appel à une diversité de corpus, d’approches et de disciplines, menés par des professeurs et des étudiants (dans le cadre de leur projet de 1er, 2e ou 3e cycles). J’aimerais citer en premier lieu le travail d’une étudiante, Louise Caissie (diplôme de 1er cycle avec spécialisation en linguistique), la première à utiliser ces outils d’analyse dans le cadre de son projet de baccalauréat en 1998-1999. Elle a analysé les communiqués de presse en français diffusés par les premiers ministres du Canada et de la province du Nouveau-Brunswick, afin d’étudier les stratégies discursives adoptées pour renforcer le sentiment national des Canadiens lors de la fête annuelle du Canada, le 1er juillet[5].

Plusieurs projets linguistiques ont reçu d’importantes subventions, notamment le projet de « Description du français standard parlé au Nouveau-Brunswick », mené en collaboration avec Louise Péronnet (CRSH, 1995-2003) et celui sur la « description automatique de l’Acadien », en collaboration avec Gisèle Chevalier et Max Silberztein (FINB-CRSH-FESR, 2005-2008). Toujours en linguistique, avec les étudiants Mila Bertin, Annie Gaudet et Philippe Desjardins et le professeur Pierre Gérin, ont été menées des recherches sur les gros mots et les formules de politesse dans les parlers acadiens[6] (2005-2014).

La première thèse de doctorat utilisant les outils d’ADT fut celle de Chantal Richard, portant sur l’hétérolinguisme littéraire dans le roman francophone en Amérique du Nord à la fin du XXe siècle. En se basant sur les formes et les fonctions des marques transcodiques, cette thèse, soutenue en 2004, a réussi à modéliser les typologies des écritures bi-multilingues dans les romans francophones de l’Amérique du Nord.

Deux grands projets d’envergure en sociologie ont été subventionnés par le Consortium national de recherche en santé du CNRS. Menées en collaboration avec la sociologue Guylaine Poissant (2000-2004), ces recherches portaient sur la santé des femmes dans les milieux populaires acadiens de Dieppe et Moncton, ainsi que sur les valeurs défendues par cette population défavorisée. Ces travaux ont été réalisés à partir d’entrevues de type sociologique recueillies dans les quartiers populaires[7]. Toujours dans les années 2003-2004, en collaboration avec Chedly Belkhodja (science politique), une étude a été menée sur les discours de Bernard Lord, le premier ministre (conservateur) du Nouveau-Brunswick de l’époque. Le chercheur voulait cerner la dimension populiste du discours des progressistes conservateurs par rapport aux discours politiques des deux autres partis de la province, le parti libéral et le parti CoR[8]. Avec des professeurs de différents départements et spécialités de l’Université de Moncton, James de Finney, Chedly Belkhodja, Chantal Richard, Aïcha Benimmas, et Christophe Traisnel, ainsi que les étudiants Raymond Blanchard et Philippe Desjardins, une série de recherches interdisciplinaires sur l’immigration, subventionnées par l’organisme Métropolis, ont été menées au LADT :

  1. Les répercussions du 11 septembre dans la presse francophone au Canada (de Finney, Belkhodja, Richard et Kasparian).

  2. L’image de l’Autre en Acadie (Kasparian et Desjardins).

  3. Étude comparée des lois sur l’immigration : Communauté européenne versus Canada (Kasparian, Traisnel, et Blanchard) (publications à venir).

  4. La participation citoyenne chez les jeunes immigrants et leurs parents en milieu minoritaire francophone au Nouveau-Brunswick (Benimmas).

Le corpus des Conventions nationales acadiennes a fait l’objet de plusieurs projets de recherche. Citons entre autres l’étude menée par Manon Laparra (2004), étudiante au doctorat en littérature comparée (en France), sur l’image de la France dans les Conventions nationales acadiennes, ainsi que les recherches d’envergure menées par Chantal Richard et son équipe (CRSH, 2011-2017), une étude comparée des Conventions nationales acadiennes et des discours des loyalistes (fin 19e siècle) : Vocabularies of Identity : The evolution of collective identity in Acadian and Loyalist texts published in New Brunswick newspapers from 1880 to 1938. Cette recherche s’intéresse aux marques de l’identité nationaliste dans les discours et les sermons de deux groupes vivant au Nouveau-Brunswick, les Acadiens francophones et les loyalistes anglophones. Toujours en cours, cette recherche a permis de dégager les « mondes lexicaux » et les éléments fondateurs de l’identité nationale des deux groupes[9].

Il faut noter aussi les études sur les « Représentations des Amérindiens/Autochtones dans la presse francophone au Nouveau-Brunswick » entreprises par un étudiant, Philippe Desjardins (2004), et un post-doctorant, Martin Momha (2013) sous la direction de S. Kasparian (articles en préparation).

L’un des projets le plus importants du LADT, poursuivi depuis 2007 en collaboration avec Joceline Chabot (historienne) et Richard Godin (étude des médias), porte sur le génocide des Arméniens. Subventionnés par le CRSH et la FESR, plusieurs programmes de recherche sur cette question se sont succédés depuis 2007 : « Récit du génocide arménien dans la presse francophone canadienne (1915-1921) : approches croisées » (2007-2008); « Massacres, atrocités et génocide durant la Grande Guerre. Une analyse comparée du récit médiatique des atrocités allemandes sur le front ouest et du génocide des Arméniens dans l’empire ottoman à travers l’exemple des journaux canadiens (1914-1918) » (2009-2010); « Violences extrêmes et sensibilités contemporaines. Le récit des atrocités allemandes et du massacre des Arméniens durant la Grande Guerre dans la presse canadienne francophone, 1914-1919 » (CRSH, 2011-2015). Finalement, parmi les plus récents, on peut signaler celui portant sur l’analyse des témoignages sur le génocide des Arméniens, notamment l’étude des violences genrées dans les récits des victimes. Ces recherches ont fait l’objet de plus d’une dizaine de publications et d’un ouvrage collectif qui vient de paraître : J. Chabot, R. Godin, S. Kappler, S. Kasparian (2016), Mass media and the Genocide of Armenians : One Hundred years of Uncertain representations. Palgrave Macmillan, Londres. Une étudiante à la maîtrise en histoire, Christine Thériault, s’est inscrite dans ce programme en soutenant en 2008 une thèse intitulée « Entre Histoire et mémoire : la demande sociale de reconnaissance du génocide arménien par la communauté arménienne québécoise (1965-1998) ». Raymond Blanchard, étudiant en histoire, a pour sa part utilisé ces outils dans le cadre de sa thèse de maîtrise pour décrire les représentations des combattants russes dans les magazines illustrés français de la Première Guerre mondiale (1914-1919).

D’autres projets ponctuels, menés en collaboration avec des chercheurs de l’Université de Moncton et d’ailleurs, ont exploré des corpus inusités : une équipe d’informaticiens du Japon et le professeur Vartan Choulakian (statisticien, U. de M.) proposent une théorie nouvelle quant au problème synoptique des évangiles (2004-2006); un projet novateur sur la structure modale des charagan, chants liturgiques arméniens, a été mené en collaboration avec le musicologue Aram Kerovpyan, Paris (2002-2004); Chantal Richard (UNB) a étudié les « Papiers perdus », un site Web de l’écrivaine Régine Robin (2012-2013). Des sujets tout aussi inusités font l’objet des projets en cours entrepris par des étudiants : le discours criminel, Nicole Allain (1er cycle); les universaux et les spécificités de l’utilisation des épices dans la cuisine internationale, Karnig Arslanian (1er cycle); l’analyse des débats politiques télévisés sur l’immigration par différents partis politiques en France, Joséphine Cutuli (1er cycle); la description du genre communicatif de l’épitaphe à partir de l’analyse des pierres tombales du cimetière Elmwood, Natasha Pominville (maitrise); les commentaires publiés dans le cadre de la pétition en ligne contre le bilinguisme au Nouveau-Brunswick, Marc-André Bouchard (maitrise); les représentations des différents accents des locuteurs d’anglais par les anglophones de Moncton, Eden Hambelton (doctorat); l’analyse de ses propres recueils de poèmes ainsi que l’analyse des gravures de Theodore de Bry, deux projets menés par Daniel Dugas (doctorat). Ce tour d’horizon sommaire souligne à quel point le LADT est susceptible de traiter des corpus de textes aussi variés que des textes littéraires, les évangiles, la presse, des discours politiques, des textes de loi, des débats télévisés, les conventions nationales acadiennes, des entretiens de type sociologiques, des entrevues psychologiques, des recettes de cuisine, des images, des pierres tombales, des sondages, des partitions de musique, des gravures, des blogues, des forums, etc.

Présentation du numéro thématique

Il est impossible de rendre compte de toutes ces recherches dans un même volume, même double. Aussi, parmi la cinquantaine de projets traités dans le cadre du LADT depuis 1999, seuls 13 sont présentés dans ce numéro. En faisant appel aussi bien aux recherches de professeurs que d’étudiants des trois cycles, on a voulu souligner la dynamique inclusive et interdisciplinaire qui caractérise le fonctionnement du laboratoire depuis sa création.

Étienne Brunet, professeur émérite de l’Université Sophia Antipolis (Nice), concepteur du logiciel Hyperbase, le premier et aussi le plus fréquent visiteur de notre laboratoire, a eu la grande amabilité de rédiger le premier article, qui présente un historique et les grandes lignes de l’évolution du courant de l’ADT et qui est intitulé « La lexicométrie française : naissance, évolution et perspectives ». Brunet est venu à plusieurs reprises à l’Université de Moncton afin de former des étudiants, donner des conférences, participer à des séminaires et conseiller les chercheurs. Actif depuis de nombreuses années dans le Réseau européen, il a participé à la genèse de ce courant il y a 50 ans. Pilier de ce réseau, il continue à y participer activement. Le titre de ce volume reprend d’ailleurs le titre de sa première conférence donnée à l’Université de Moncton au trimestre d’hiver 2000.

Les contributions retenues pour cette rétrospective sont réparties selon les types de corpus utilisés et sont organisées autour de six axes : les corpus de presse, les discours et les textes littéraires, les entrevues, le web, les données musicales, Intelligence artificielle et description linguistique.

Les articles portant sur des corpus de presse comprennent notamment des études en histoire et en science politique. « Comprendre la monstration des crimes : une étude comparée du récit médiatique des violences extrêmes contre les civils durant la Grande Guerre », de Joceline Chabot et Sylvia Kasparian, présente les résultats d’une recherche comparée sur les récits médiatiques du massacre des Arméniens et des « atrocités allemandes » dans la presse canadienne francophone durant la Grande Guerre. Les auteurs font ressortir les spécificités du récit de ces événements eu égard à la définition et la qualification des crimes perpétrés contre les populations civiles. Dans l’article intitulé « Sous la loupe d’Hyperbase : les combattants russes dans l’oeil de la presse illustrée française de 1914 à 1919 », Raymond Blanchard examine, grâce au logiciel Hyperbase, les représentations stéréotypées des combattants russes alliés et ennemis entre 1914 et 1919. Il analyse notamment les dénominations et qualifications employées dans la presse française de l’époque lorsqu’elle traite des combattants russes dans le contexte de la guerre et de la révolution de 1917, alors que ces derniers passent du statut d’allié à celui d’ennemi de la France. « La presse canadienne francophone et les événements du “11 septembre” : une analyse des textes médiatiques par Sphinx et Hyperbase », de Chantal Richard, Sylvia Kasparian et James de Finney, explore la façon dont les journaux francophones du Canada ont traité les événements tragiques du 11 septembre 2001. L’étude est menée à partir d’un corpus constitué de 158 textes tirés de six journaux qui représentent les principales régions francophones du Canada, Le Devoir, Le Soleil, La Presse, L’Acadie Nouvelle, Le Droit, La Liberté. Enfin, « Un oubli mémorable. Les journaux québécois face à la demande sociale de reconnaissance du génocide arménien par la communauté arménienne québécoise (1965-1998) », de Joceline Chabot, Sylvia Kasparian et Christine Thériault, interroge la dynamique politique et symbolique mise en oeuvre dans l’espace médiatique québécois suite à une demande de reconnaissance du génocide arménien formulée par la communauté arménienne québécoise. On y analyse l’inscription de la mémoire du génocide arménien et sa représentation dans deux journaux québécois, Le Devoir et La Presse, depuis son émergence dans les années 1960 jusqu’à la fin des années 1990.

Dans la section consacrée aux discours et textes littéraires, on trouve d’abord l’article « Du dévoilement de certaines images mentales liées à la France dans les Conventions nationales acadiennes de 1881 à 1937 : une analyse rendue possible par Hyperbase », de Manon Laparra. Dans le cadre d’une approche mythocritique, l’étude vise à déterminer, grâce au logiciel Hyperbase, la façon dont la France est représentée et le rôle que jouent les références à la France à l’intérieur des grands discours nationalistes. « Formes et fonctions des alternances de langues dans les romans contemporains hétérolingues au Canada : analyse assistée par Sphinx », de Chantal Richard et Sylvia Kasparian, reprend les grandes lignes de la thèse de doctorat de Chantal Richard, « L’hétérolinguisme littéraire dans le roman francophone en Amérique du Nord à la fin du 20e siècle ». L’analyse de chaque occurrence de changement de langue dans dix romans contemporains hétérolingues permet, grâce à une analyse de contenu, de décrire leurs formes et leurs fonctions à l’aide d’une grille d’analyse créée dans le logiciel Sphinx-Eurêka. Il permet aussi de dresser une typologie de l’écriture hétérolingue. « Analyse statistique des évangiles synoptiques : une étude de la paternité des textes par l’analyse des correspondances du taxi », de Vartan Choulakian, Sylvia Kasparian, Maki Miyake, Hiroyuki Akama et Masanori Nakagawa, vient clore cette section. Cette recherche, la seule à traiter de paternité des textes, utilise l’informatique et la statistique (l’Analyse des Correspondances du Taxi) pour proposer une généalogie des textes des Évangiles synoptiques, qui présentent des similitudes ou des reprises de textes entiers d’un évangile à l’autre.

Deux articles traitent de corpus constitués d’entrevues. « Le concept de citoyenneté chez des immigrants et des membres de la société d’accueil en milieu minoritaire francophone : une analyse lexicale », de Aïcha Benimmas et Sylvia Kasparian, explore le sens des concepts de citoyenneté et de participation citoyenne à partir d’entrevues menées auprès de parents et d’élèves immigrants et acadiens. On compare notamment le sens que ces groupes donnent aux concepts étudiés. « Analyse comparée de la dynamique d’évolution du français standard parlé dans les trois régions de Moncton, Bathurst et Edmundston, au Nouveau-Brunswick », de Sylvia Kasparian et Louise Péronnet, a recours à des entrevues réalisées lors d’une enquête auprès de jeunes cadres d’entreprises francophones de niveau universitaire dans les trois centres urbains. L’analyse statistique des données, catégorisées selon des seuils de variation permet de révéler la dynamique d’évolution des traits selon les trois régions en ce qui a trait au français parlé en situation formelle, le « français standard acadien ».

Suivent deux études utilisant des corpus inusités, à l’époque, dans le domaine de l’ADT : l’une traitant de la page web de l’auteure Régine Robin, « Visualiser la cartographie postmoderne cybernétique de Régine Robin à l’aide du logiciel Hyperbase », de Chantal Richard, et l’autre analysant un corpus musical « La structure modale des charagan – chants liturgiques arméniens – à la lumière du logiciel Sphinx : le genre, les espèces et leurs combinaisons dans la IVe Voix », de Sylvia Kasparian et Aram Kerovpyan. Chantal Richard étudie le site web de l’écrivaine Régine Robin, “Papiers perdus”, un site qui se dédouble en parcours universitaire d’un côté, et créatif de l’autre. Organisés en cinq parties, les 106 fragments de la page web varient en longueur, et leur contenu est géré par des contraintes énoncées sur la page d’accueil de la section des textes de création. Ces fragments de textes, analysés par les réseaux sémantiques d’Hyperbase, révèlent la cartographie des différentes identités et manifestations de soi ainsi véhiculées sur ce site web. Kasparian et Kerovpyan quant à eux, s’intéressent à un sujet nouveau en musicologie moderne, la structure modale des charagan, chants liturgiques arméniens. Six versions différentes de 42 chants, en tout 728 versets, sont découpées en unités de phrases, formules, motifs, degrés, analysés avec le logiciel Sphinx. Ceci permet de dessiner la structure modale des charagan et faire ressortir les spécificités des différentes versions, des degrés, et des motifs propres aux différentes formules, initiale, médiane et finale, de ces chants.

Cette rétrospective des travaux du LADT propose enfin deux articles en linguistique informatique (traitement automatique de la langue) issus du projet de recherche d’envergure qui a été mené par Gisèle Chevalier et Sylvia Kasparian sur la construction d’un Lexique Grammaire de l’Acadien, d’abord grâce au logiciel INTEX ensuite avec le logiciel NooJ. « INTEX à l’épreuve de la description de la morphosyntaxe du verbe aller en français acadien », de Aline Chapados et Sylvia Kasparian, est le projet de fin de baccalauréat (1er cycle universitaire) de spécialisation en linguistique d’Aline Chapados. Celle-ci décrit, à partir du roman Pélagie-la-Charrette d’Antonine Maillet et grâce au logiciel INTEX, les différents contextes morphosyntaxiques du verbe aller en acadien. Sont présentés les graphes construits pour décrire la morphosyntaxe du verbe aller en acadien ainsi que les graphes des expressions figées construites avec le verbe aller. « Module NooJ du français. Traitement automatique d’un corpus de français parlé régional », de Gisèle Chevalier et Sylvia Kasparian, présente un outil développé pour l’analyse de corpus oraux spontanés en français acadien. Ces variétés de français parlées dans les Provinces Maritimes du Canada ont trois niveaux de traits caractéristiques : elles sont orales, régionales et mixtes. Le module NooJ acadien développé par l’équipe permet le traitement d’un corpus présentant de telles spécificités. Trois solutions développées avec NooJ sont présentées  dans cet article : 1) la configuration d’un dictionnaire qui permet la reconnaissance orthographique et lexicale de mots présentant des traits à la fois de français standard, d’acadien traditionnel et d’anglais ou du vernaculaire; 2) les grammaires développées pour l’analyse des traits morphologiques de la flexion nominale et verbale; 3) un graphe de désambiguïsation qui représente à la fois la 3e personne du singulier du présent du verbe avoir, mais aussi la 3e personne du pronom personnel féminin singulier en français acadien.

Je conclurai l’introduction de ce numéro sur le LADT en remerciant chaleureusement tous les auteurs, les étudiants, les assistants, les collègues avec lesquels j’ai pu collaborer, qui m’ont fait confiance et qui ont enrichi par leurs projets et leurs questionnements nos expériences d’analyses de texte au sein du laboratoire. Les études interdisciplinaires obligent à changer de regard, de paradigme d’étude et de compréhension des phénomènes observés. Les outils et l’approche au texte générés par ce courant novateur de l’ADT ne peuvent qu’aider à construire des ponts entre les disciplines.

Enfin, je ne peux terminer cette présentation sans remercier James De Finney, mon co-pilote sans lequel le laboratoire ainsi que le séminaire en ADT de 2e et 3e cycles (département d’études françaises) n’auraient pu être mis en place à l’Université de Moncton; les nombreux évaluateurs, le comité d’évaluation de ce numéro ainsi que toute l’équipe de la Revue de l’Université de Moncton qui ont accepté de se lancer avec nous dans cette grande aventure d’une rétrospective des travaux de recherches d’un laboratoire unique en son genre au Canada.

Suite à ce parcours de recherche et aux défis relevés au LADT, si on reprenait la question initialement posée dans le titre de ce volume : les chiffres et les lettres peuvent-ils se marier ?, on ne pourrait répondre que par l’affirmative : Oui !, ils se complètent et s’enrichissent, permettant de reculer l’ultime moment de la subjectivité dans l’analyse des textes.