Modélisation de la dose de coagulant par les systèmes à base d’inférence floue (ANFIS) application à la station de traitement des eaux de Boudouaou (Algérie)

Heddam, Salim; Bermad, Abdelmalek; Dechemi, Noureddine

doi:https://doi.org/10.7202/1008532ar

1. Introduction

Au cours des dernières années, l’Algérie a connu une forte demande en eau potable, amplifiée par une forte croissance démographique dans les grands centres urbains. Cette problématique de l’eau a été résolue par de gros investissements mettant en service d’importantes infrastructures de production et de distribution d’eau potable. Etant donné que le traitement des eaux est une étape indispensable et réglementée, les stations de traitement de l’eau potable figurent parmi les infrastructures auxquelles une grande importance a été donnée.

Deux principaux objectifs sont ciblés lors de la gestion et l’exploitation d’une station de traitement des eaux : un objectif de qualité et un objectif de coût (baxter, 1998). L’atteinte de l’objectif de qualité exige la production d’eau en quantité suffisante, de façon continue et avec une qualité répondant aux normes de potabilité en vigueur (normes chimiques, microbiologiques, etc.) lesquelles sont de plus en plus sévères. Cela implique la conception d’une station de traitement sophistiquée correctement dimensionnée et incluant un large ensemble d’équipements mécaniques et hydromécaniques. Au passage de l’eau à traiter dans un tel système, la qualité de l’eau obtenue se trouve modifiée tant au niveau physique que chimique ou microbiologique. La nature et l’étendue de ces modifications dépendent des caractéristiques de l’eau à l’entrée de la station et du degré d’interaction entre les différentes composantes du processus mis en jeu.

En raison du grand nombre de variables, ainsi que de la complexité des phénomènes biologiques, physiques et chimiques impliqués dans les procédés de traitement de l’eau potable, il est souvent très difficile de quantifier au préalable les interactions et les relations qui existent entre les entrées (variables) et les sorties (paramètres de qualité) de ces procédés (BAXTER et al., 2002). La coagulation est une étape très importante dans la production de l’eau potable à partir d’eau brute. Elle a pour but la déstabilisation des colloïdes et leur agglomération ainsi que celle des particules fines en suspension (Amirtharajah et O’Melia, 1990). La consommation d’agent coagulant fait de cette étape de traitement l’opération la plus coûteuse dans la chaîne de traitement.

Les produits chimiques impliqués dans le processus de coagulation (coagulants) sont d’origine minérale à base d’aluminium (Al₂(SO₄)₃.18H₂O) (Dempseyet al., 1985) ou de fer (FeCl₃) (Lefebvre et Legube, 1993), des polymères naturels ou des polymères de synthèse. Dans le cas de notre étude, le coagulant utilisé au niveau de la station de traitement des eaux de Boudouaou (prés de la ville d’Alger) est le sulfate d’aluminium. Ainsi, la mise en oeuvre se déroule en deux étapes (Équation 1) (CARDOT, 1999) :

L’étape 1 est une phase d’hydrolyse, tandis que durant la phase 2 il y a formation du précipité Al(OH)₃.

L’ajout du coagulant dans l’eau a les effets suivants : (i) réduction de la charge hydrostatique par son adsorption à la surface des particules; (ii) réduction de la charge diffuse. De ce fait, les principaux facteurs influençant l’efficacité de la coagulation sont le pH (STUMM et morgan, 1962), la turbidité initiale (Edwards et Amirtharajah, 1985) et la température de l’eau (mohtadi et rao, 1973). D’autres variables caractérisant l’eau brute influent considérablement sur le processus de coagulation à savoir, la conductivité de l’eau, l’absorbance à 254 nm (UV₂₅₄) ainsi que l’oxygène dissous (OD) (LIND, 1994a, 1994b). L’absorbance à 254 nm exprime la capacité de l’eau à absorber un rayonnement UV₂₅₄ à une longueur d’onde de 254 nanomètres. Cette mesure permet au professionnel de s’assurer que la désinfection aux ultraviolets est possible (WEISHAAR et al., 2003).

Lors de la phase de coagulation, on cherche, d’une part, à maximiser la déstabilisation des particules et des colloïdes organiques pour faciliter leur agglomération et leur enlèvement subséquent, par un procédé de séparation solide-liquide et, d’autre part, à minimiser la concentration en coagulant résiduel. La minimisation des coûts de l’opération se fait par une coagulation que l’on juge optimale. Elle correspond au dosage du coagulant qui assure l’atteinte de tous les objectifs de qualité (Edzwald et Tobiason, 1999). Afin d’évaluer les conditions optimales de coagulation et de floculation, des essais dits de « Jar-Test » (JT) sont conduits à l’échelle de laboratoire. Ceux-ci, menés dans une large gamme de conditions opératoires, permettent de déterminer le type de coagulant, son dosage, le pH et les conditions d’agitation qui maximisent la réduction de la turbidité (krasner et amy, 1995).

Ce type d’approche a l’inconvénient d’avoir un temps de réponse relativement long. En effet, on ne modifie la dose de coagulant qu’une fois un événement apparu. De plus, elle ne permet pas de suivre finement l’évolution de la qualité de l’eau brute (baxteret al., 1999). On voit ici tout l’intérêt de disposer d’un contrôle automatique et efficace de ce procédé pour un meilleur rendement de traitement et une réduction des coûts d’exploitation. Au cours des dernières années une nouvelle approche a été développée, qui est la régulation du procédé de coagulation basée sur les variables descriptives de la qualité de l’eau brute. Cette technique impose de trouver un modèle reliant la dose optimale de coagulant à ces différentes variables (VALENTIN, 2000).

La modélisation par régression entrée/sortie a déjà fait l’objet de nombreuses applications dans ce domaine (van Leeuwenet al., 1999). Les approches proposées reposent le plus souvent sur des modèles régressifs linéaires.

BAZER-BACHI et al. (1990) ont proposé deux modèles mathématiques basés sur des équations polynomiales, reliant la dose optimale du coagulant (le sulfate d’aluminium) aux variables descriptives de la qualité de l’eau brute à savoir : la turbidité, la résistivité, la teneur en matière organique, la température et la nature de la suspension minérale. D’autres modèles linéaires ont été proposés (CRITCHLEY et al., 1990; ELLISet al., 1991; Girouet al., 1992; Ratnaweera et Blom, 1995). Le modèle de Girouet al. (1992) est basé sur la concentration en ions calcium, les bicarbonates, les sulfates, la turbidité initiale, la température et le pH. Les données utilisées dans le modèle développé par Ratnaweera et Blom (1995) sont le débit de la rivière, le temps de sédimentation, la température, la turbidité, le pH et la conductivité, alors que le modèle proposé par CRITCHLEY et al. (1990) inclut la couleur, le débit de la rivière, le pH, la conductivité et la température. Ces études ont montré l’intérêt de cette approche mais également les limites de la modélisation linéaire pour ce type de problème.

Les progrès importants réalisés au cours des dernières années dans le domaine de l’intelligence artificielle ont permis de réduire les difficultés et de s’affranchir des limitations des modèles linéaires. Des modèles basés sur la technique des réseaux de neurones artificiels ont été mis au point (MAIER et al., 2004). Un exemple de ce modèle a déjà été testé (Valentinet al., 1999). Cette modélisation a été intégrée dans le cadre de la construction d’un capteur logiciel pour la détermination en ligne de la dose optimale de coagulant en fonction de différentes caractéristiques de la qualité de l’eau brute telles que la turbidité, le pH, la conductivité, etc. Le modèle de Valentinet al. (1999) est basé sur deux types de réseaux de neurones, un perceptron multicouche (MLP), d’une part, et un réseau basé principalement sur l’utilisation des cartes auto-organisatrices de Kohonen pour le prétraitement des données, d’autre part.

D’autres modèles ont été proposés (adgaret al., 1995; Adgaret al., 2000; Böhmeet al., 1999; GAGNON et al., 1997; Mirsepassiet al., 1997; NAHM et al., 1996; YU et al., 2000). Ils expriment tous la dose du coagulant à injecter en fonction des différentes variables descriptives caractérisant l’eau brute à l’entrée de la station de traitement des eaux. Certaines études (baxteret al., 2001a; baxteret al., 2001b; Baxteret al., 2002; COXet al., 2003; HEDDAM et al., 2011; LAMRINIet al., 2005) ont montré l’importance des réseaux de neurones comme outil pour l’élaboration des modèles mathématiques à des fins d’automatisation et de supervision des procédés impliqués dans les stations de traitement des eaux.

Dans cet article, on propose une autre méthode de prédiction de la dose du coagulant en fonction de six variables descriptives caractérisant l’eau brute à l’entrée de la station de traitement des eaux potables. Cette méthode est basée sur le modèle ANFIS (Adaptive Neuro Fuzzy Inference System), qui combine la logique floue et les réseaux de neurones pour former un réseau hybride, utilisant la rétropropagation de l’erreur comme algorithme d’apprentissage. Les résultats obtenus sont comparés à ceux d’un modèle à base de réseaux de neurones artificiels, le perceptron multicouche (MLP) et d’un modèle à base de régression linéaire multiple (RLM).

2. Modèles utilisés

2.1 La régression linéaire multiple

La régression linéaire multiple (RLM) est une généralisation du modèle de régression simple lorsque les variables explicatives sont en nombre fini. Elle consiste à rechercher une équation linéaire reliant la variable à modéliser Y = {y_i, i = 1...N} (variable à expliquer ou endogène) à la matrice d’entrées ou (variables explicatives ou exogènes), X = {x_ip, i = 1...N; p, nombre de variables explicatives}. N correspond au nombre d’individus ou d’observations.

L’équation linéaire recherchée est de la forme

Les paramètres β sont appelés coefficients de régression partielle. Ils mesurent l’influence de chacune des variables sur la grandeur étudiée. On remarque que le nombre de paramètres à déterminer pour un modèle à base de régression linéaire (RLM) est au nombre de (p+1).

2.2 Les réseaux de neurones artificiels

Les réseaux de neurones artificiels (RNA) sont des modèles mathématiques non linéaires, de type « boîte noire », capables de déterminer des relations entre données par la présentation (l’analyse) répétée d’exemples, à savoir de couples constitués par une information d’entrée (variables caractéristiques de l’eau brute) et une valeur de sortie que l’on voudrait approcher par le modèle (la dose de coagulant). Les RNA se composent d’un ensemble de processeurs élémentaires, les neurones qui sont largement connectés les uns aux autres et qui sont capables d’échanger des informations au moyen des connexions qui les relient. Les connexions sont directionnelles et à chacune d’elle est associé un réel appelé poids de la connexion. Cette représentation est le reflet de l’inspiration biologique qui a été à l’origine de la première vague d’intérêt pour les neurones formels, dans les années 1940 à 1970 (McCULLOCH et PITTS, 1943).

Dans cet article, nous considérerons une structure très particulière des réseaux de neurones, les perceptrons multicouches (MLP pour Multi Layer Perceptron) décrits dans la figure 1. Un perceptron multicouche consiste en une succession de couches constituées d’unités neuronales, lesquelles possèdent une fonction d’activation non linéaire. À l’intérieur d’une couche chaque neurone reçoit des signaux provenant de la couche précédente, effectue un calcul et transmet le résultat à la couche suivante. Il n’existe pas d’interconnexions entre les neurones situés à l’intérieur d’une même couche : les activations des différents neurones sont seulement propagées de la couche d’entrée vers la couche de sortie à travers tous les neurones constitutifs du réseau. La couche d’entrée collecte les variables d’entrée tandis que la couche de sortie produit les résultats.

Figure 1

**Architecture du perceptron multicouche modèle MLP.**

**Architecture of the Multilayer perceptron neural network MLP.**

La première couche du réseau est la couche d’entrée. Elle contient (n) neurones. La deuxième couche, appelée couche cachée, contient pour sa part (m) neurones. La dernière couche du réseau est sa couche de sortie qui contient (p) neurones. Les neurones d’entrée sont numérotés de 1 à n, les neurones cachés de 1 à m, et les neurones de sortie de 1 à p. Par convention, le paramètre w_ij est relatif à la connexion allant du neurone i (ou de l’entrée i) vers le neurone j. Ainsi le paramètre w_jkest relatif à la connexion allant du neurone caché j vers le neurone de sortie k.

Les états des neurones de la première couche seront fixés par le problème traité à travers un vecteur x = (x₁; x₂; …x_n). Les états de la première couche étant fixés, le réseau va pouvoir calculer les états des neurones des autres couches. Dans ce sens, chaque neurone de la couche cachée reçoit une somme pondérée par les paramètres (w_ij), qui sont alors souvent désignés sous le nom de « poids » ou, en raison de l’inspiration biologique des réseaux de neurones, « poids synaptiques », de toutes les entrées, à laquelle s’ajoute un terme constant w₀ou « biais » :

La sortie du neurone est une fonction non linéaire de son entrée (A_j) :

La fonction f est appelée fonction de transfert ou d’activation. On utilise le plus souvent une fonction d’activation sigmoïde, appliquée dans cette étude et donnée par la formule suivante :

Chaque neurone de la couche de sortie reçoit une somme pondérée par les paramètres (w_jk), à laquelle s’ajoute un terme constant B₀ou « biais » :

La sortie du réseau O (pour Output) est une fonction linéaire des poids de la dernière couche de connexions (qui relient les m neurones cachés aux neurones de sortie), et elle est une fonction non linéaire des paramètres de la première couche de connexions (qui relient les n entrées du réseau aux m neurones cachés). Cette propriété a des conséquences très importantes (DREYFUS, 2004). Il a été démontré qu’un réseau de neurones comportant une couche de neurones cachés en nombre fini, possédant tous la même fonction d’activation, et un neurone de sortie linéaire est un approximateur universel (HORNIK et al., 1989; HORNIK et al., 1990; HORNIK, 1991).

Les valeurs des poids et du biais sont modifiées et mises à jour via un algorithme d’apprentissage supervisé. Ce dernier consiste à se procurer un ensemble d’exemples, c’est-à-dire un ensemble fini de couples entrée sortie connus (exemples qui constituent l’ensemble d’apprentissage). L’objectif de ce calcul est la minimisation d’une fonction d’erreur entre la réponse désirée et la réponse obtenue à la sortie du modèle. L’algorithme de rétropropagation de l’erreur est le plus utilisé. Ce dernier estime le gradient de la fonction d’erreur par rapport aux paramètres (poids et biais) du modèle et réalise l’adaptation de ces paramètres successivement de la couche de sortie vers la couche d’entrée (Figure 1). Cela consiste à effectuer une descente de gradient sur le critère d’erreur ‘E’ en minimisant une fonction coût, généralement l’erreur quadratique moyenne (RUMELHART et al., 1986).

Les méthodes de gradient peuvent être réparties en deux catégories : les méthodes du premier ordre, qui n’utilisent que le gradient de la fonction (cas de l’algorithme de rétropropagation de l’erreur) et les méthodes du second ordre, qui généralisent la descente du gradient au deuxième degré de la fonction d’erreur. Ce sont des méthodes itératives qui consistent à remplacer la fonction coût par son approximation quadratique. On peut citer par exemple les méthodes de Newton, de quasi-Newton et de Levenberg-Maquardt. Cette dernière est utilisée dans le cadre de notre étude.

2.3 Modèle neuroflou

2.3.1 La logique floue

La logique floue a été développée par ZADEH (1965) qui a proposé de modéliser un système complexe par un raisonnement « approximatif » basé sur des variables linguistiques et des sous-ensembles flous (ZADEH, 1971). Un sous-ensemble flou A est défini sur un domaine physique appelé univers de discours U, et par une fonction d’appartenance F(x) qui associe, à chaque élément x de U, le degré de vérité (d’appartenance) f_(A) à X compris entre l’intervalle 0 et 1, soit, et cela contrairement à la logique classique où le degré d’appartenance ne peut prendre que deux valeurs (0 ou 1).

Les systèmes flous s’appuient sur une représentation de la connaissance sous forme de règles « Si…..Alors » qui permettent de représenter les relations entre les variables d’entrée et de sortie dont l’expression générique est de la forme :

L’antécédent (prémisse) est une description linguistique qui indique les conditions de validité du phénomène représenté. Pour sa part, le conséquent (conclusion) représente le comportement associé aux conditions de validité décrites par l’antécédent, par exemple :

Aujourd’hui la logique floue a fait l’objet de plusieurs applications dans le domaine de l’ingénierie (BENKACI et DECHEMI, 2004; DECHEMI et al., 2003; LEKFIR et al., 2006).

2.3.2 Caractéristiques des sous ensembles flous

Une variable linguistique (zadeh, 1971) est une variable dont les valeurs sont des mots ou des phrases exprimées dans une langue naturelle ou un langage artificiel (NAKOULA, 1997). Une variable linguistique est définie par : « x_nom, L(x), U, M_x» avec : (i) x_nom : le nom de la variable linguistique (ex : dose du coagulant), (ii) L(x) = {L₁; L₂;....; L_n} est l’ensemble des valeurs linguistiques (ou encore appelé symbole ou terme linguistique ou étiquette) que peut prendre la variable x_nom. Par exemple L(x) = {faible, moyenne, élevée} pour caractériser la dose de coagulant; (iii) U correspond à l’univers de discours associé à la variable x_nom (exemple : dose du coagulant varie entre 5 et 35 mg•L^-1). C’est l’ensemble de toutes les valeurs numériques que peut prendre la variable numérique associée à la variable linguistique x_nom; (iv) M_x est une fonction qui associe à tout symbole de L(x) une signification floue.

La modélisation d’un système entrée/sortie par la logique floue passe par trois étapes essentielles :

La fuzzification des variables d’entrée, qui consiste à transformer les entrées numériques disponibles en parties floues. Il est alors possible d’associer à des variables des coefficients d’appartenance à des sous-ensembles flous prenant des valeurs dans l’intervalle [0,1].
L’inférence floue, composée par la base de règles et par la base de données. La combinaison des entrées avec les règles floues permet de tirer des conclusions.
La défuzzification qui est l’opération inverse de la fuzzification. Elle convertit les parties floues relatives aux sorties du mécanisme d’inférence en sorties numériques. Il existe plusieurs techniques de défuzzification (Janget al., 1997). Cependant la technique la plus utilisée est celle du centre de gravité (Lee, 1990).

2.3.3 Modèle flou utilisé : le modèle de Sugeno

Les systèmes flous sont répertoriés selon leur nature structurelle. On distingue les systèmes flous à conclusions symboliques (Mamdani, 1977) ou modèles flous linguistiques (systèmes de Mamdani), dans lesquels l’antécédent et le conséquent sont tous les deux des propositions floues qui utilisent des variables linguistiques (Équation 10), et des systèmes flous à conclusions fonctionnelles ou modèles flous de Takagi-Sugeno-Kang (TS) (Équation 11) (Takagi et sugeno, 1985).

Étant donné que notre étude concerne un système d’entrée/sortie, nous nous sommes basés sur le modèle de Takagi_Sugeno (TS) de premier ordre. Dans ce cas la variable D du conséquent (dose du coagulant) est numérique sous la forme d’une fonction des variables associées à l’antécédent (Équation 11). Ici T et P représentent respectivement les valeurs numériques de la turbidité et du pH, données à titre d’exemple.

2.3.4 Le modèle ANFIS

L’utilisation conjointe des méthodes neuronales et floues dans des modèles hybrides permet de tirer des avantages, principalement, des capacités d’apprentissage des réseaux de neurones, et de la lisibilité et la souplesse de la logique floue. Le principal type d’association entre réseaux de neurones et systèmes flous est le cas où un système d’inférence flou est mis sous la forme d’un réseau multicouche (Buckley et Hayashi, 1994), dans lequel les poids correspondent aux paramètres du système, l’architecture du réseau dépendant du type de règles et des méthodes d’inférence, d’agrégation et de défuzzification choisies. Le plus utilisé dans ce domaine est le modèle ANFIS.

le modèle ANFIS, connu sous le nom de réseau adaptatif à base de système d’inférence floue, développé par JANG (1993) est un approximateur universel (JANG et al., 1997). ANFIS est une technique qui incorpore les concepts de la logique floue dans les réseaux de neurones. Il a été largement utilisé dans beaucoup d’applications (Kisi ,2005; Tutmez et al., 2006).

Ce modèle simule la relation entre l’entrée et la sortie d’un processus à travers un apprentissage hybride pour déterminer la distribution optimale des fonctions d’appartenances (Figure 2).Il est basé sur les règles floues « Si…..Alors » de Takagi et Sugeno (TAKAGI et SUGENO, 1985). L’architecture équivalente du modèle comporte cinq couches, chacune comportant plusieurs noeuds (Figure 2).Les noeuds carrés (adaptatifs) contiennent des paramètres, alors que les noeuds circulaires (fixes) n’ont pas de paramètres dans le système.

Figure 2

**Architecture du modèle ANFIS.**

**Architecture of the ANFIS model.**

Pour deux variables d’entrée x1 (la température) et x2 (la conductivité) données à titre d’exemple avec la seule variable de sortie Y (la dose du coagulant), chaque variable d’entrée est décrite par deux termes linguistiques : M1 et M2 pour la variable x1, L1 et L2 pour la variable x2, respectivement, d’où une base de règle « Si…..Alors » décrite par deux règles floues R1 et R2 :

où p_i, q_i, r_i correspondent aux paramètres de la partie conclusion à ajuster durant l’apprentissage.

- Couche 1 : chaque noeud de cette couche est un noeud carré adaptatif avec une fonction :

où x₁ (ou x₂) est l’entrée du noeud i, M_i (ou L_i) est le terme linguistique associé à sa fonction.

Les noeuds de cette couche représentent le degré d’appartenance de x₁(ou x₂) à M_i (ou L_i); c’est la phase de fuzzification.

- Couche 2 : chaque noeud de cette couche est un noeud circulaire fixe, appelé (Π), qui reçoit les sorties des noeuds de fuzzification et calcule leur activation. Le nombre de noeuds dans cette couche est égal au nombre de règles « Si…..Alors » dans le système d’inférence flou.

- Couche 3 : chaque noeud de cette couche est un noeud circulaire fixe, appelé (N).C’est la couche de normalisation dans laquelle chaque noeud calcule le degré d’appartenance normalisé à une règle floue donnée. Le résultat obtenu représente la participation de chaque règle floue au résultat final. Cette couche renvoie des sorties normalisées de défuzzification.

- Couche 4 : Chaque noeud i de cette couche est un noeud carré adaptatif qui correspond à l’entrée initiale pondérée par le degré d’appartenance normalisé de la règle floue.

où est la sortie normalisée de la couche 3, et {pi, qi, ri} est l’ensemble des paramètres de sortie de la règle i. C’est la phase de défuzzification.

- Couche 5 : composée d’un seul noeud fixe circulaire appelé (Σ) qui reçoit la somme des sorties de tous les noeuds de défuzzification, et fournit la sortie du modèle ANFIS.

2.3.5. Apprentissage du modèle ANFIS

L’ajustement des paramètres de l’ANFIS est réalisé lors de la phase d’apprentissage. Pour cela, un ensemble de données associant séquences d’entrées et de sorties est nécessaire. Pour la réalisation de cette phase, l’algorithme d’apprentissage hybride est utilisé. L’algorithme d’apprentissage hybride est une association de la méthode de descente de gradient de l’erreur et de la méthode d’estimation des moindres carrés. La méthode de descente de gradient de l’erreur permet d’ajuster les prémisses alors que la méthode LSM (Least Square Method) ajuste les paramètres linéaires (conséquents ou conclusions). L’apprentissage se fait de façon itérative jusqu’à ce que le nombre de cycles d’apprentissage soit atteint ou jusqu’à ce que l’erreur moyenne entre la valeur de sortie désirée et générée par l’ANFIS atteigne une valeur prédéterminée. Cette phase dépend donc de la qualité de l’ensemble des données au sens où cet ensemble doit représenter au mieux les différents comportements attendus (Wang et Mendel, 1992a et 1992b).

Le modèle ANFIS permet de s’affranchir de l’effet « boîte noire » reproché aux réseaux de neurones classiques, d’associer la connaissance dysfonctionnelle disponible sous la forme de règles floues et de conserver une capacité d’apprentissage issue des réseaux de neurones. Une des plus importantes étapes pour la génération de la structure des réseaux neuro flous ANFIS est l’établissement des règles d’inférence floues. En utilisant un mécanisme d’inférence, les règles sont définies comme combinaisons des fonctions d’appartenance des différentes variables d’entrée. Les variables d’entrée sont divisées en un nombre limité de valeurs linguistiques (étiquette), chacune caractérisée par une fonction d’appartenance (et leurs combinaisons mènent à beaucoup de règles d’inférences floues).

2.4 Validation des modèles

La validation permet de juger l’aptitude du modèle à reproduire les variables modélisées. Plusieurs critères ont été choisis. Dans notre cas, nous nous sommes basés sur le coefficient de détermination (R²), la racine de l’erreur quadratique moyenne (RMSE) et la moyenne biaisée (B).

2.4.1 Coefficient de détermination (R²)

Avec : Y_iobs et Y_ical correspondent respectivement aux valeurs observées et calculées par le modèle de la dose du coagulant pour la journée i, et sont les moyennes des valeurs observées et calculées par le modèle, et σ_obset σ_calles écarts-types des valeurs observées et calculées.

2.4.2 Racine de l’erreur quadratique moyenne (RMSE)

N représente le nombre de valeurs utilisées. Le modèle est bien optimisé si la valeur du RMSE est proche de zéro.

2.4.3 Moyenne biaisée (B)

C’est la différence entre la moyenne des doses de coagulant observées et celles calculées. Ce paramètre est défini par la relation suivante :

Lorsque B tend vers zéro, le modèle est sans biais.

3. Présentation de la station étudiée

La station de traitement des eaux potables a été mise en service en 1987. Cette station se situe à environ 7 km du barrage de Keddara, entre les villes de Boudouaou et d’Ouled Moussa (Figure 3). Elle occupe une superficie de 17 hectares et fait partie du Système de Production Isser Keddara (SPIK). Elle traite les eaux des barrages de Béni Amrane, de Keddara et du Hamiz et alimente la population de la capitale (Alger), estimée à 4 000 000 d’habitants, avec une capacité de traitement de 540 000 m³•j^-1(seaal, 2008).

Figure 3

**Présentation de l’usine de production.**

**Presentation of the production factory.**

Cette station de traitement compte : (i) un ouvrage d’arrivée et de mélange, (ii) une étape de clarification assurée par le procédé de coagulation-floculation grâce à des décanteurs de type « PULSATOR » lamellaires à lit de boue, utilisant le sulfate d’aluminium comme coagulant, (iii) des filtres type « AQUAZUR V ». Après ce traitement, l’eau est stockée dans deux réservoirs de capacité totale 2 x 50 000 m³, avant qu’elle ne soit pompée vers la ville d’Alger (seaal, 2008).

L’objectif de notre travail est la modélisation de la dose du coagulant (DC) en fonction des variables descriptives caractérisant l’eau brute à l’entrée de la station. Nous disposons pour cela de six variables : la température (TE), le pH, la turbidité (TU), la conductivité électrique de l’eau (CE), l’oxygène dissous (OD) et l’absorbance à 254 nm (UV₂₅₄). Ces six variables sont mesurées à raison de deux fois par jour. Parallèlement, la dose de coagulant est déterminée par les essais Jar-Test effectués en laboratoire. Les caractéristiques statistiques des variables retenues sont présentées dans le tableau 1.

Tableau 1

**Résumé statistique des variables retenues.**

**Statistical summary of raw water data.**

4. Méthodologie

La base de données utilisée a été scindée aléatoirement en deux parties, l’une pour le calage des modèles (MLP, RLM et ANFIS) et l’identification des paramètres qui représentent 80 % de la taille totale de la base de données et l’autre pour la validation (20 %). Les critères de performance sont calculés aussi bien en mode de calage qu’en mode de validation.

Dans le cas de notre étude, les variables sont de nature physique différente, caractérisées par des unités différentes, ce qui nous amène à les normaliser afin de ramener la plage d’évolution des valeurs prises par les variables à l’intérieur d’un intervalle standardisé, fixé a priori. Elle est souhaitable car elle évite au système de se paramétrer sur une plage de valeurs particulières, ignorant ainsi les valeurs extrêmes. Pour notre cas, nous avons normalisé les données en utilisant la formule suivante :

avec :

x_{n, i, k}: la valeur normalisée de la variable k pour l’individu i

m_k: la moyenne de la variable k

σ_k: l’écart type de la variable k.

Une analyse en composantes principales (ACP) a été appliquée afin de déceler l’apport de chaque variable d’entrée (variable descriptive caractérisant l’eau brute) dans l’explication du phénomène étudié afin d’optimiser le nombre pertinent d’entrées pour les modèles appliqués, et de mettre en évidence d’éventuelles influences d’une variable descriptive sur le phénomène.

4.1 L’analyse en composante principale ACP

L’analyse en composantes principales (ACP) est une technique descriptive permettant d’étudier les relations qui existent entre les variables, sans tenir compte, a priori, d’une quelconque structure (JOLLIFE, 1986). L’objectif de l’ACP est de fournir des résumés linéaires des variables d’origine, c’est-à-dire de remplacer les variables initiales par des combinaisons linéaires de celles-ci. Ces nouvelles variables sont appelées composantes principales. Les résultats intéressants issus de l’application d’une ACP sont les coefficients de corrélation des variables initiales, associés à chaque composante principale, la matrice des vecteurs propres ainsi que les valeurs propres associés. Notons que chaque composante principale est représentative d’une portion de la variance des mesures du processus étudié. Les valeurs propres sont les mesures de cette variance et peuvent donc être utilisées dans la sélection du nombre de composantes principales à retenir. De nombreux travaux de recherche ont proposé d’utiliser l’analyse en composantes principales comme outil de modélisation des processus complexes à partir de laquelle un modèle peut être obtenu. Récemment SOUAG et al. (2007) ont proposé un modèle de simulation des débits mensuels en zone semi-aride basé sur l’analyse en composantes principales.

L’analyse en composantes principales (ACP) nous a permis d’obtenir une vue d’ensemble sur les données, à savoir de déterminer s’il existe des sous-populations d’individus et comment sont reliées les variables prises simultanément. Nous conservons, pour la suite de l’analyse, les composantes principales qui représentent 90 % de la variance totale. Chaque composante principale est représentée par un axe factoriel; les variables fortement corrélées avec un de ces axes contribuent à la définition de cet axe. Cette corrélation correspond à la coordonnée de la variable sur l’axe factoriel correspondant. Pour l’interprétation, les variables qui nous intéressent sont celles présentant les plus fortes coordonnées en valeurs absolues (saporta, 1990).

Le processus d’extraction des composantes principales se poursuit jusqu’à ce qu’il y ait autant de composantes principales que de variables. Les statistiques intéressantes issues d’une ACP sont les vecteurs de pondération des variables, associés à chaque composante principale (Tableau 2), et leur variance, λi (Tableau 2). Le portrait des pondérations des variables originelles sert à interpréter chaque composante principale alors que la variance associée indique quel pourcentage de la variance totale de l’ensemble des variables originelles chaque composante principale représente. À la lumière des résultats obtenus, on remarque qu’il est indispensable de tenir compte des cinq premières composantes principales, pour avoir 90 % de la variance totale.

Tableau 2

**Résultats de l'application de l'analyse en composantes principales.**

**Results of the principal components analysis.**

5. Résultats et discussion

5.1 Description des résultats obtenus avec l’ACP

La première valeur propre (λ1 = 2,627) représente la variance expliquée par la première composante principale (CP1). Elle correspond à 37,52 % de la variance totale (Tableau 2), et se trouve donc être l’axe prédominant. Il est expliqué par les variables pH, TU et TE. Il existe une forte corrélation entre ces variables et la première composante principale. Nous tiendrons compte par la suite de cette observation pour éviter la redondance d’information. La composante principale CP2 a la deuxième plus grande valeur propre (λ2 = 1,427). Elle représente 20,38 % de la variance totale et est construite autour de la variable OD avec un coefficient de corrélation de 0,53 en valeur absolue. Les deux composantes CP1 et CP2 expliquent 57,90 % de la variance totale. La troisième composante principale représente 15,58 % de la variance totale avec une valeur propre de (λ3 = 1,091) et est construite autour de la variable CE avec un coefficient de corrélation de 0,65 en valeur absolue. Les trois composantes CP1, CP2 et CP3 expliquent 73,48 % de la variance totale.

Étant donné que l’analyse en composantes principales n’a pas permis de réduire significativement le nombre de variables d’origine, par un plus petit nombre, une tentative de comparaison entre différentes combinaisons des variables d’entrée a été conduite. Plusieurs modèles ont été testés. Nous avons élaboré cinq variantes de modèles (Tableau 3), à savoir la variante V2 à deux variables d’entrée (15 modèles), V3 à trois variables d’entrée (18 modèles), V4 à quatre variables d’entrée (13 modèles), V5 à cinq variables d’entrée (6 modèles) et la variante V6 à six variables d’entrée (1 modèle). En totalité, 53 modèles représentant cinq variantes ont été testés et le meilleur modèle de chaque variante a été retenu (Tableau 3), à savoir le modèle M2 utilisant TE et CE; le modèle M3 avec TE , CE et pH; le modèle M4 avec TE , CE, pH et TU; le modèle M5 avec TE , CE, pH , TU et OD et le modèle M6 avec TE , CE, pH , TU, OD et l’absorbance à 254 nm (UV₂₅₄) comme entrées. Pour les cinq modèles cités, la dose de coagulant représente la sortie du modèle.

Tableau 3

**Structures des modèles testés.**

**Structures of the tested models**

5.2 Description des résultats obtenus avec le modèle ANFIS

Dans le but de mettre en évidence les avantages de l’approche de modélisation neuro floue proposée, une étude comparative a été effectuée en comparant les performances obtenues avec le modèle neuro flou ANFIS et celles obtenues en utilisant un modèle à base de réseaux de neurones artificiels, le perceptron multicouches (MLP) et un modèle à base de régression linéaire multiple (RLM), respectivement. Dans le cas des modèles neuro flous de type ANFIS, utilisés dans le présent travail, le nombre total de règles floues (Tableau 4) à optimiser sera déterminé par la règle suivante :

Tableau 4

**Nombre total de paramètres pour chaque modèle ANFIS testé.**

**Total number of parameters for each ANFIS model tested.**

avec : NRF représente le nombre de règles floues établies; NSF représente le nombre de valeurs linguistiques (étiquette) pour chaque variable d’entrée et NVE représente le nombre de variables d’entrée. Nous avons choisi trois valeurs linguistiques pour chaque variable d’entrée, chacune représentée par une fonction d’appartenance de type Gaussienne, et donnée par la formule suivante :

Une fonction d’appartenance Gaussienne peut être définie par deux paramètres : σ et c. Ces deux derniers constituent les paramètres des parties prémisses à optimiser pendant la phase d’apprentissage. On remarque immédiatement que le nombre de paramètres des parties prémisses à optimiser (Tableau 4) sera déterminé par la règle suivante :

avec : NPP représente le nombre de paramètres des parties prémisses.

Les paramètres des parties conclusions (conséquents) à optimiser de leur part sont déterminés par la règle suivante :

avec : NPC représente le nombre de paramètres des parties conclusions; NVS représente le nombre de variables de sortie (la dose de coagulant). Par ailleurs, il est à noter que plus le nombre de partitions en valeurs linguistiques augmente, plus le nombre de paramètres à optimiser augmente. Ainsi, le nombre total de paramètres à optimiser (NTP) est égal à la somme des paramètres des parties conclusions (NPC) et des parties prémisses (NPP).

5.3 Description des résultats obtenus avec le modèle MLP

Le deuxième type de modèle utilisé est à base de réseaux de neurones artificiels : Il s’agit du perceptron multicouche (MLP). Dans cette étude, nous avons utilisé une seule couche cachée avec une fonction d’activation sigmoïde, avec un nombre variable de neurones. Pour chaque modèle testé nous avons varié le nombre de neurones de 1 à 20, et la meilleure topologie pour chaque type de modèle a été retenue (Tableau 5). La couche de sortie contient un seul neurone avec une fonction de transfert linéaire. Mathématiquement, pour un MLP à trois couches, avec E le nombre de noeuds d’entrées, C le nombre de noeuds cachés et S le nombre de noeuds de sortie. Le nombre total de paramètres à optimiser (NTP) est déterminé par la règle suivante :

Tableau 5

**Nombre total de paramètres pour chaque modèle MLP testé.**

**Total number of parameters for each MLP model tested.**

5.4 Description des résultats obtenus avec la régression linéaire multiple

Pour le modèle à base de régression linéaire multiple, la formule de prédiction prend la forme générale représentée par l’équation 2. La construction du modèle dans ce cas se résume à la détermination des coefficients de régression partielle (Tableau 6).

Tableau 6

**Coefficients de régression pour les différents modèles testés.**

**Regression coefficients for each RLM model tested.**

5.5 Comparaisons et discussions des résultats obtenus par les différents modèles

Comme nous l’avons souligné dans le paragraphe 1, le processus de coagulation met en oeuvre des réactions fort complexes et non linéaires. L’objectif de notre travail est de concevoir un modèle de détermination de la dose de coagulant en tenant compte d’un nombre important de paramètres. Dans cette perspective, les réseaux de neurones et les systèmes neuro flous semble constituer une voie de recherche intéressante. Nous avons essayé de trouver un rapport adéquat entre toutes les (ou quelques-unes) variables d’entrée du modèle. Pendant toutes les phases de calcul, nous nous sommes intéressés à la comparaison des graphiques issus de la validation et du calage des différents modèles testés, ainsi qu’à la comparaison des critères numériques calculés. Pour le modèle ANFIS, nous avons utilisé trois valeurs linguistiques (étiquette) pour chaque variable d’entrée, alors que pour le modèle MLP nous avons varié le nombre de neurones dans l’unique couche cachée de 1 à 20 comme nous l’avons souligné dans le paragraphe 5.3. Après chaque essai, on compare la sortie obtenue et la sortie désirée, on corrige les poids de façon à minimiser l’erreur commise.

Nous avons procédé à une comparaison entre les résultats obtenus par les cinq modèles retenus (Tableaux 7 et 8) en mode de calage autant qu’en mode de validation, à savoir les modèles M2, M3, M4, M5 ainsi que le modèle M6 à six entrées qui incluent les six variables descriptives caractérisant l’eau brute. On remarque d’après les tableaux 7 et 8 que les résultats obtenus par la régression linéaire multiple (RLM) sont très médiocres, que ce soit en mode de calage ou en mode de validation; quel que soit le nombre de variables d’entrée utilisées, le coefficient de détermination ne dépasse pas 0,36, tandis que le RMSE avoisine les 8,15 en mode de validation pour le modèle M6 à six entrées, qui représente le meilleur modèle à base de régression linéaire multiple (RLM) (Figure 4). On remarque, d’autre part, que pour les deux modèles M2 et M3, le modèle à base de régression linéaire multiple (RLM) présente des résultats meilleurs par rapport à ceux obtenus par le modèle MLP en mode de validation, avec un coefficient de détermination de l’ordre de 0,25 et une RMSE de 8,26 pour le modèle M3, alors que pour le modèle MLP, on enregistre un coefficient de détermination de l’ordre de 0,17 et un RMSE de 9,76 pour le même modèle M3. Cela reflète clairement la complexité du phénomène étudié, d’une part, et, d’autre part, ces deux modèles ne reflètent pas la réalité physique du processus de coagulation étudié. Nous verrons par la suite que ces deux modèles seront exclus et qu’il est indispensable d’intégrer plus de variables en entrée des modèles pour bien démontrer la forte non-linéarité de la relation dose de coagulant en fonction des variables descriptives de l’eau brute.

Tableau 7

**Résultats des modèles en période de calage.**

**Model results during the calibration phase.**

Tableau 8

**Résultats des modèles en période de validation.**

**Model results during the validation phase.**

Figure 4

**Comparaison des valeurs observées et calculées pour le modèle RLM, (a) calage, (b) validation.**

**Scatterplots for calculated versus observed values for the RLM model for (a) training, (b) validation.**

Pour les modèles MLP et ANFIS (Tableaux 7 et 8), les résultats obtenus sont nettement meilleurs par rapport à ceux obtenus par la régression linéaire multiple (RLM), pour les modèles M4, M5 et M6. Nous remarquons que le coefficient de détermination R² ne dépasse pas 0,35, que ce soit en mode de calage ou en mode de validation, pour les modèles à base de régression linéaire multiple. À partir du modèle M4 qui fait appel à quatre variables descriptives, nous remarquons une nette amélioration des performances. Cependant le modèle ANFIS donne des résultats meilleurs que le modèle MLP. R² atteint 0,72 aussi bien en mode de calage qu’en mode de validation, tandis que pour le modèle MLP, il est de l’ordre de 0,64 en mode de calage et 0,60 en mode de validation.

Les meilleurs résultats de notre de recherche sont obtenus par le modèle M6 qui inclut les six variables descriptives. Le modèle ANFIS (Figure 5) est plus performant que le modèle MLP (Figure 6). Cela est surtout dû à la capacité des modèles flous à simuler les phénomènes fort complexes et non linéaires. Nous remarquons que le coefficient de détermination R² atteint 0,95 pour une RMSE de 1,89 en mode de calage alors qu’il est de l’ordre de 0,92 pour une RMSE de 2,11 en mode de validation (Tableaux 7 et 8), alors que le MLP donne un coefficient de détermination égal à 0,8 en mode de calage et 0,75 en mode de validation. Le réseau de neurones dans ce cas se compose de 13 neurones cachés avec un nombre de paramètres égal à 105 (Tableau 5).

Figure 5

**Comparaison des valeurs observées et calculées pour le modèle ANFIS, (a) calage, (b) validation.**

**Scatterplots for calculated versus observed values for the ANFIS model for (a) training, (b) validation.**

Figure 6

**Comparaison des valeurs observées et calculées pour le modèle MLP, (a) calage, (b) validation.**

**Scatterplots for calculated versus observed values for the MLP model for (a) training, (b) validation.**

À la lumière des résultats obtenus, on peut conclure que le modèle ANFIS qui inclut les six variables descriptives (M6), à savoir (la température, le PH, la conductivité, l’oxygène dissous, l’absorbance à 254 et la turbidité), est le modèle final retenu dans le cadre de ce travail. L’importance du modèle neuro flou ANFIS réside dans sa capacité à simuler des processus complexes et non linéaires en tenant compte d’un nombre important de paramètres. Il est important de rappeler que le modèle retenu se compose de plus de 5 139 paramètres avec plus de 729 règles floues (Tableau 6).

6. Conclusion

Le fruit du présent article s’est concrétisé par une contribution à la modélisation neuro floue que nous introduisons pour la première fois dans la gestion de la station de traitement des eaux de Boudouaou, considérée comme la plus importante station en Algérie. La connaissance de la variation de la qualité des eaux au niveau de cette station est importante pour comprendre et mieux interpréter le comportement des différentes composantes du processus mis en jeu.

Afin d’établir un modèle mathématique de prédiction de la dose du coagulant, nous avons proposé une comparaison entre deux modèles basés sur le concept neuronal, l’un utilisant une structure neuronale propre qui est le perceptron multicouche (MLP), et le deuxième un modèle neuro flou qui combine un système d’inférence flou dans un réseau de neurones (ANFIS), et un troisième modèle à base de régression linéaire multiple (RLM).

Les résultats obtenus par la régression linéaire multiple sont loin d’être acceptables et il est exclu d’aborder ce type de problème par une approche linéaire. Les résultats obtenus par le modèle ANFIS sont plus performants par rapport à ceux trouvés par le réseau de neurones. Les performances numériques sont plus appréciables pour le modèle utilisant six variables descriptives. Cela confirme la complexité du processus et la forte non-linéarité de la relation entre la dose du coagulant et les différentes variables descriptives.

Résumé

Abstract

1. Introduction