ethanol

Mathématiques

Régression linéaire

1. Introduction

Nous allons vous montrer comment trouver l'équation d'une droite qui représente au mieux l'orientation et la position d'un nuage de points. Cette réprésentation s'appelle une régression linéaire.
Chaque fois que nous essayons de modéliser mathématiquement un phénomène qu'il soit physique ou économique, nous commençons par récupérer des données. Pour un électricien, c'est par exemple réaliser un ensemble de mesures de tension et de courant. Pour un commercial c'est peut être de noter le nombre vendu par mois d'un certain article.
Ces données qui sont plus ou moins entachées d'erreurs (erreur de mesure, erreur dans le comptage, ...) forment lorsqu'elles sont représentées graphiquement, un nuage de points.
Nous ne traiterons dans cette partie que les nuages de points donc la tendance représente une droite. Il existe bien sur d'autres méthode pour approximer par exemple des courbes, mais ce ne sera pas le sujet ici.

2. Principe de calcul d'une régression linéaire

Nous allons décrire ici la méthode utilisée de façon pratique, en nous appuyant sur un exemple simple. Vous pourrez ensuite réutiliser cette méthode sur des nuages représentant un nombre de points plus important.
Commençons en proposant ce petit tableau de points qui représente 3 couples (xi, yi) :

xi 3 9 12
yi 3 4 8

Calculons la moyenne des valeurs xi, et des valeurs yi que nous noterons respectivements E(X), et E(Y).
Il est d'usage d'utiliser la lettre E pour désigner l'espérance (la moyenne) d'une variable.
La formule générale que nous allons utiliser dans le cas d'un groupe de n points non pondéré (une valeur n'a pas plus d'importance qu'une autre), est :

Avec les valeurs du tableau, nous obtenons alors (ici n = 3) :

• E(X) = (x1 + x2 + x3) / 3 = (3 + 9 + 12) / 3 = 24 / 3 = 8
• E(Y) = (y1 + y2 + y3) / 3 = (3 + 4 + 8) / 3 = 15 / 3 = 5

Comme vous pouviez vous en douter, le point particulier représenté par le couple (E(X), E(Y)) est le centre de gravité de ce nuage de points. C'est par ce point que passera notre droite.

Le calcul du coefficient directeur de notre droite est un peu plus complexe.
Nous allons avoir besoin de la covariance du couple (X, Y). La formule que nous utilisons est la suivante :

Effectuons le calcul de cette covariance (avec toujours n = 3) :

Cov(X, Y) = [(x1-E(X)(y1-E(Y)) + (x2-E(X)(y2-E(Y)) + (x3-E(X)(y3-E(Y))] / 3
               = [(3 - 8)(3 - 5) + (9 - 8)(4 - 5) + (12 - 8)(8 - 5)] / 3
               = 7

Il nous faut également calculer la variance de X avec cette formule :

Voici le calcul de cette variance concernant notre exemple :

Var(X) = E(X2) - E(X)2 = (32 + 92 + 122) / 3 -82
          = 14

Rassurez vous, nous arrivons maintenant à la fin de cette démonstration car les paramètres de la droite d'équation :
y = ax + b
s'obtiennent directement des résultats précédents avec ces deux relations :

Calculons ces deux valeurs :

• a = Cov(X, Y) / Var(X) = 7 / 14 = 0.5
• b = E(Y) - a × E(X) = 5 - 0.5 × 8 = 1

Observons maintenant le résultat de notre travail avec en rouge la droite d'équation y = 0.5x + 1


Voici un exemple de calcul automatisé de régression linéaire utilisant un tableur "OpenOffice". Le tableau comporte 7 points.