La droite de régression : la méthode des moindres carrés - Maxicours

La droite de régression : la méthode des moindres carrés

Objectifs
  • Calculer et interpréter un coefficient de corrélation.
  • Déterminer une droite de régression par la méthode des moindres carrés.
  • Effectuer un ajustement se ramenant, par changement de variable, à un ajustement affine.
  • Dans le cadre d’une résolution de problème, utiliser un ajustement pour interpoler ou extrapoler.
Points clés
  • Soit une série statistique à deux variables x et y. Pour savoir si un ajustement affine est envisageable, on peut utiliser le coefficient de corrélation linéaire de la série, noté r, avec r = σx et σy sont les écarts-types respectifs des séries x et y, et σxy la covariance des séries x et y.
  • r est un nombre compris entre 1 et 1. Plus il est proche de ces deux valeurs, plus l’ajustement affine est pertinent. En revanche, plus il est proche de 0, moins il l’est. De plus, si r est très proche de 1, la droite d’ajustement affine est croissante, et si r est très proche de 1, elle est décroissante.
  • Pour déterminer l'équation de la droite d'ajustement d'un nuage de points donné, on peut utiliser une méthode basée sur la minimisation des carrés des écarts entre les points du nuage et des points de la droite d'ajustement. La méthode des moindres carrés consiste à déterminer la droite dite « de régression de y en x » qui rend minimale la somme .
    Les coefficients a et b de l’équation de cette droite sont définis par a =  et , où σx est l’écart-type de la série x, et σxy la covariance des séries x et y.
Pour bien comprendre
  • Représenter un nuage de points.
  • Calculer les coordonnées d’un point moyen.
  • Connaitre les fonctions polynôme, exponentielle et logarithme.
1. Rappels : nuage de points et ajustement affine
On considère les points du nuage associés à une série statistique double.
Lorsque ces points sont sensiblement alignés, on peut construire une droite passant « au plus près de ces points ». On dit alors que cette droite réalise un ajustement affine du nuage de points de la série statistique double.
Exemple
Les points du nuage représenté ci-dessous sont presque alignés.
Remarque
Se référer à la fiche « Point moyen et droite d’ajustement » pour plus de précisions.
2. Coefficient de corrélation linéaire
Soit une série statistique à deux variables x et y. Pour savoir si un ajustement affine est envisageable, on peut utiliser le coefficient de corrélation linéaire de la série, noté r, avec r = σx et σy sont les écarts-types respectifs des séries x et y, et σxy la covariance des séries x et y.

r est un nombre compris entre 1 et 1. Plus il est proche de ces deux valeurs, plus l’ajustement affine est pertinent. En revanche, plus il est proche de 0, moins il l’est.

De plus, si r est très proche de 1, la droite d’ajustement affine est croissante et si r est très proche de 1, elle est décroissante.

Remarque
On peut utiliser la calculatrice pour calculer le coefficient de corrélation linéaire.
Exemple
On considère la série statistique suivante.
xi 100 110 120 130 140 150 160
yi 105 95 75 68 53 46 31

Sur la calculatrice (ici, la TI-83 Premium CE) :

  1. Entrer dans le menu Stats.
  2. Entrer les deux listes de données dans l'éditeur de listes.
  3. Revenir dans le menu Stats et sélectionner CALC puis 4:RégLin(ax+b).
  4. Compléter l’écran, puis valider Calculer.
  5. L’écran suivant s’affiche et on peut lire la valeur de r.
Ici, le coefficient de corrélation r  –0,994 : il est très proche de –1, ce qui signifie que l’ajustement linéaire est pertinent.
Remarque
Avec la calculatrice Casio Graph 90+E, on utilise le menu Statistique, puis on entre les valeurs de la série dans les colonnes List1 et List2. Après avoir vérifié les réglages, on appuie sur REG, puis F1 X puis F1 pour obtenir le coefficient de corrélation linéaire.
3. La méthode « des moindres carrés »

Pour déterminer l'équation de la droite d'ajustement d'un nuage de points donné, on préférera utiliser une méthode basée sur la minimisation des carrés des écarts entre les points du nuage et des points de la droite d'ajustement.

La méthode des moindres carrés consiste à déterminer la droite dite « de régression de y en x » qui rend minimale la somme : .
Remarque
Dans la pratique, on détermine cette droite de régression de y en x, d'équation y = ax + b, à l'aide de la calculatrice.
Propriété
Les coefficients a et b de l’équation de cette droite sont définis par a =  et b = , où σx est l’écart-type de la série x, et σxy la covariance des séries x et y.
Remarque importante
Par définition, la droite de régression de y en x du nuage passe toujours par le point moyen du nuage de la série.
Exemple
On considère la série statistique de l'exemple précédent.
xi 100 110 120 130 140 150 160
yi 105 95 75 68 53 46 31

Avec les mêmes manipulations sur la calculatrice (ici, la TI-83 Premium CE), on a obtenu l’écran suivant.

En plus du coefficient de corrélation, on obtient directement sur cet écran les coefficients a et b, ce qui donne pour équation de la droite de régression y = –1,221x + 226,357 en arrondissant au millième.
Remarque
On pourrait aussi trouver ces coefficients par le calcul.
À titre d'exemple, ici on a :

 

 

 

Alors .

4. Changement de variable et régression linéaire

Parfois, le nuage de points obtenu à partir d’une série statistique à deux variables peut ne pas avoir l’allure d’une fonction affine et ne peut donc pas être ajusté par une droite de régression. En revanche, il peut avoir l’allure d’une fonction polynôme, d’une fonction exponentielle ou encore d’une fonction logarithme.
On procède dans ce cas à un changement de variable z = f (y), amenant à une nouvelle série à deux variables pouvant être ajustée par une droite de régression avant de revenir à la variable initiale.

Exemple
Soit la série statistique suivante.
x 40 60 80 100 120 140 160
y 2,1 2,4 2,9 3,5 4,3 5,3 6,5
Et son nuage de points associé :

Ces points ne semblent pas être à peu près alignés. Si on effectue le changement de variable z = , on obtient une nouvelle série :
x 40 60 80 100 120 140 160
z =  0,316 0,632 0,949 1,225 1,517 1,817 2,121

Et son nuage de points :

Cette fois, les points semblent alignés et un ajustement affine parait pertinent. En utilisant la calculatrice, on obtient :

L’équation de la droite de régression est donc z = 0,015 x – 0,266 (arrondi au millième).
Et comme z = , alors y = (0,015 x – 0,266)2 + 2.

Vous avez déjà mis une note à ce cours.

Découvrez les autres cours offerts par Maxicours !

Découvrez Maxicours

Comment as-tu trouvé ce cours ?

Évalue ce cours !

 

quote blanc icon

Découvrez Maxicours

Exerce toi en t’abonnant

Fiches de cours les plus recherchées

Mathématiques complémentaires

Les variables non numériques - Terminale

Mathématiques complémentaires

L'instruction if - spé maths complémentaires

Mathématiques complémentaires

La boucle while - spé maths complémentaires

Mathématiques complémentaires

Les calculs - Terminale

Mathématiques complémentaires

Les fonctions simples - Terminale

Mathématiques complémentaires

Les fonctions complexes - Terminale

Mathématiques complémentaires

Les expériences aléatoires

Des profs en ligne

  • 6j/7 de 17 h à 20 h
  • Par chat, audio, vidéo
  • Sur les matières principales

Des ressources riches

  • Fiches, vidéos de cours
  • Exercices & corrigés
  • Modules de révisions Bac et Brevet

Des outils ludiques

  • Coach virtuel
  • Quiz interactifs
  • Planning de révision

Des tableaux de bord

  • Suivi de la progression
  • Score d’assiduité
  • Un compte Parent

Inscrivez-vous à notre newsletter !

Votre adresse e-mail sera exclusivement utilisée pour vous envoyer notre newsletter. Vous pourrez vous désinscrire à tout moment, à travers le lien de désinscription présent dans chaque newsletter. En savoir plus sur notre politique de confidentialité