Différences entre corrélation et régression


La corrélation et la régression sont des outils statistiques qui traitent de deux variables ou plus. Bien que les deux portent sur le même sujet, il existe des différences entre les deux. Les différences entre les deux sont expliquées ci-dessous.

Signification



Le terme corrélation par rapport à deux variables ou plus signifie que les variables sont liées d'une manière ou d'une autre. L'analyse de corrélation détermine s'il existe une relation entre deux variables et la force de cette relation. Si deux variables x (indépendantes) et y (dépendantes) sont tellement liées que la variation de l'amplitude de la variable indépendante s'accompagne d'une variation de l'amplitude de la variable dépendante, les deux variables sont dites corrélées.

La corrélation peut être linéaire ou non linéaire. Une corrélation linéaire est une corrélation où les variables sont tellement liées que la variation de la valeur d'une variable entraînerait une variation constante de la valeur de l'autre variable. Dans une corrélation linéaire, les points dispersés liés aux valeurs respectives des variables dépendantes et indépendantes se regrouperaient autour d'une droite non horizontale, bien qu'une droite horizontale indiquerait également une relation linéaire entre les variables si une droite pouvait relier les points représentant les variables.

L'analyse de régression, par contre, utilise les données existantes pour déterminer une relation mathématique entre les variables qui peut être utilisée pour déterminer la valeur de la variable dépendante par rapport à toute valeur de la variable indépendante.

Orientation statistique



La corrélation concerne la mesure de la force de l'association ou de l'intensité de la relation, alors que la régression concerne la prédiction de la valeur de la variable dépendante par rapport à une valeur connue de la variable indépendante. Ceci peut s'expliquer par les formules suivantes.

Le coefficient de corrélation ou la corrélation de coefficient (r) entre x &amp ; y est trouvé avec la formule suivante ;

r = covariance(x,y)/σx.σy, cov(x,y) = Σxy/n - (Σx/n)(Σy/n)(Σy/n), σx  &amp ; σy sont des écarts types de x et y respectivement, et, -1 </ i&gt ; r <&lt ; r &lt ; +1. Le coefficient de corrélation r est indépendant du choix de l'origine et de l'échelle d'observation. Thud si u = (x-c)/d, et, v = (y-c′)/d′, où c, c′, d, d′ sont des constantes arbitraires, et d, d′ &gt ; 0, alors coefficient de corrélation entre x et y = coefficient de corrélation entre u et v.

Le coefficient de corrélation r est un nombre pur et indépendant de l'unité de mesure. Ainsi, si x est la taille (pouces) et y est le poids (lb) des personnes d'une certaine région, alors r n'est ni en pouces ni en lb, mais simplement un nombre.

L'équation de régression est trouvée avec la formule suivante ;

L'équation de régression de y sur x (pour connaître l'estimation de y) est y - y′ = byx(x-x‾), byx est appelé coefficient de régression de y sur x. L'équation de régression de x sur y (pour connaître l'estimation de x) est x - x′ = bxy(y-y‾), bxy est appelé coefficient de régression de x sur y.

L'analyse de corrélation ne suppose pas la dépendance d'une variable par rapport à une autre variable et ne cherche pas non plus à déterminer la relation entre les deux. Il estime simplement le degré d'association entre les variables. En d'autres termes, l'analyse de corrélation teste l'interdépendance des variables. L'analyse de régression, en revanche, décrit la dépendance de la variable dépendante ou de la variable réponse par rapport à la ou aux variables indépendantes ou explicatives. L'analyse de régression suppose qu'il existe une relation causale unidirectionnelle entre les variables explicatives et les variables de réponse, et ne tient pas compte du fait que cette relation causale est positive ou négative. Pour la corrélation, les valeurs des variables dépendantes et indépendantes sont aléatoires, mais pour la régression, les valeurs des variables indépendantes ne doivent pas nécessairement être aléatoires.

Les idées Clis



1. L'analyse de corrélation est un test d'interdépendance entre deux variables. L'analyse de régression donne une formule mathématique pour déterminer la valeur de la variable dépendante par rapport à une valeur de la ou des variables indépendantes.

2. Le coefficient de corrélation est indépendant du choix de l'origine et de l'échelle, mais le coefficient de régression ne l'est pas.

Pour la corrélation, les valeurs des deux variables doivent être aléatoires, mais ce n'est pas le cas pour le coefficient de régression.

Bibliographie



1. Das, N. G., (1998), Statistical Methods, Calcutta

2. Correlation &amp ; Regression, disponible sur www.le.ac.uk/bl/gat/virtualfc/stats/regression

3. Regression &amp ; Correlation, disponible sur www.abyss.uoregon.edu


Une question ? Nous avons oublié quelque chose ? n'hésitez pas à participer aux commentaires. Nous compléterons cet article avec plaisir.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *