You are on page 1of 13

SESIN 11

Coeficiente de Correlacin de Pearson. Definicin. Diagrama de dispersin.


Coeficiente de determinacin. Regresin lineal simple.
Anlisis de Regresin Lineal

1. INTRODUCCIN:

En el anlisis de un fenmeno aleatorio es usual encontrar que en su comportamiento


influyen otros factores; as por ejemplo, cuando se estudia el consumo de los clientes
de una empresa comercializadora se observa que: el nivel de ingresos de los clientes,
la calidad de los artculos, los precios de los artculos, etc. Son algunos de los factores
que influyen en los gastos de los clientes. En el anlisis de este y otros fenmenos
aleatorios puede ser necesario estudiar las relaciones existentes entre las variables o
factores involucrados.

El estudio de las relaciones entre dos o ms variables se puede llevar a cabo desde dos
puntos de vista. Primero, a travs del estudio del grado de asociacin existente entre
las variables y segundo a travs del estudio de la relacin funcional existente entre las
variables. El primer caso es estudiado mediante el anlisis de correlacin mientras que
el segundo mediante el anlisis de regresin.

2. COEFICIENTE DE CORRELACIN:

Llamado tambin coeficiente de correlacin de Pearson (o coeficiente de correlacin del


producto-momento), se representa por r es el estudio del grado de asociacin
existente entre dos variables en cada elemento de una muestra aleatoria lo que se trata
es de averiguar si el comportamiento de una variable est asociado al comportamiento
de la otra variable, y si tal asociacin existe, saber si es o no significativa.
Esta relacin que es analizada puede estar dada de una manera lineal, el cual nos dice
que los datos se ajustaran a una lnea recta o tambin estara de una forma no lineal.
Es decir dos variables pueden estar perfectamente relacionadas, pero si la relacin no
es lineal, el coeficiente de correlacin de Pearson no ser un estadstico adecuado para
medir su asociacin.
Si la relacin que se busca es solamente entre dos variables, recibe el nombre
de correlacin simple o bivariada.
Si el nmero de variables se incrementa se le conoce como correlacin
mltiple.
Ejemplos:
Nmero de horas de estudio y las calificaciones
Precio de un producto y cantidad demandada del mismo.

En el caso de que se est estudiando dos variables aleatorias x e y sobre una poblacin
estadstica; el coeficiente de correlacin de Pearson se simboliza con la letra ,
siendo la expresin que nos permite calcularlo:

EN UNA POBLACIN :

N XY ( X )(Y )

N Y (Y ) N X ( X )
2 2 2 2
EN UNA MUESTRA:

n XY ( X )( Y )
r
n Y 2 ( Y ) 2 n X 2 ( X ) 2
El rango (intervalo de variacin) de r, es:
-1 < < 1

-1 0 1
Correlacin lineal No hay relacin Correlacin lineal
negativa lineal positiva

Escalas de correlacin

El valor del ndice de correlacin vara en el intervalo [-1,1]

Valor del Coeficiente de Pearson Grado de Correlacin entre las variables

Menor de 0,4 Correlacin positiva mala

0,4 a 0,69 Correlacin positiva regular

0,7 a 1 Correlacin positiva buena

-1 a -0.7 Correlacin negativa buena


-0.69 a -0,4 Correlacin negativa regular
Mayor de -0,4 Correlacin negativa mala
INTERPRETACIN

Si r = 1, existe una correlacin positiva perfecta. El ndice indica una dependencia


total entre las dos variables denominada relacin directa: cuando una de ellas
aumenta, la otra tambin lo hace en proporcin constante.
Si 0 < r < 1, existe una correlacin positiva.
Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica que las
variables son independientes: pueden existir todava relaciones no lineales entre
las dos variables.
Si -1 < r < 0, existe una correlacin negativa.
Si r = -1, existe una correlacin negativa perfecta. El ndice indica una
dependencia total entre las dos variables llamada relacin inversa: cuando una
de ellas aumenta, la otra disminuye en proporcin constante.

3. DIAGRAMA DE DISPERSION O Nube de puntos


Se denomina diagrama de dispersin o nube de puntos a la grafica de los
valores (xi, yi) de las variables X e Y en el sistema cartesiano. En el diagrama
de dispersin se visualiza si existe o no relacin acentuada entre dos
variables, asimismo que tipo de relacin es. (Lineal, parbola, exponencial,
etc.)

Los datos visualizan una relacin lineal positiva entre las variables X e Y

INGRESOS FAMILIARES VERSUS


4
GASTOS POR VIVIENDA
Gastos por vivienda (Miles US$)

0
0 5 10 15 20
Ingresos familiares (Miles de US$)
Los datos visualizan una relacin lineal negativa entre las variables X e Y

PRECIO DE CARNE VERSUS


PRODUCCIN DE RESES
30

25
Precio de carne (US$)

20

15

10

0
40 50 60 70 80 90 100
Millones de unidades producidas

Los datos visualizan una relacin no lineal entre las variables X e Y

20



15
Unidades


10

10 20 30 40

Pr ecios

Los datos no visualizan ninguna relacin entre las variables X e Y


10 .0 0

Ingreso

7.50

5.00

2.50

2.00 4.00 6.00 8.00

Se rvicio

4. Prueba de Hiptesis del Coeficiente de correlacin

La prueba de hiptesis del coeficiente de correlacin poblacional (: Rho letra


griega) se estima con r, el coeficiente de correlacin r puede verse como una
medida numrica de que tan bien un modelo lineal (lnea recta) representa los
puntos de un diagrama de dispersin

1) Hiptesis estadsticas.

La hiptesis nula afirmara que el coeficiente de correlacin es nulo, es decir,


que no existe una relacin lineal entre las dos variables y, en todo caso, la
relacin observada se debe al azar. Por el contrario, la hiptesis alternativa
supondra afirmar la existencia de una relacin entre X e Y. Por tanto:

H0 : 0

H1 : 0

2. Estadstico de contraste.

En el caso del coeficiente de correlacin de Pearson, el estadstico de contraste


utilizado es

n2
" t calculado" r
1 r2

3) Punto critico

Se fija un valor de y se calculan los valores crticos de la distribucin t de


Student con n-2 grados de libertad
Con esto quedan establecidos los intervalos de rechazo o aceptacin.

4) Decisin
Si el valor de cae en la regin de rechazo, se rechaza 0 tenindose
una correlacin lineal. Si por el contrario el valor de cae en la regin
de aceptacin, se rechaza 0 y no hay correlacin lineal.

Al interpretar los resultados, se debe evitar extraer conclusiones de causa-


efecto a partir de una correlacin significativa.

Ejemplo:

El gerente de ventas de la compaa Copiar Sales of Amrica empresa que tiene


una gran fuerza de ventas en todo Estados Unidos y Canad, desea determinar
si existe una relacin entre el nmero de llamadas telefnicas de ventas hechas
en un mes, y la cantidad de copiadoras vendidas durante ese lapso. El gerente
selecciona al azar una muestra de 10 representantes, y determina el nmero de
tales llamadas que hizo cada uno el mes anterior y la cantidad de productos
vendidos.
NUMERO DE
REPRESENTANTE NUMERO DE
COPIADORAS VENDIDAS
DE VENTAS LLAMADAS X Y
TOM KELLER 20 30
JEFF HALL 40 60
BRIAN VIROST 20 40
GREG FISH 30 60
SUSAN WELLCH 10 30
CARLOS RAMANIREZ 10 40
RICH NILES 20 40
MIKE KIEL 0 50
MARK REYNOLDS 20 30
SONI JONES 30 70
TOTAL 220 450

a) Realizar el diagrama de dispersin e interpretar.

Grfica de dispersin de copiadoras vendiadas vs. llamadas

70

60
copiadoras vendiadas

50

40

30

10 15 20 25 30 35 40
llamadas

Se visualiza que tiene una correlacin positiva

b) Averiguar si existe relacin entre las dos variables mencionadas.

X2 Y2 xy
NUMERO DE NUMERO DE
LLAMADAS COPIADORAS
(X) VENDIDAS (Y)
20 30 400 900 600
40 60 1600 3600 2400
20 40 400 1600 800
30 60 900 3600 1800
10 30 100 900 300
10 40 100 1600 400
20 40 400 1600 800
20 50 400 2500 1000
20 30 400 900 600
30 70 900 4900 2100

SUMA: 220 450 5600 22100 10800


Aplicando la frmula del coeficiente de correlacin:

10(10800)(220)(450)
= =0.759
[10(5600)(220)2 ][10(22100)(450)2 ]

Este valor esta entre 0 y 1, indica correlacin positiva entre el nmero de


llamadas y nmero de copiadoras vendidas. Ahora, para verificar si el valor
estimado realmente expresa una correlacin significativa entre dichas variables,
se debe realizar la siguiente prueba de hiptesis.

(1) Planteamiento de la hiptesis:


H0 : 0

H1 : 0
(2) Nivel de significacin: Sea = 0.05
(3) Prueba estadstica:
10 2
"t calculado" 0.759 3.2972
1 (0.759) 2

(4) Criterio de decisin:


Tenemos (0.975,8) = 17.53455

(5) Como el =3.2972< 17.53455; entonces, se rechaza H 0 : 0 y se


concluye para = 0.05, que las evidencias muestrales indica que existe
una correlacin significativa entre el nmero de llamadas y nmero de
copiadoras vendidas.
ANALISIS DE REGRESION

En todo problema de regresin, el objetivo es estimar y analizar una ecuacin o


modelo Y = f(X1; X2; ,Xp) que describa la relacin funcional existente entre una
variable en estudio Y, llamada variable dependiente, y un grupo de variables X1;
X2; ,Xp, llamadas variables independientes o explicativas. Es decir, lo que se
busca es encontrar un modelo que permita utilizar la informacin proporcionada
por las variables explicativas para describir adecuadamente el comportamiento
de la variable dependiente Y.

Tipos de anlisis de regresin:


Los diferentes anlisis sobre la relacin funcional existente entre un grupo de
variables pueden ser clasificados de la siguiente manera:
1. Segn el tipo de relacin funcional
a) Regresin Lineal: Cuando la relacin funcional entre la variable Y y
las dems variables X es analizada mediante un modelo del tipo lineal.
b) Regresin no lineal o curvilnea: Cuando la relacin funcional entre
la variable Y y las dems variables X es analizada mediante un modelo
no lineal.

2. Segn el nmero de variables independientes:


a) Regresin Simple: Cuando el anlisis se hace con una sola variable
independiente.

b) Regresin Mltiple: Cuando el anlisis se hace con varias variables


independientes.

REGRESIN LINEAL SIMPLE:

Definicin.- Relacin de dos variables a las cuales se ajusta a una lnea recta
Y = f(X)
Y = a+ bX

Entonces el modelo de regresin lineal simple que sirva para predecir el


comportamiento de Y usando X ser de la forma:
Y = a + bX+e

Donde:
Y = Variable dependiente
a = Constante, parmetro de posicin.
b = Pendiente de la recta, coeficiente de regresin
X = Variable independiente
e = Error aleatorio, el cual se supone que tiene media 0 y varianza constante 2.
a Constante o parmetro de posicin.
Es el valor promedio de la variable de respuesta Y cuando X es cero.
Si se tiene certeza de que la variable predictora X no puede asumir el
valor 0, entonces la interpretacin no tiene sentido.

b Coeficiente de regresin.
Es el cambio (incremento o disminucin segn el signo de b)
promedio en la variable de respuesta Y cuando X se incrementa en
una unidad.

NOTA.- El coeficiente de regresin b y el coeficiente de correlacin lineal


simple r deben de tener el mismo signo.

ESTIMACION DE PARAMETROS DE LA REGRESION

Para que dicha ecuacin est definida es necesario que se conozca a y b.


Dichos parmetros se calcula utilizando el mtodo de mnimos cuadrados.
El Mtodo de Mnimos cuadrados busca o fija los datos de la muestra o
poblacin a una lnea recta de modo que las diferencias de cada observacin a
la lnea de regresin sea lo menos posible.

Y
x

e3
x
e1
e2 x

e minimo
i 1
i , n = n de observaciones (tamao de la muestra)

Luego de minimizar cada valor de ei, se obtienen las frmulas de a y b.

n XY ( X )(Y )
b
n X 2 ( X ) 2

a Y bX

Donde:
a = Intercepto de la ecuacin de regresin con el eje Y
b = coeficiente de regresin.
Xi = valores de la variable independiente
Yi = valores de la variable dependiente
= Promedio de los valores de la variable independiente

= Promedio de los valores de la variable dependiente.

Si b > 0, entonces, la tendencia lineal es creciente, es decir a mayores


valores de X corresponden mayores valores de Y.
Si b < 0, entonces, la tendencia lineal es decreciente, es decir a mayores
valores de X corresponden menores valores de Y.
Si b = 0, entonces, Y = a; Y permanece estacionario para cualquier valor
de X.

Interpretacin de los coeficientes de la regresin

Y =a+bX
a: Es el valor promedio de la variable respuesta (y) cuando la variable
predictora (x) se mantiene constante.

b: Es el cambio del valor medio de la variable respuesta (y) por unidad de


cambio de (x).

El Coeficiente de Determinacin R2

Es una medida de la bondad de ajuste del modelo de regresin hallado. Indica


qu porcentaje de la variabilidad de la variable de respuesta Y es explicada por
su relacin lineal con X.

El valor estadstico de R2 vara de cero a uno.

Mtodo de calcularlo
Elevar al cuadrado el
coeficiente de correlacin

EJEMPLO ANTERIOR

R 2 (0.759) 2 0.576081 57.6081%


Interpretacin: El 57.61% dela variacin en el nmero de llamadas se explica por
la variacin de nmero de copiadoras vendidas

ERROR ESTANDAR DE ESTIMACION


El error estndar de estimacin llamado tambin desviacin estndar es una
medida de dispersin alrededor de una lnea de regresin.
Es una medida de dispersin de los valores observados, con respecto a la lnea
de regresin (valores estimados).
Entre el valor observado y el valor estimado Y* existe una diferencia o sesgo, que
puede ser menor o mayor en la medida que los n-puntos del diagrama de
dispersin estn ms o menos cerca de la lnea de regresin.

S
SCE
Y 2
a Y b XY
n2 n2

EJERCICIO
Analizar la relacin entre la edad y el tiempo efectivo de servicio de los
trabajadores, para el efecto se consider una muestra de 15 trabajadores:

Edad 48 40 30 39 46 42 27 36 34 46 32 42 40 32 27
Tiempo 24 18 9 14 22 22 4 13 10 20 12 18 16 8 6
de
Servicio

a) Hallar un modelo de regresin adecuado


b) Hallar el coeficiente de correlacin
c) Hallar el coeficiente de determinacin
d) Hallar el error estndar

You might also like