You are on page 1of 37

Tema 7: Regresin Simple y Mltiple

EJEMPLO:

"os dicen que la f#rmula

N prestamos = 25 + 0'3Das
Aproxima bien el nmero de prstamos que efecta una biblioteca a lo largo de su primer ao de ida!

$i damos alores a la ariable %&as 'n( d&as transcurridos desde la apertura de la biblioteca)

N prestamos = 25 + 0'3Das
+,*

"(prestamos

+** 0* /* .* ,* * * +** ,** -** .**

%&as

$i dos ariables 1 e 2 est3 relacionadas mediante una expresi#n del tipo 24a5b16 la gr3fica que relaciona los alores de 1 e 2 es una l&nea recta6 7 se dice que 24a5b1 es la ecuaci#n de dic8a recta9 el rec&proco es cierto6 es decir6 si la gr3fica que relaciona 1 e 2 es una recta6 entre ambas existe una relaci#n del tipo 24a5b1! En ese caso6 decimos que entre 1 e 2 8a7 una relaci#n de tipo lineal!

En la realidad6 no nos encontramos f#rmulas tan :redondas;6 pero s& nos encontramos fen#menos que pueden aproximarse por ellas!

EJEMPLO: $upongamos que una biblioteca proporcion# los siguientes datos6 a lo largo de su primer ao de ida

Das < ,* -< <* /< 0* =< ++* +-< +<* +/< +0* +=< ,+* ,-< ,<* ,/< ,0* ,=< -+*

N prestamos ,< -, .* -= .> <+ </ <. /= >, >/ >> 0/ =* =0 +*, +*< ++* +++,*

+,*

"( prestamos

+** 0* /* .* ,* * * +** ,** -** .**

%&as

AP?O1@MA%AME"AE6

N prestamos = 24,5529 + 0,301579*D as

En este caso6 dir&amos que las ariables "( prstamos 7 %&as est3n linealmente correlacionadas6 7 que lo de arriba es la ecuacin de la recta de regresin de "( prstamos sobre %&as!

BPara qu nos sir eC '+D para conocer le7es emp&ricas9 ',D para predecir el alor de una cierta ariable

P?OELEMA$: %adas dos ariables 1 e 26 continuas +!F GHorrelaci#nI BExiste una cierta relaci#n entre ellas6 o por el contrario son independientesC En el primer caso6 8ablamos de que entre 1 e 2 8a7 correlaci#n9 en el segundo6 decimos que son incorreladas ,!F GHorrelaci#n linealI $uponiendo que entre 1 e 2 8a7 correlaci#n6 Best3n linealmente correlacionadas6 es decir6 funciona suficientemente bien un modelo del tipo 2 4 a5b1 para predecir 2 a partir de 1C BHu3les son los :#ptimos; alores para a 7 b6 es decir6 los que producen :meJores; estiF macionesC -!F GOtros tipos de correlaci#nI BKa7 algn modelo meJor que el lineal que permita estimar 2 a partir de 1C Por eJemplo6 Huadr3tico: 24a5b15b1, Exponencial: 24a bx ) Otro eJemplo 'Le7es bibliomtricasD

Hur a log&stica del crecimiento de la informaci#n

+! %istribuciones bidimensionales! Horrelaci#n! Huando en una poblaci#n registramos simult3neamente los alores de dos ariables 1 e 26 decimos que estamos ante una distribuci#n E@%@ME"$@O"AL 'P@LA??A: distribuciones marginalesD

Los datos relati os a una distribuci#n bidimensional se pueden representar gr3ficamente mediante una "MEE %E PM"AO$6 o %@AN?AMA %E %@$PE?$@O" 'P@LA??AD

$i la nube de puntos se aJusta aproximadamente a una cur a6 diremos que las ariables est3n correlacionadas6 es decir6 que existe una cierta relaci#n entre ellas '7 buscaremos cu3l es la expresi#n6 la :f#rmula; que meJor aproxima una de ellas partir de la otraD9 en caso contrario6 decimos que las ariables son incorreladas6 es decir6 que no tienen relaci#n!

+,* +** 0* /* .* ,* * * +** ,** -** .**

Ka7 correlaci#n

+< +, = / * * +** ,** -** .**

@ncorreladas

Adem3s de la :inspecci#n; de la nube de puntos6 8a7 mtodos m3s exactos para e aluar la existencia o no de correlaci#n!

$i la nube de puntos parece aJustarse en torno a alguna cur a 'es decir6 si 8a7 correlaci#nD6 la forma de dic8a cur a nos indica el tipo de correlaci#n! $i la nube de puntos parece agruparse en torno a una recta6 diremos que 8a7 correlaci#n lineal6 o que las ariables est3n linealmente correlacionadas!

+,* +** 0* /* .* ,* * * +** ,** -** .**

$i las ariables est3n linealmente correlacionadas6 entonces tiene sentido buscar la recta que :meJor se aJusta; a la nube de puntos6 es decir6 la recta que globalmente est3 m3s cerca del conJunto de puntos! $i nuestra intenci#n al 8acer eso es la de estimar 2 a partir de 16 entonces encontrar dic8a recta es equi alente a encontrar la meJor aproximaci#n

24a5b1

'?EHAA %E ?EN?E$@O" %E 2 $OE?E 1D

BH#mo tomar a6 b para que la aproximaci#n sea :#ptima;C

,! ?egresi#n lineal sobre un conJunto de puntos! P?OELEMA +: %ada una distribuci#n bidimensional '162D6 determinar si las ariables 1 e 2 est3n o no linealmente correlacionadas6 7 la fuerOa de dic8a correlaci#n lineal! P?OELEMA ,: $uponiendo que 1 e 2 est3n linealmente correlacionadas6 determinar la recta de regresi#n de 2 sobre 16 es decir6 a 7 b de modo que6 aproximadamente6 24a 5 b1!

P?OELEMA +: %ada una distribuci#n bidimensional '162D6 determinar si las ariables 1 e 2 est3n o no linealmente correlacionadas6 7 la fuerOa de dic8a correlaci#n lineal!

F "ube de puntos! F Hoeficiente de correlaci#n lineal de Pearson! 'P@LA??AD F Hoeficiente de correlaci#n lineal de $pearman! F Hoeficiente de determinaci#n # ?Fcuadrado # P de ariabilidad explicada!

P?OELEMA ,: $uponiendo que 1 e 2 est3n linealmente correlacionadas6 determinar la recta de regresi#n de 2 sobre 16 es decir6 a 7 b de modo que6 aproximadamente6 24a 5 b1!

Y = a + bX
'Ecuaci#n recta de regresi#n de 2 sobre 1D Honocida la recta de regresi#n6 podemos estimar los alores de 2 correspondientes a distintos alores de 1!

i = a + bxi y
Qalor predic8o6 o estimado

+,* +** 0* /* .* ,* * * +** ,** -** .**

y i : alor real

+,* +** 0* /* .* ,* * * +** ,** -** .**

i y

Qalor predic8o:

i = a + bxi y

+,* +** 0* /* .* ,* * * +** ,** -** .**

?esiduo: diferencia entre el alor real 7 el alor predic8o

i y

Qalor predic8o:

i = a + bxi y

?Fcuadrado # Hoeficiente de %eterminaci#n # P de ariabilidad explicada) 'P@LA??AD

Statgraphics

-! El modelo de regresi#n lineal! $abemos decidir si6 aproximadamente6 un conJunto 'xi67iD de puntos 'datosD se aJusta o no a 24a5b1! Pero6 teniendo en cuenta que esos datos son una MME$A?A de una poblaci#n)

B$@NME $@E"%O :AP?O1@MA%AME"AE; QAL@%O 24a5b1 cuando tomamos "O una muestra 'xi67iD6 sino cuando consideramos AO%A LA POELAH@O"C BRu queremos decir por :aproximadamente;C

Modelo de regresi#n lineal:

%ecimos que dos ariables 'poblacionalesSD est3n linealmente correlacionadas6 si:

+!

y i = a + bxi + i
residuo 2: ariable explicada 1: regresor

,! Los residuos tienen media *! -! La arianOa de los residuos no depende de xi '8omocedasticidadD .! Los residuos son normales! <! Los residuos son aleatorios! ,5 .5 <4 ?esiduos siguen una normal "'*6TD

Nr3fico del Modelo AJustado


</ <+

Prestamos

./ .+ -/ -+ ,/ 0 +, +/ ,* ,. ,0 -,

$emanas
:La arianOa de los residuos no depende de xi '8omocedasticidadD;

Modelo de regresi#n lineal:

Kip#tesis b3sicas:

+!

y i = a + bxi + i
residuo 2: ariable explicada 1: regresor

,! Los residuos tienen media *! -! La arianOa de los residuos no depende de xi '8omocedasticidadD .! Los residuos son normales! <! Los residuos son aleatorios! ,6 . 7 < pueden contrastarte guardando los residuos6 7 procediendo como en otras ocasiones!

Modelo de regresi#n lineal:

Kip#tesis b3sicas:

+!

y i = a + bxi + i
residuo 2: ariable explicada 1: regresor

,! Los residuos tienen media *! -! La arianOa de los residuos no depende de xi '8omocedasticidadD .! Los residuos son normales! <! Los residuos son aleatorios! - lo contrastaremos con los gr3ficos de residuos6 7 comprobando que no 8a7a residuos at&picos!

Nr3fico del Modelo AJustado


</ <+

Prestamos

./ .+ -/ -+ ,/ 0 +, +/ ,* ,. ,0 -,
Komocedasticidad :aceptable;

$emanas

Modelo de regresi#n lineal:

Kip#tesis b3sicas:

+!

y i = a + bxi + i
residuo 2: ariable explicada 1: regresor

,! Los residuos tienen media *! -! La arianOa de los residuos no depende de xi '8omocedasticidadD .! Los residuos son normales! <! Los residuos son aleatorios!

mo !NTR"ST"R#

mo !NTR"ST"R#
a!F @nspecci#n del diagrama de dispersi#n6 alores de los coeficientes de correlaci#n de Pearson 7 $pearman 'si el aJuste no funciona bien para la muestra6 dif&cilmente lo 8ar3 para la poblaci#nD! b!F Hontraste tipo A"OQA sobre la existencia o no de correlaci#n lineal! !$%& &$NT$ D$ D$T$RM&N" &!N! 4 Hontraste sobre la pendiente de la recta de regresi#n! c!F BH#mo podemos estar seguros de que6 en la poblaci#n6 los coeficienF tes de Pearson 7 $pearman no ser&an * 'en cu7o caso6 no 8abr&a correlaci#n linealDC Hontraste de 8ip#tesis!

'$(plicacin: )&*"RR"+

F Eliminaci#n de par3metros 'simplificaci#n del modeloD:

y i = a + bxi + i
$i aceptamos el contraste K*: a4*6 entonces la recta de regresi#n que obtenemos es y , -( 'una f#rmula m3s sencillaD: se dice entonces que 8emos simplificado nuestro modelo!

BRu 8acer si falla alguna 8ip#tesisC 'algunas ideas sobre esto)D 'APM"AE$D +!

y i = a + bxi + i
residuo 2: ariable explicada 1: regresor

,! Los residuos tienen media *! -! La arianOa de los residuos no depende de xi '8omocedasticidadD .! Los residuos son normales! <! Los residuos son aleatorios!

Statgraphics

.! El modelo de regresi#n mltiple!

P?OELEMA: Kemos recogido datos sobre usuarios de mediana edad de una biblioteca en la que adem3s se realiOan acti idades tanto para nios como para adolescentes 7 adultos6 7 estamos interesados en analiOar cu3les son las ariables que determinan el ni el de satisfacci#n de sus usuarios9 las ariables recogidas son: afici#n a la lectura6 al cine6 a la msica6 nmero de 8iJos6 renta) 76 por supuesto6 ni el de satisfacF ci#n!

".icion/lectura . < , . < + . < < < , . + , + < , . . <

Num/hi0os * * + , + + * + * * , , + , + + * + , + + ,

".icion/cine ".icion/musica renta/mens Ni1el/estudios < +,** . . +<** < . + +0** + +*** , < +-** . +=** + . < +-** . , +,** . . + +/** , , + +.** , < . +>** < < ,<** . . . ++** < < +.** + . +0** . < . ,*** . , . +<** . , +*** , , , +-** , < +/** . . . +0** +,** . < < +>** , . +<** < . < ++** <

".icion/T2 Satis.accion . . . < < , . . . < < . < . + , . . < < < . < < < , , . , . . . . < . . . < <

El modelo de regresi#n simple es6 a priori6 poco realista 'parece poco probable que el ni el de satisfacci#n dependa de una nica ariable6 m3s bien lo natural es que en l inter engan arias ariablesD! En conF secuencia6 ensa7amos no con

24a5b1
sino con

24a5b+1+5 ) 5bn1n

Qariable respuesta 'en nuestro caso6 :ni el de satisfacci#n;D

regresores

Por eJemplo6 en el problema anterior6 la f#rmula a la que llegaremos es:


Satisfaccion = 0,686829 + 0,134472* ficion!cine + 0,436889* ficion!"ect#ra $ 0,0904825* ficion!m#sica + 0,234494* ficion!%& + 0,113699*Ni'e"!est#(ios + 0,206893*N#m!)i*os $ 0,0000595998*renta!mens

Aqu&6 24$atisfacci#n6 1+4Afici#nUcine6 1,4AficionUlectura6 etc! $ir e para: F predecir! F detectar influencias 'qu ariables tienen m3s :poder; sobre la ariable que nos interesa6 etc!D

Modelo de regresi#n mltiple:

+!

y i = a + b1 x1 + + bn x n + i
residuo

,! Los residuos tienen media *! -! La arianOa de los residuos no depende de xi '8omocedasticidadD .! Los residuos son normales! <! Los residuos son aleatorios! /! Las ariables x+6 x,6 etc! no est3n linealmente correlacionadas entre s&!

Modelo de regresi#n mltiple:

+!

y i = a + b1 x1 + + bn x n + i
residuo

,! Los residuos tienen media *! -! La arianOa de los residuos no depende de xi '8omocedasticidadD .! Los residuos son normales! <! Los residuos son aleatorios! /! Las ariables x+6 x,6 etc! no est3n linealmente correlacionadas entre s&! ,5 .5 <4 ?esiduos siguen una normal "'*6TD

You might also like