You are on page 1of 20

Tema 1: Anlisis descriptivo de datos. Regresin.

1. Variables estadsticas unidimensionales y distribucin de frecuencias. 2. Representaciones grcas. 3. Caractersticas de una variable estadstica. 4. Variables estadsticas bidimensionales y distribuciones de frecuencias. Independencia. 5. Regresin y correlacin lineal.
1. Variables estadsticas unidimensionales y distribucin de frecuencias.

El objeto de la Estadstica Descriptiva es recoger, clasicar, representar y resumir un determinado conjunto de datos que forman una muestra obtenida de una poblacin. Una Poblacin es cualquier coleccin de datos que tienen ciertas caractersticas comunes. Ej: calicaciones obtenidas por un grupo de estudiantes. Una Muestra es un subconjunto representativo de la poblacin. Cuando las caractersticas desde el punto de vista de las cuales se estudia la poblacin son de tipo cuantitativo, es decir, se pueden medir numricamente, se llaman Variables Estadsticas. Tipos de variables estadsticas (v.e.): 1. Variables estadsticas discretas. Una v.e. es discreta si sus posibles valores estn ailados en nmero nito o innito numerable. Ej: nmero de alumnos de una facultad, nmero de hijos de una familia. 2. Variables estadsticas continuas. Son aquellas que pueden tomar todos los valores de un intervalo. Ej: peso, temperatura de un cuerpo, velocidad de un mvil.
Frecuencias

Se dispone de la siguiente informacin sobre el nmero de hijos para 6 familias: 2,3,0,1,3,2. Nmero de hijos 0 1 2 3
Frecuencias

Nmero de familias 1 1 2 2

1. Frecuencia absoluta: Es el nmero de veces que se repite cada valor o dato de la variable. Se representan por ni .
n

N=
i=1

ni

donde N es el nmero total de datos y n el nmero de datos diferentes. 2. Frecuencia relativa: Es igual a la frecuencia absoluta dividida por el nmero total de datos. (Es la proporcin de individuos que presentan ese valor de la variable). fi = ni N 1
n

fi = 1
i=1

Frecuencias acumuladas

1. Frecuencia absoluta acumulada: Nos dice el nmero de datos que hay con un valor de la variable menor o igual que el considerado. Es decir, es la suma de las frecuencias absolutas hasta un valor determinado de la variable,
i

Ni = n1 + n2 + . . . + ni =
j=1

nj

Nn = N

supuesto que los valores de la variable estn ordenados de forma ascendente. 2. Frecuencia relativa acumulada: Es el resultado de dividir cada frecuencia absoluta acumulada por el nmero total de datos o la suma de las frecuencias relativas hasta un determinado valor de la variable, i Ni Fi = = f1 + f2 + . . . + fi = fj Fn = 1 N
j=1

supuesto que los valores de la variable estn ordenados de forma ascendente.


Distribuciones unidimensionales

Llamamos Distribucin de Frecuencias al conjunto de valores que ha tomado una variable junto con sus frecuencias. xi x1 x2 . . . xi . . . xn ni n1 n2 . . . ni . . . nn N fi f1 f2 . . . fi . . . fn 1 Ni N1 =n1 N2 =n1 +n2 . . . Ni =n1 +. . . +ni . . . Nn =n1 +. . . +nn =N Fi F1 =f1 F2 =f1 +f2 . . . Fi =f1 +. . . +fi . . . Fn =f1 +. . . +fn =1

2. Representaciones grcas.

1. Grcos de v.e. discreta: (a) Diagrama de barras (b) Polgono de frecuencias (c) Curva acumulativa o de distribucin 2. Grcos de v.e. continua: (a) Histograma (b) Polgono de frecuencias (c) Curva acumulativa o de distribucin

V.e. discreta: Diagrama de barras y Polgono de frecuencias

xi ni El diagrama de barras es:

0 2

1 5

2 6

3 12

4 9

5 5

6 1

Diagrama de barras y polig. de frecuencias


12
q

10

Frec.

4
q

3 X

El polgono de frecuencias es la lnea quebrada. V.e. discreta: Curva de distribucin

Sobre el mismo ejemplo, la curva acumulativa es:


Curva acumulativa
0.975
q q

0.850

0.625

Fi 0.325

0.175

0.050

3 x

V.e. continua: Histograma y Polgono de Frecuencias Las alturas de 10 estudiantes son:

Alturas ni

160 - 165 4

165 - 170 7

170 - 175 10

175 - 180 13

180 - 185 6

Histograma y polgono de frecuencias


q

10

12

Frecuencias

0 160

165

170 x

175

180

185

El polgono de frecuencias es la lnea quebrada V.e. discreta: Curva de distribucin

Sobre el mismo ejemplo, la curva acumulativa es:

Curva acumulativa
1.000 0.100 155 0.275 0.525 Fi 0.850

160

165

170 X

175

180

185

190

3. Caractersticas de una variable estadstica.

Medidas de posicin Medidas de dispersin Medidas de asimetra


Medidas de posicin

Reciben el nombre de medidas de posicin una serie de valores en los que se intentar resumir las caractersticas bsicas de la informacin de que se dispone. MEDIA ARITMTICA: Es la suma de todos los valores de la distribucin dividida por el nmero total de datos. x= x1 n1 + x2 n2 + . . . + xn nn = N
n i=1

xi ni = N

xi fi
i=1

Propiedad de la media aritmtica: La suma de las desviaciones de los valores de la variable respecto a su media es cero: n (xi x)ni = 0 i=1
Medidas de Posicin: Otros promedios Sea una distribucin de frecuencias (xi , ni ). MEDIA GEOMTRICA: Se suele utilizar para promediar porcentajes, tasas, nmeros ndices, etc., es decir, en los casos en los que se supone que la variable presenta variaciones acumulativas.
n

G=

xn1 xn2 . . . xnn = n 1 2

xni = (xn1 xn2 . . . xnn )1/N n 1 2 i


i=1

MEDIA ARMNICA: Se suele usar para promediar velocidades, tiempos, rendimientos, etc. En general para promediar todo aquello cuyas unidades vengan expresadas como el cociente de dos magnitudes simples. H=
1 x1 n1 1 x2 n2

N + ... +

1 xn nn

N
n 1 i=1 xi ni

MEDIA CUADRTICA: Se utiliza en ciertos problemas que implican momentos de inercia o radio de giro. C= x2 n1 + x2 n2 + . . . + x2 nn n 1 2 N

Medidas de Posicin

MODA: Es el valor (o valores) de la variable que ms veces se repite. Tambin se suele expresar como el valor ms habitual o ms frecuente de la variable. xi ni 0 2 1 5 2 6 3 12 4 9 5 5 6 1

La moda es el valor 3 de la variable, puesto que es el que mayor frecuencia absoluta tiene.
Medidas de Posicin

MODA: Es el valor (o valores) de la variable que ms veces se repite. Tambin se suele expresar como el valor ms habitual o ms frecuente de la variable. xi ni 0 2 1 5 2 6 3 12 4 9 5 5 6 1

La moda es el valor 3 de la variable, puesto que es el que mayor frecuencia absoluta tiene.
Medidas de Centralizacin y de Posicin

MEDIANA: Se dene la mediana de un conjunto de observaciones como el valor de la variable estadstica, supuesto todas las observaciones ordenadas de manera creciente, para el cual la mitad de las observaciones son inferiores a este valor y la otra mitad de las observaciones son superiores a l, es decir, deja a su izquierda y a su derecha el mismo nmero de frecuencias. CLCULO: a) Cuando las frecuencias son unitarias: a1) Nmero impar de observaciones: La mediana es el trmino que ocupa la posicin central. a2) Nmero par de observaciones: La mediana es la media aritmtica de los dos valores centrales. b) Cuando las frecuencias no son unitarias: Se calculan las frecuencias absolutas acumuladas y la mitad de las observaciones, N . Se busca N en las Ni . Se presentan dos situaciones: 2 2 b1) Ni1 < b2)
N 2 N 2

< Ni La mediana ser el valor de la variable xi que corresponde a Ni .

= Ni La mediana ser la media aritmtica de xi y xi+1 .

Medidas de Posicin

CUANTILES: No reejan ninguna tendencia central. Son valores de la distribucin que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo nmero de valores. Se clasican en distintos tipos dependiendo del nmero de intervalos en que dividen a la poblacin. Entre los cuantiles podemos citar, por ser de uso ms frecuente, los cuartiles, los deciles y los percentiles. A) LOS CUARTILES: Son los tres valores que dividen la distribucin en cuatro partes iguales, es decir, en cuatro intervalos dentro de cada cual estn incluidos el 25% de los valores de la distribucin. B) LOS DECILES: Son los nueve puntos que dividen la distribucin en diez partes, de forma que, dentro de cada una estn incluidos el 10% de los valores. C) LOS PERCENTILES: Son los noventa y nueve valores que dividen la distribucin en 100 partes.
Medidas de Posicin

CLCULO: Del mismo modo que en la mediana con los siguientes cambios. 1. CUARTILES: Qr , r = 1, 2, 3. Igual que para la mediana pero en lugar de para el clculo del cuartil Qr . 2. DECILES: Dr , r = 1, 2, . . . , 9. Igual que para la mediana pero en lugar de para el clculo del decil Dr .
N 2

se debe usar se debe usar


N 2

rN 4

N 2

rN 10

3. PERCENTILES: Pr , r = 1, 2, . . . , 99. Igual que para la mediana pero en lugar de rN usar 100 para el clculo del percentil Pr . Q1 = P25 , Q2 = Me = D5 = P50 , Q3 = P75

se debe

D1 = P10 ,

D2 = P20 , . . . , D9 = P90

Medidas de Dispersin Anteriormente hemos denido una serie de medidas de tendencia central cuyo objetivo era sintetizar toda la informacin de que se dispona. Veamos ahora hasta qu punto, para una determinada distribucin de frecuencias, estas medidas de tendencia central son representativas como sntesis de toda la informacin. Medir la representatividad de estas medidas equivale a cuanticar la separacin de los valores de la distribucin respecto a dicha medida. A la mayor o menor separacin de los valores respecto a otro, que se pretende sea su sntesis, se llama dispersin o variabilidad. Ser, pues, tanto ms representativa la media aritmtica de una variable cuanto ms agrupados en torno a ella estn los valores promediados y, por el contrario, ser tanto ms rechazable, por no ser representativa, cuanto mayor dispersin exista respecto a la media. Resulta pues necesario para completar la informacin que pueda deducirse de la media aritmtica, acompaar este promedio de uno o varios coecientes que nos midan el grado de dispersin de la distribucin de la variable. Estos coecientes son los que llamamos medidas de dispersin. Distinguiremos entre medidas de dispersin absolutas y relativas. Medidas de Dispersin Absolutas

VARIANZA: es la media aritmtica de los cuadrados de las desviaciones de los valores de la variable a la media aritmtica. n (xi x)2 ni S 2 = i=1 N Interpretacin de la varianza: 7

S 2 medir la mayor o menor dispersin de los valores respecto a la media aritmtica. S 2 = 0 cuando todas las observaciones son iguales porque as la media aritmtica coincide con el valor comn de las mismas y las desviaciones son todas nulas. Cuanto ms prxima a cero sea la varianza, tenemos menor dispersin de los valores, mayor homogeneidad y por tanto mayor representatividad de la media aritmtica. Cuanto ms dispersas son las observaciones, mayor es la varianza y la media aritmtica menos representativa.
Medidas de Dispersin Absolutas

Propiedades de la varianza: 1. La varianza nunca puede ser negativa. S 2 0 Si S 2 = 0, las desviaciones son todas iguales a cero, luego xi = x. En este caso particular, la variable slo toma un valor y ste, por lo tanto, es la media. 2. S2 =

n 2 i=1 xi ni

x2

Medidas de Dispersin Absolutas La varianza vendr expresada en las mismas unidades de medida que la distribucin pero elevadas al cuadrado. Esto diculta su interpretacin y hace necesario denir la desviacin tpica, que vendr expresada en las mismas unidades de medida que la distribucin. DESVIACIN TPICA: es la raz cuadrada, con signo positivo, de la varianza. S= Propiedades de la desviacin tpica: 1. S 0. 2. S =
n i=1

S2 =

n i=1 (xi

x)2 ni N

x2 ni i N

x2

Medidas de Dispersin Relativas Supongamos que tenemos dos distribuciones de frecuencias. Si tenemos dos distribuciones cuyos promedios son P1 y P2 y queremos saber cul de los dos es ms representativo, sucede que esta comparacin no la podemos efectuar por sus respectivas medidas de dispersin, ya que las distribuciones, en general, no vendrn dadas en las mismas unidades de medida. Tampoco en el caso de que las unidades de medida sean las mismas, si los promedios son numricamente diferentes. Es preciso, pues, construir medidas adimensionales, es decir, que no vengan afectadas por las unidades de medida. Estas medidas de dispersin llamadas relativas, siempre se concretan en forma de cociente, es decir, de ndices. COEFICIENTE DE VARIACIN DE PEARSON: Para comparar las medias aritmticas de dos distribuciones que pueden venir, en general, en unidades diferentes, o en las que las medias no sean iguales se utiliza el coeciente de variacin de Pearson, que se dene como la relacin por cociente entre la desviacin tpica y la media aritmtica: S V = x V es adimensional.

Medidas de Dispersin Relativas

Interpretacin del Coeciente de Variacin de Pearson: A mayor V menor representatividad de x, menor homogeneidad de las observaciones y mayor dispersin. V presenta garanta de que utiliza toda la informacin puesto que en S y en x intervienen todos los valores de la distribucin. Cuando V = 0 mxima representatividad de x, (ya que no existe dispersin). V no es signicativo cuando x = 0 ya que esto hara que V tendiera a innito. Aqu la utilizacin de V no interesa, ya que su resultado numrico nos puede hacer tomar conclusiones estadsticamente equivocadas.
Medidas de asimetra

Medidas de asimetra: se dirigen a elaborar un indicador que permita establecer el grado de simetra (o asimetra) que presenta la distribucin, sin necesidad de llevar a cabo su representacin grca. Supongamos que hemos representado grcamente una distribucin de frecuencias; tracemos una perpendicular al eje de abcisas por x. Si tomamos esta perpendicular como eje de simetra, diremos que una distribucin es simtrica si existe el mismo nmero de valores a ambos lados de dicho eje, equidistantes a x que tengan la misma frecuencia. En caso contrario, las distribuciones sern asimtricas; as la asimetra es la ausencia de simetra en la distribucin. Coeciente de asimetra de Fisher: g1 =
1 N n i=1 (xi S3

x)3 ni

Medidas de asimetra

Interpretacin de g1 : Una distribucin simtrica tiene g1 = 0. El recproco no se cumple necesariamente, pues puede haber distribuciones asimtricas para las que g1 = 0. Si g1 > 0, la distribucin es asimtrica positiva o a derechas. Si g1 < 0, la distribucin es asimtrica negativa o a izquierdas.

4. Variables estadsticas bidimensionales y distribuciones de frecuencias.

Para una poblacin dada puede resultar interesante considerar simultneamente dos caracteres cuantitativos diferentes X e Y , a n de estudiar las posibles relaciones entre ellos. As, considerando para cada unidad estadstica el par de valores (xi , yj ) se suele decir que estamos ante una estadstica de dos dimensiones o una variable estadstica bidimensional. Por ejemplo, se puede medir sobre un cuadro de salarios, a la vez, el salario percibido y la antigedad en la empresa o, sobre una poblacin de estudiantes, la nota obtenida en una prueba y la edad de los candidatos.
Dependencia Funcional. Dependencia e Independencia Estadstica. Cuando no existe relacin entre dos variables, se dice que las variables son independientes. Inversamente, cuando la relacin entre dos variables es perfecta, se dice que las variables estn relacionadas funcionalmente, lo que signica que su relacin puede ser expresada bajo la forma y = f (x). Diremos que Y depende funcionalmente de X cuando podamos establecer una aplicacin que nos transforme los elementos de X en elementos de Y . Por ejemplo, la relacin existente entre el espacio y el tiempo, para una velocidad determinada, en el movimiento uniforme, (e = v t). Pero existen otros tipos de caractersticas como estatura y peso, en los que no cabe duda de que existe interrelacin, pero en los que es imposible denir sobre ellas una aplicacin en el sentido estrictamente matemtico. Es decir, no dependen funcionalmente una de otra. Ahora bien, estadsticamente es claro que el peso depende en cierta forma de la estatura. Este tipo de relacin no expresable a travs de una determinada aplicacin es la conocida como dependencia estadstica. Y as como la dependencia funcional no admite grados, la dependencia estadstica s los admite, ya que pueden existir dependencias ms o menos fuertes, que distinguiremos mediante la correlacin entre variables y la contingencia o asociacin entre atributos. Distribuciones Bidimensionales: Tablas de correlacin y de contingencia

Se dispone de los siguientes datos de 10 alumnos sobre su edad y la nota obtenida en un examen: (20,5) (20,8) (18,5) (20,5) (19,5) (19,8) (20,5) (18,3) (20,8) (18,5)

Si representamos los datos en forma de tabla denotando por X la edad y por Y la nota, tenemos: X\Y 18 19 20 3 1 0 0 5 2 1 3 8 0 1 2

Calcula la distribucin de edades de estos alumnos. Calcula la distribucin de notas de los alumnos. Calcula la distribucin de edades de los alumnos que han aprobado. Calcula la distribucin de notas de los alumnos de primer curso (18 aos).
Distribuciones Bidimensionales: Tablas de correlacin y de contingencia

Sea una poblacin estudiada simultneamente segn dos caracteres X e Y ; representaremos genricamente la distribucin de variables por (xi , yj ; nij ), donde xi , yj son dos valores cualesquiera y nij es la frecuencia absoluta conjunta del valor isimo de X con el jsimo de Y . Una forma de disponer los resultados es la conocida como tabla de correlacin:

10

X\Y x1 x2 . . . xi . . . xn nj

y1 n11 n21 . . . ni1 . . . nn1 n1

y2 n12 n22 . . . ni2 . . . nn2 n2

... ... ... . . . ... . . . ... ...

yj n1j n2j . . . nij . . . nnj nj

... ... ... . . . ... . . . ... ...

yk n1k n2k . . . nik . . . nnk nk

ni n1 n2 . . . ni . . . nn N

Distribuciones Bidimensionales: Tablas de correlacin y de contingencia

Si la distribucin bidimensional es de atributos (caractersticas de tipo cualitativo), la tabla de doble entrada se llama de contingencia. Por ejemplo, supongamos que podemos aglutinar las diferentes respuestas a una cierta pregunta en cuatro categoras A, B, C y D, y que intentamos relacionar estas respuestas con el nivel cultural. La tabla de contingencia podra ser la siguiente: Respuestas\Estudios A B C D
Distribuciones marginales

Primarios n11 n21 n31 n41

Bachillerato n12 n22 n32 n42

Superiores n13 n23 n33 n43

Puede ocurrir que, a partir de una distribucin bidimensional, nos interese estudiar aisladamente cada una de las variables. De esta forma tendramos dos distribuciones unidimensionales que seran las distribuciones de X y de Y , respectivamente. Para obtenerlas debemos determinar las frecuencias marginales. En la distribucin marginal de X, tenemos que hallar cuntas veces se repite cada valor xi con independencia de que aparezca conjuntamente con cada valor de Y . As, el nmero de veces que se repite en total x1 , con independencia de los valores de Y , segn la tabla de correlacin, ser:
k

n1 = n11 + n12 + . . . + n1j + . . . + n1k =


j=1

n1j

n1 es la frecuencia marginal de x1 . Por tanto, para un valor isimo de X, su frecuencia marginal ser:
k

ni = ni1 + ni2 + . . . + nij + . . . + nik =


j=1

nij

Distribuciones marginales

Anlogamente, para la distribucin marginal de Y , la frecuencia marginal de un valor jsimo n cualquiera ser: nj = n1j + n2j + . . . + nij + . . . + nnj = nij
i=1

11

Las distribuciones marginales de frecuencias sern: X xi x1 x2 . . . xi . . . xn


n i=1 ni k j=1 nj

Y ni n1 n2 . . . ni . . . nn N yi y1 y2 . . . yj . . . yk
k j=1 nij

nj n1 n2 . . . nj . . . nk N

Es claro que:

n i=1

=N

Distribuciones condicionadas

Se pueden formar otro tipo de distribuciones unidimensionales en las que previamente hace falta denir una condicin. Por ejemplo, la distribucin de X condicionada a que Y tome el valor y2 . Los valores y las frecuencias de esta distribucin seran: X\Y = y2 x1 x2 . . . xi . . . xn ni\2 n12 n22 . . . ni2 . . . nn2 n2

Distribuciones condicionadas

En general, las distribuciones de X condicionadas a un valor cualquiera de Y son: X\Y = yj x1 x2 . . . xi . . . xn ni\j n1j n2j . . . nij . . . nnj nj

Distribuciones condicionadas

12

Anlogamente, las distribuciones de Y condicionadas a un valor isimo de X son: Y \X = xi y1 y2 . . . yj . . . yk nj\i ni1 ni2 . . . nij . . . nik ni

Las frecuencias relativas de las distribuciones condicionadas a algn valor de Y , o algn valor de X sern, respectivamente nij nij fi\j = fj\i = nj ni

Independencia Estadstica

Dos variables X e Y se dice que son independientes estadsticamente cuando la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales, es decir: nij ni nj = N N N i, j (fij = fi fj i, j)

En el caso de independencia, las frecuencias relativas condicionadas coinciden con sus correspondientes frecuencias relativas marginales. fi\j = fi fj\i = fj

Covarianza

Se dene la covarianza de dos variables X e Y como:


n k

Sxy =
i=1 j=1

(xi x)(yj y)

nij . N

A partir de su denicin operando se obtiene la siguiente expresin para la covarianza que utilizaremos para su clculo:
n k

Sxy =
i=1 j=1

xi yj

nij xy N

Valor de la Covarianza en caso de Independencia Estadstica

Sabemos que Sxy =

x i yj
i=1 j=1

nij xy N

La condicin de independencia estadstica era: nij ni nj = N N N 13

Bajo esta condicin:


n k

i=1 j=1

nij = xi yj N

i=1 j=1

ni nj = xi yj N N

n i=1

ni xi N

yj
j=1

nj =xy N

Luego cuando las variables son independientes la covarianza ser 0. Hay que hacer notar que el recproco no siempre es cierto, es decir, el hecho de que la covarianza sea nula no implica necesariamente que las variables sean independientes. X e Y son independientes Sxy = 0

Luego dos variables con covarianza no nula no son independientes.


5. Regresin y correlacin lineal

Sea (X, Y ) una variable estadstica bidimensional. La regresin simple consiste en la bsqueda de una funcin que exprese lo mejor posible la relacin existente entre las variables X e Y , de tal manera que conocido un valor de una variable sea posible calcular, con mayor o menor aproximacin, el correspondiente valor de la otra. La eleccin de la funcin es el primer paso antes de pasar al propio ajuste. Tratamos de construir una funcin que se aproxime lo ms posible a la nube de puntos. Para determinar funciones de regresin utilizamos el mtodo de los mnimos cuadrados. Regresin Lineal: La regresin ser lineal cuando la funcin de regresin obtenida sea una recta.
Planteamiento general del problema del ajuste

Planteamiento general del problema del ajuste

X\Y 3 4 5 6

1 1 0 0 0

2 0 0 1 0

3 0 1 0 0

4 0 0 0 1

X 3 4 5 6

Y 1 3 2 4

14

Mtodo de ajuste por mnimos cuadrados

Dados los puntos (x1 , y1 ), (x2 , y2 ), . . . , (xm , ym ), elegida una funcin de ajuste denida por: y = a + bx, consideramos la nube de puntos

Nuestro propsito ser determinar los parmetros a y b que minimicen la siguiente funcin: a = 0 m m 2 2 (yi yi ) [yi (a + bxi )] = i=1 = i=1 N N b = 0 Resolviendo el llamado sistema de ecuaciones normales, a y b quedan determinados.
Regresin Lineal

Recta de regresin de Y sobre X: la recta que explica la variable Y para cada valor de X. Dada una cierta estructura de la nube de puntos se decide ajustar una recta de la forma: y = a + bx Ahora, minimizaremos = (a + bxi )]2 nij Si resolvemos el Sistema de Ecuaciones Normales:
i j [yj a b

=0 =0 a = y bx donde

obtenemos los parmetros a y b de la recta:


2 Sx = 2 i xi ni

b=

Sxy , 2 Sx

x2

Sxy =

xi yj nij

N yy =

x y. Entonces la recta Y \X toma la forma:

Sxy (x x) 2 Sx

Regresin Lineal

Recta de regresin de X sobre Y : nos hablar del comportamiento de X para cada valor de Y . Anlogamente, en este caso la recta ajustada ser: x=a +by donde b = Sxy 2 Sy a =xby

tomando la recta de regresin X\Y la forma: xx= Sxy (y y) 2 Sy

Estas dos rectas de regresin se cortan en el punto (x, y), que recibe el nombre de centro de gravedad de la distribucin conjunta. 15

Regresin Lineal

Los coecientes de regresin lineal son las pendientes de las rectas de regresin. Evidentemente, segn la denicin, tanto el signo de b como el de b ser el signo de la covarianza pues las varianzas siempre son positivas. Luego: m11 = Sxy > 0 Rectas de regresin crecientes. m11 = Sxy < 0 Rectas de regresin decrecientes. m11 = Sxy = 0 Rectas de regresin paralelas a los ejes de coordenadas y por tanto perpendiculares entre s.

Correlacin Lineal. Coeciente de Determinacin Lineal.

La correlacin pretende medir el grado de ajuste existente entre la nube de puntos y la funcin ajustada, es decir, el grado de dependencia mutua entre las variables. Coeciente de Correlacin Lineal: r= Sxy Sx Sy

16

Coeciente de Determinacin Lineal: r2 =


2 Sxy 2 2 Sx Sy

Es fcil ver que r2 = b b . Campo de variacin de r y r2 : 1 r 1 0 r2 1

Correlacin Lineal. Coeciente de Determinacin Lineal.

Interpretacin analtica de r: r = 1: Todos los valores tericos coinciden con los observados, es decir, los puntos de la nube estn sobre la recta y la dependencia es funcional. La correlacin lineal es perfecta positiva (a medida que crece una variable la otra tambin crece). r = 1: La dependencia tambin ser funcional, todos los puntos de la nube estn sobre la recta, la correlacin lineal es perfecta negativa (a medida que crece una variable la otra decrece). r = 0: Las variables no estn asociadas mediante una recta. La correlacin lineal es nula. 1 < r < 0: La correlacin lineal ser negativa, siendo ms intensa cuanto ms prximo est r a -1. 0 < r < 1: La correlacin lineal es positiva, siendo ms intensa cuanto ms prximo est r a 1.
Correlacin Lineal. Coeciente de Determinacin Lineal.

Posicin relativa de las rectas de regresin segn los valores de r: r = 1: Correlacin lineal perfecta positiva. Las rectas de regresin son crecientes y coinciden. r = 1: Correlacin lineal perfecta negativa. Las rectas coinciden pero esta recta es decreciente al ser negativa su pendiente. r = 0: Correlacin lineal nula. Las rectas de regresin son x = x, y = y, luego son rectas paralelas a los ejes y perpendiculares entre s. 1 < r < 0: Correlacin lineal negativa. Las rectas de regresin, que ahora sern diferentes, sern las dos decrecientes pues el signo de r es el de la covarianza, y el signo de sta es el mismo que el de b y b , luego son negativas las pendientes. 0 < r < 1: Correlacin lineal positiva, siendo las dos rectas de regresin crecientes por un razonamiento anlogo al anterior.
Correlacin Lineal e Independencia Estadstica

Sabemos que cuando las variables son estadsticamente independientes la covarianza es cero. Luego, si las variables son independientes, estn tambin incorreladas linealmente, al ser r = 0. Sin embargo, el recproco no se verica siempre. Esto quiere decir que dos variables pueden estar incorreladas linealmente y ser dependientes puesto que al ser r = 0 lo nico que podemos decir es que la dependencia estadstica lineal es nula, pero esas variables pueden depender segn otro tipo de funcin (parablica, exponencial, ...). r=0 X e Y son independientes

17

Prediccin

El objetivo ltimo de la regresin es la prediccin o pronstico sobre el comportamiento de una variable para un valor determinado de la otra. As, en la regresin lineal, la prediccin de Y para X = x0 ser: Sxy y0 = y + 2 (x0 x) Sx La prediccin de X para Y = y0 ser: x0 = x + Sxy (y0 y) 2 Sy

La abilidad de esta prediccin ser tanto mayor, cuanto ms prximo a 1 sea r2 , ya que este coeciente representa el porcentaje de variabilidad de Y que queda explicada por la regresin.
Regresin no lineal

Ajuste de una parbola de segundo grado: En este caso, la curva seleccionada es yj = a + bxi + cx2 i y para hallar a, b y c deberemos minimizar =
i,j

(yj a bxi cx2 )2 nij i

Resolviendo el siguiente sistema se obtendrn los valores de los parmetros de la parbola: = 0 a =0 b c = 0


Regresin no lineal

Tipo de ajuste
Hiprbola equiltera

Funcin yj = a + b 1 xi

Transformaciones zi = 1 xi

Ajuste lineal yj = a + bzi

Ajuste potencial

yj = a xb i

vi = log xi uj = log yj A = log a

uj = A + bvi

Ajuste exponencial

yj = a b

xi

uj = log yj A = log a B = log b

uj = A + Bxi

18

Ejemplo

Una determinada empresa informtica quiere realizar un estudio sobre la inuencia de las campaas publicitarias en sus cifras de ventas. Para ello dispone del gasto destinado a publicidad y sus ventas, ambos en 104 euros, en los ltimos 7 aos: Aos Gasto (X) Ventas(Y ) 2004 2.5 200 2005 2.8 221 2006 2.9 230 2007 3.1 239 2008 3.5 248 2009 3.6 250 2010 3.4 246

1. Obtener un modelo lineal que permita predecir las ventas a partir del gasto en publicidad. 2. Predecir las ventas para el prximo ao si se piensa invertir en publicidad 33 000 euros. 3. Estudiar la abilidad de la prediccin realizada.
Ejemplo

Solucin: X 2.5 2.8 2.9 3.1 3.5 3.6 3.4 21.8 x= Y 200 221 230 239 248 250 246 1634 X Y 500 618.8 667 740.9 868 900 836.4 5131.10

X2 6.25 7.84 8.41 9.61 12.25 12.96 11.56 68.88

Y2 40000 48841 52900 57121 61504 62500 60516 383382

yi 21.8 1634 i xi y= i = = = 3.1143, = 233.4286, N 7 N 7 x2 y2 2 2 Sx = i i x2 = 0.1411, Sy = i i y 2 = 279.9458, N N x i yi Sxy = i x y = 6.0476 N

Ejemplo 1. Entonces la recta que predice las ventas a partir del gasto en publicidad ser yy = y 233.4286 = Sxy (x x) 2 Sx

6.0476 (x 3.1143) y = 99.9485 + 42.8604x 0.1411

2. x = 3.3 y = 99.9485 + 42.8604 3.3 = 241.3878 Es decir, si se invierte en publicidad 33 000 euros se estima obtener unas ventas de 2 413 878 euros. 3. Coeciente de determinacin lineal: r2 =
2 Sxy 6.04762 = = 0.9259 2 2 Sx Sy 0.1411 279.9458

Concluimos entonces que el ajuste realizado es bueno, ya que explica el 92.59% de la varianza de la variable dependiente. Gracias al buen ajuste obtenido y a que la cantidad que nos sirve para realizar la prediccin no est muy alejada de su media, la prediccin efectuada tambin ser buena.

19

Bibliografa del tema Casas Snchez, J.M. y Santos Peas, J., (2002) Introduccin a la Estadstica para Administracin y Direccin de Empresas. Editorial Centro de Estudios Ramn Areces.

Martn Pliego, F.J., (2007). Introduccin a la Estadstica Econmica y Empresarial. Teora y prctica (3a. Edicin). Ed. Thomson.

20

You might also like