You are on page 1of 20

FASE INTERMEDIA (TRABAJO COLABORATIVO 2)

Aplicar las medidas de Dispersión, de Regresión y Correlación lineal a la problemática


Objeto de estudio.

POR:
Mireya Navarro Cód.: 37841335
José Alfredo García Barrera Cód.: 71254761
Rene Noriega
Enoc Barbosa
GRUPO: 100105_28

ESTADISTICA DESCRIPTIVA 100105A_292

PRESENTADO A:
OSCAR JAVIER HERNANDEZ

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD


25 DE NOVIEMBRE DE 2016
CEAD, TURBO-ANTIOQUIA
INTRODUCCIÓN

Estamos realizando un estudio referenciados en una base de datos que nos arroja información
confiable sobre los hombres y mujeres dentro de un rango de edad entre 17 y 60 años que han
causado un accidente de tránsito.

Para llegar a un fin bien diseñado debemos identificar las variables que influyen en el objeto
estudio, este trabajo lo realizamos en la actividad pasada, ahora, ya tenemos esas variables
identificadas y clasificadas, pero para que la información que deseamos ofrecer sea profunda
y confiable nos hemos dado la tarea de estudiar a fondo estas variables y una manera de
hacerlo es utilizando las medidas de dispersión como herramienta que nos permite asociar una
variable con otra para encontrar las variaciones que se pueden dar entre las mismas.
JUSTIFICACIÓN

La información obtenida a través de instrumentos de recolección de datos es muy tediosa para


analizar, por tal razón es necesario procesar esa información para poderla interpretar
claramente. La estadística es una rama de las matemáticas que permite exponer esta
información mediante tablas de frecuencias, graficas, entre otras cosas, para que la persona
que vaya a estudiar la información reunida lo pueda hacer de la mejor manera.

OBJETIVOS

 Identificar las variables discretas y continuas dentro del problema de estudio y calcular
las medidas univariantes de dispersión.
 Realizar el diagrama de dispersión de dichas variables y determinar el tipo de asociación
entre las variables.
 Poner en práctica los conceptos que hemos estudiado a lo largo del proceso académico
del curso ESTADISTICA DESCRIPTIVA 100105A_292, además de identificar y llevar
a cabo cada una de las etapas que se deben seguir dentro de una investigación estadística
y así poder representar la información mediante gráficos en este caso el diagrama de
dispersión y poder analizar los resultados
MEDIDAS UNIVARIANTES DE DISPERSIÓN.

A partir de la base de datos suministrada:

2. Identificar las variables discretas dentro del problema de estudio y calcular las
medidas univariantes de dispersión más adecuadas, a aquellas que consideren sean relevantes
para el problema de estudio.

a. Con la variable Discreta elegida calcular: rango, varianza, desviación típica y


coeficiente de variación. Interpretar los resultados obtenidos y asociarlos con el problema
objeto de estudio.

Variable discreta: edad


xi ni Media xi. ni xi2/ ni
45 3 45 135 6075
50 1 50 50 2500
44 1 44 44 1936
43 2 43 86 3698
29 5 29 145 4205
38 7 38 266 10108
52 6 52 312 16224
46 14 46 644 29624
21 6 21 126 2646
Rango = 60-17=46
18 5 18 90 1620 Varianza = 167841/110 - (4067/110)2 = 162
54 6 54 324 17496 Desviación típica = √162 = 12.7
33 7 33 231 7623 Coeficiente de variación = 12.7/ 37.5 =0,33 → 33%
17 5 17 85 1445
22 6 22 132 2904
55 5 55 275 15125
60 2 60 120 7200
32 4 32 128 4096
19 3 19 57 1083
42 3 42 126 5292
36 3 36 108 3888
35 4 35 140 4900
24 1 24 24 576
31 2 31 62 1922
30 1 30 30 900
48 1 48 48 2304
53 1 53 53 2809
23 2 23 46 1058
56 2 56 112 6272
34 2 34 68 2312
Total 110 37.5 4067 167841
b. Con la variable Continúa elegida calcular: rango, varianza, desviación típica y
coeficiente de variación. Interpretar los resultados obtenidos y asociarlos con el problema
objeto de estudio.

Variable continua: velocidad

xi ni Media xi. ni xi2/ ni


33 1 33 33 1089
38 1 38 38 1444
40 2 40 80 3200
45 2 45 90 4050
48 1 48 48 2304
50 4 50 200 10000
51 1 51 51 2601
55 6 55 330 18150
60 3 60 180 10800
62 1 62 62 3844
63 1 63 63 3969
65 2 65 130 8450
66 5 66 330 21780
67 3 67 201 13467
68 5 68 340 23120
69 7 69 483 33327
70 8 70 560 39200
71 2 71 142 10082
72 2 72 144 10368
73 3 73 219 15987
74 3 74 222 16428
75 4 75 300 22500
76 1 76 76 5776
77 4 77 308 23716
78 3 78 234 18252
79 3 79 237 18723
80 7 80 560 44800
81 3 81 243 19683
83 6 83 498 41334
85 1 85 85 7225
86 1 86 86 7396
88 5 88 440 38720
95 2 95 190 18050
100 1 100 100 10000
105 1 105 105 11025
108 1 108 108 11664
111 1 111 111 12321
138 2 138 276 38088
150 1 150 150 22500
Total 110 75.2 8053 625433

 Rango = 150 – 33 = 117

 Varianza = 625433/110 – (8053/110)2 = 326.8

 Desviación típica = √326.8 = 18.07

 Coeficiente de variación = 18.07/75.2 = 0.24, esto equivale al 24%

Podemos notar que el rango de las velocidades es 117 y estas varían en un 24%
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE

3. Identificar dos variables cuantitativas de la situación estudiada que puedan estar


relacionadas.

Número De Heridos: Dependiente Y


Velocidad: Independiente X

Velocidad (X) N° de heridos (Y)


71 4
80 5
88 7
45 2
69 4
77 2
83 5
60 3
73 6
80 4
45 2
62 4
72 5
73 5
80 3
55 2
70 5
75 4
80 4
83 4
88 5
69 2
75 2
66 4
33 1
51 4
70 5
79 3
88 6
67 3
67 3
69 2
55 2
66 3
69 4
50 0
55 3
69 3
70 2
78 3
83 6
77 3
80 3
66 4
68 4
75 4
83 5
65 3
74 4
81 6
38 2
50 3
70 4
77 4
79 5
86 7
63 3
74 3
81 3
66 2
77 3
66 3
68 2
69 3
76 2
40 0
50 3
60 3
65 3
68 2
70 3
72 5
74 3
79 4
80 4
81 3
88 5
68 4
67 4
40 3
50 2
70 4
78 4
85 5
68 3
48 1
70 3
71 3
78 5
83 6
55 1
60 2
73 3
80 5
83 4
69 1
75 3
55 3

4. Realizar el diagrama de dispersión de dichas variables y determinar el tipo de asociación


entre las variables.

DIAGRAMA VELOCIDAD(X) Vs N° DE HERIDOS(Y)


8

7
y = 0,0745x - 1,7211
6 R² = 0,4256

5
N° de heridos

0
0 10 20 30 40 50 60 70 80 90 100
Velocidad
5. Encuentre el modelo matemático que permite predecir el efecto de una variable
sobre la otra. ¿Es confiable?
y= 0,0745x - 1,7211 R² = 0,4556

R² = coeficiente de determinación= 45,56 % por lo tanto es seguro debido a que él


% de confiabilidad es alto.

6. Determine el porcentaje de explicación del modelo y el grado de relación de las


dos variables.
R= Coeficiente de correlación
R= Raíz cuadrada de 0,4556
R= 0,67 % si hay correlación

7. Relacionar la información obtenida con el problema.

En el caso estudiado referente a la accidentabilidad en la Ciudad de Medellín el


grado de confiabilidad entre las variables Velocidad y Número de heridos es de
45,56%, lo cual significa que es confiable, porque si existe correlación entre ellas ya
que su coeficiente corresponde a 0,67%, por lo tanto el número de heridos en gran
parte depende de la velocidad de los conductores.
CONCLUSIÓN

Las medidas de dispersión nos muestran la variabilidad de una distribución,


indicando por medio de un número, si las diferentes puntuaciones de una variable
están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la
variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si
todos los casos son parecidos o varían mucho entre ellos. En este estudio que
estamos realizando observamos que las variables tienen una variabilidad
considerable por ejemplo entre las variables velocidad y número de heridos

Las medidas de dispersión son importantes debido a que dos muestras de


observaciones con el mismo valor central pueden tener una variabilidad muy
distinta. La variabilidad de cualquier distribución se contempla generalmente en
términos de la desviación de cada valor observado (X) con respecto a la media
muestra: X Si las desviaciones: (X −) X son pequeñas, obviamente los datos son
están menos dispersos, que si las desviaciones son grandes.

La importancia de la dispersión de la distribución está basada en que:

1. Su información permite juzgar la confiabilidad de la medida de tendencia central.

2. Nos permite determinar cuan dispersos están los datos y por lo tanto solucionar o
explicar los problemas que se puedan presentar por este hecho.

3. Se pueden comparar las dispersiones de varias muestras, con la cual el riesgo de


que exista un espectro de valores lejos del centro se puede evitar.

4. Se logró aplicar todos los conceptos y métodos estudiados durante el


desarrollo de la unidad dos del módulo del curso, mediante el desarrollo de los
ejercicios planteados en la guía de la actividad.
BIBLIOGRAFIA

Montero, J.M. (2007).Regresión y Correlación Simple. Madrid: Paraninfo. Paginas.


130 – 172. Recuperado
de:http://go.galegroup.com/ps/i.do?id=GALE%7CCX4052100011&v=2.1&u=unad&it=
r&p=GVRL&sw=w&asid=b82c81e98fcc1361e1929abe203c8219

Churchill, G.A.(2009).Análisis de Correlación y de Regresión Simple. Mexico City:


Cengage Learning. Páginas 675 – 686 Recuperado
de:http://go.galegroup.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=
r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce41

Churchill, G.A.(2009). "Análisis de Regresión Múltiple." Investigación de mercados.


Mexico City: Cengage Learning. Páginas 686 – 695.Recuperado
de:http://go.galegroup.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=
r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9

http://conferencia2.unad.edu.co/p4fv725du1l/?launcher=false&fcsContent=true&pbM
ode=normal

Regresión lineal PARTE 1, Explicación teórica, fórmula de regresión, errores en


experimentos https://www.youtube.com/watch?v=rFLgLOsU1LM

Ecuación de correlación lineal y coeficiente de correlación (Ejercicio 1)


https://www.youtube.com/watch?v=fNeXC8d5En8
ANEXOSS: LABORATORIO PRÁCTICO DE REGRESIÓN Y CORRELACIÓN LINEAL
ESTADISTICA DESCRIPTIVA
Paso 1. Explorar el blog del curso, ingresar al Entorno de Aprendizaje Práctico, laboratorio

de regresión y correlación lineal.

-Realizar los ejercicios del laboratorio.

Ejercicios:

1. El rendimiento del producto de un proceso químico está relacionado con la temperatura

de operación del proceso. Se desea establecer la relación que existe entre la pureza (y)

del oxígeno producido y el porcentaje de hidrocarburo (x) que está presente en el

condensador principal en un proceso de destilación, de acuerdo con los siguientes

datos:

X (% de Hidro carburos) Y (Pureza)

0,99 90,01
1,02 89,05
1,15 91,43
1,29 93,74
1,46 96,73
1,36 94,45
0,87 87,59
1,23 91,77
1,55 99,42
1,4 93,65
1,19 93,54
1,15 92,52
0,98 90,56
1,01 89,54
1,11 89,85
1,2 90,39
1,26 93,25
1,32 93,41
1,43 94,98
0,95 87,33
a. Realice el diagrama de dispersión y determine el tipo de asociación entre las variables.

% de HIDROCARBUROS / PUREZA
102
100
98 y = 14,947x + 74,283
R² = 0,8774
96
Pureza

94
92
90
88
86
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8
% De Hidrocarburos

 El porcentaje de hidrocarburos es directamente proporcional a la pureza, esto quiere

decir que entre mayor es el porcentaje de hidrocarburos mayor va a ser la pureza.

 La asociación de las variables es fuerte porque una variable depende de la otra, en este

caso la pureza depende del porcentaje de hidrocarburos, esto se concluye al observar

con el coeficiente de determinación R2 que es 87.74%.

b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la

otra. Es confiable?

El modelo matemático que permite predecir el efecto variable es la siguiente función lineal:

Y=14,947x+74,283
R2=0,8774

 El modelo es confiable porque el coeficiente de determinación R2 es cercano a 1.

c. Determine el porcentaje de explicación del modelo y el grado de relación de las dos

variables.
X (% de Hidro carburos) Y (Pureza)

X (% de Hidro carburos) 1

Y (Pureza) 0,936715381 1

 Esta ecuación hace una buena estimación entre las variables debido a que el coeficiente

de determinación R2 explica el 87.74% de la información y el valor del coeficiente de

correlación R confirma el grado de relación de la variables, que es el 93.67% siendo una

correlación positiva.

d. ¿Cuál es el porcentaje de hidrocarburo cuando la pureza del oxígeno es igual a 51.4?

y = 14.947x + 74.283

51.4 =14.947X +74.283

-14.947X = -51.4 +74.283

-14.947X = -22.883

X= -22.883/-14.947

X= 1.53%

 Cuando la pureza del oxígeno sea 51.4, el porcentaje de hidrocarburos será 1.53%.

2. El número de libras de vapor (y) consumidas mensualmente por una planta química,
o
se relaciona con la temperatura ambiental promedio (en F). Para el año 2015, se

registraron los siguientes valores de temperatura y consumo anual.


2014 Registros de temperatura y consumos de vapor.

Temperatura Consumo de
Mes
(oF) vapor (Lb)
Ene. 21 185,79
Feb. 24 214,47
Mar. 32 288,03
Abr. 47 424,84
May. 50 455
Jun. 59 539
Jul. 68 621,55
Ago. 74 675,06
Sep. 62 562,03
Oct. 50 452,93
Nov. 41 369,95
Dic. 30 273,98

a. Realice el diagrama de dispersión y determine el tipo de asociación entre las variables.


Temperatura/Consumo de vapor (Lb)
800
700 y = 9,2087x - 6,3184
R² = 0,9999
Consumo de Vapor Lb

600
500
400
300
200
100
0
0 10 20 30 40 50 60 70 80
Temperatura F

 En esta grafica podemos decir que la temperatura es directamente proporcional al

consumo de vapor, esto quiere decir que entre mayor es la temperatura mayor va a ser

el consumo de vapor.

 La asociación de las variables es fuerte porque una variable depende de la otra, en

donde el consumo de vapor depende de la temperatura, que se puede observar con el

coeficiente de determinación R2 que es 99.99%.

b. Ajuste un modelo matemático que permita predecir el efecto de una variable sobre la

otra. Es confiable?

El modelo matemático que permite predecir el efecto variable es la siguiente función

lineal:

y = 9,2087x - 6,3184

R² = 0,9999

 El modelo es muy confiable porque el coeficiente de determinación R2 esta

aproximadamente a 1.

c. Determine el porcentaje de explicación del modelo y el grado de relación de las dos

variables.
Temperatura (oF) Consumo de vapor (Lb)

Temperatura (oF) 1

Consumo de vapor (Lb) 0,999931932 1

 En esta ecuación se hace una buena estimación entre las variables debido a que el

coeficiente de determinación R2 explica el 99.99% de la información y el valor del

coeficiente de correlación R confirma el grado de relación de la variables, que es el

99.99%, siendo su correlación positiva.

3. Los investigadores están estudiando la correlación entre la obesidad y la respuesta

individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (x). La

respuesta al dolor se mide utilizando el umbral de reflejo de reflexión nociceptiva (y) que es

una medida de sensación de punzada. Obsérvese que ambas, X e Y, son variables

aleatorias

y (umbral de reflejo de flexión


x (porcentaje de sobrepeso)
nociceptiva)

89 2
90 3
75 4
30 4,5
51 5,5
75 7
62 9
45 13
90 15
20 14
a. Realice el diagrama de dispersión y determine el tipo de asociación entre las variables.

x Porcentaje de Sobrepeso / y Umbral de Reflejo de Flexión


Nociceptiva
16
Umbral de Reflejo de Flexión Nociceptiva

14
12
10
8
y = -0,0629x + 11,642
6
R² = 0,1115
4
2
0
0 10 20 30 40 50 60 70 80 90 100
% De Sobrepeso

 La asociación de las variables no existe, esto se puede observar con el coeficiente de

determinación R2 que es 11.15%.

b. Ajuste un modelo matemático que permita predecir el efecto de una variable sobre la otra.

Es confiable?

El modelo matemático que permite predecir el efecto variable es la siguiente función lineal:

y = -0,0629x + 11,642

R² = 0,1115

 El modelo matemático no es muy confiable porque el coeficiente de determinación R2 es

de 0,11115 que está muy lejos de 1.

c. Determine el porcentaje de explicación del modelo y el grado de relación de las dos

variables.
x (porcentaje de sobrepeso) y (umbral de reflejo de
flexión nociceptiva)

x (porcentaje de sobrepeso) 1

y (umbral de reflejo de flexión -0,333907988 1


nociceptiva)

 Esta ecuación permite observar no hay una buena estimación entre las variables porque

el coeficiente de determinación R2 explica el 11.15% de la información y el valor del

coeficiente de correlación R confirma el grado de relación de la variables, que es el

-33.39%, se puede observar que los puntos se encuentra en forma descendente, todo

esto nos conlleva a decir que es una correlación negativa baja.

d. ¿Cuál es el umbral de reflejo de flexión nociceptiva, cuando hay un porcentaje de

sobrepeso, de 50?

y = -0.0629*50+ 11.642

y = 8.50

 Cuando el porcentaje de sobrepeso sea 50, el umbral de reflejo de flexión

nociceptiva será 8.50.

You might also like