Professional Documents
Culture Documents
APLICACIONES DE
1
FORMULAS PARA TRIUNFAR
LA FORMULA BÁSICA. Los investigadores se han dedicado a averiguar cuál ha sido la idea, el secreto que ha
llevado al triunfo a los grandes personajes de la historia. Y han encontrado una fórmula que todos los
triunfadores practicaron, y sin la cual no habrían llegado a ser grandes ni famosos. Esta fórmula consiste
en los siguientes cinco puntos:
a) Dirigir el pensamiento hacia una meta fija que se desea conseguir. Saber bien cuál es esa
meta que se desea alcanzar y no desviar la atención de ella.
b) Elaborar un plan para lograr conseguir esa meta, un plan cuidadoso y detallado que se va
siguiendo día por día, y que hace que nuestra actividad sea organizada y llena de entusiasmo.
c) Desarrollar un sincero deseo de realizar aquello que se desea conseguir. El deseo ardiente
es el más importante motivador de las acciones. El deseo de lograr éxitos consigue la costumbre de
conseguir éxitos.
e) Dedicarse a una acción tenaz e incansable para lograr obtener la meta que se busca
conseguir, sin desanimarse por los obstáculos, las críticas, las circunstancias adversas, o lo negativo que los
demás piensen, hagan o digan. Esa energía concentrada hacia la consecución de una meta, trae
enormemente las oportunidades, las cuales no se dejan atrapar por los que están sin hacer nada, pero se
acercan generosamente a quienes se atreven a atacar, a trabajar fuertemente por conseguir el éxito.
Esta fórmula básica Meyer la llamó “El plan del éxito personal a base de automotivación”, para desarrollar
al máximo el potencial de cada uno.
Meyer resume la fórmula básica en la siguiente frase:
“Todo lo bueno que: vivamente imaginamos, ardientemente deseamos, sinceramente creamos, y
entusiastamente emprendamos, de una manera impresionantemente favorable se transformará en algo
placentero y beneficioso para nosotros”
(Eliécer Salesman. “100 Fórmulas para llegar al éxito”)
Si una de tus metas es APRENDER aplica esta fórmula y “comienza con la mente abierta”. La cualidad más
importante que afectará tu éxito en el curso es tu ACTITUD. Ésta determinará lo que estés dispuesto a
hacer en el curso, y la calidad de ese esfuerzo contribuirá de la manera más significativa a tu éxito.
2
Contenido
I Documento introducción
II Estudio de Caso.
IV Estudio de caso
V Estudio de caso
VI Estudio de caso
IX Estudio de caso
X Estudio de caso
3
I. Documento introducción :Análisis Inicial de los datos1
Cuando nos enfrentamos por primera vez a la realización de un análisis estadístico la máxima preocupación
es profundizar en la técnica estadística seleccionada, sin .embargo, existe una etapa previa incluso más
compleja y esencial que consiste en realizar un examen exhaustivo de los datos recabados.
La depuración de los datos o detección de problemas ocultos en los datos supondrá un gran avance en la
consecución de resultados lógicos consistentes. Dichos problemas se pueden subsanar comenzando por una
inspección visual de las representaciones gráficas de los datos, completándose con un análisis de datos
ausentes o perdidos y de los casos atípicos (conocidos bajo la denominación de outliers).
La difusión experimentada en los últimos años por los programas estadísticos ha facilitando la
incorporación de módulos específicamente diseñados para la inspección gráfica de los datos.
El estudio de cada variable es fundamental para conocer sus características y comprobar si es oportuna y
relevante su inclusión en el análisis. Para ello se aconseja observar la forma de su distribución. Esto se
consigue mediante el histograma, que representa gráficamente los datos mostrando en barras la frecuencia
de los casos en cada variable. Si a su vez se pretende evaluar la normalidad de la variable, se efectuará
superponiendo la curva normal sobre la distribución o realizando gráficos P-P o Q-Q.
Mediante el gráfico de dispersión se podrá examinar la relación entre dos o más variables. Se trata de un
gráfico de puntos de datos basados en dos variables, representadas una en el eje horizontal y la otra en el
vertical. El posicionamiento de los puntos a lo largo de una línea recta se debe a la existencia de correlación
lineal. Si los puntos siguen distintas formas la relación no podrá calificarse de lineal. La inexistencia de
relación se podrá constatar si la nube de puntos es aleatoria y dispersa. ( Mediante correlaciones
bivariadas Pearson se podrá determinar mediante una prueba de hipótesis si la correlación entre dos
variables de escala es significativa).
Mediante el gráfico de cajas o boxplot se puede llevar a cabo un análisis de las diferencias entre grupos, si
lo que se pretende es apreciar la existencia de dos o más grupos en una variable métrica, como ocurre en el
análisis discriminante o en el análisis de la varianza. Este gráfico distribuye los datos de tal forma que los
límites superior e inferior de la caja marcan los cuartiles superior e inferior. La longitud de la caja es la
distancia entre el primer y tercer cuartil; así, la caja contiene el 50 por ciento de los datos centrales de la
distribución. La mediana se representa mediante una línea dentro de la caja. Existirá asimetría si la
mediana se aproxima al final de la caja. El tamaño de la caja dependerá de la distancia entre las
observaciones. También se representa la distancia entre la mayor y la menor de las observaciones mediante
unas líneas que salen de la caja denominadas bigotes. En este tipo de gráfico los casos atípicos se pueden
detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja.
Diagrama de caja simple: Contiene un único diagrama de caja para cada categoría o variable del eje de
categorías. Los diagramas de caja muestran la mediana, los cuartiles y los valores extremos para la
categoría o variable.
Diagrama de caja agrupado: Tipo de gráfico en el que un grupo de diagramas de caja representa cada
categoría o variable del eje de categorías. Los diagramas de caja dentro de cada agrupación vienen
definidos por una variable de definición distinta.
1
TP PT Análisis Estadístico Multivariable de Manuel Vivanco
4
Años de escolarización por raza
899 634
20
718
10
691
1.366 702
244 693
5
620 688
596 765 1.476
735
0
15
10
1.404
804
244 621 1.448 693
5
620 695 688
596 821 765
735
0
5
Detección de variables con categorías mal codificadas
En muchos archivos de datos se detectan problemas en variables nominales con categorías en formato
cadena sin un código asociado. Para detectar este problema es aconsejable realizar tablas de frecuencia de
las variables y observar si las categorías presentan errores de digitación, como por ejemplo la variable
sexo podría presentar problemas si las categorías están mal digitadas; Hombre, HOMBRE, hombre
representan a la misma categoría, sin embargo en una tabla de frecuencia aparecerán como categorías
diferentes. Para solucionar este problema se recomienda recodificar automáticamente asignándole a las
categorías de la variable un código numérico y luego con recodificar en distinta variable asignar
correctamente los códigos.
El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en los resultados y
sus efectos en el tamaño de la muestra disponible para el análisis, dado que esta ausencia puede convertir
lo que era una muestra adecuada en inadecuada. Por ello es necesario depurar esos casos y buscar
soluciones. Si se puede suponer que los fundamentos teóricos de la investigación no se alteran
sustancialmente, una opción sería suprimir aquellas variables y/o casos que peor se comportan respecto a
los datos ausentes. En este caso el investigador deberá sopesar lo que gana con la exclusión de esta
información y lo que pierde al no contar posteriormente en el análisis multivariante con la misma. Mediante
este proceder se asegura de que su matriz de datos está completa y posee observaciones válidas.
Otra posibilidad sería la estimación de valores ausentes empleando relaciones conocidas entre valores
válidos de otras variables y/o casos de la muestra. Por tanto, se trataría de imputar o sustituir los datos
ausentes por valores estimados (bien sea la media o un valor constante) en base a otra información
existente en la muestra.
Un porcentaje bajo de valores missing no es un problema que influya decisivamente en los resultados. Por
el contrario, la falta reiterada de respuesta puede alterar seriamente el análisis. No existe una estimación
respecto al porcentaje de missing que produce dificultades en una muestra determinada.
Según Tabachnik y Fidell (1983) más importante que el número de valores missing es la existencia de un
patrón de comportamiento en éstos. En efecto, la presencia de missing que se distribuyen aleatoriamente
no produce sesgos, sin embargo, la falta de respuesta sistemática asociada a ciertas variables puede
generar distorsión en los resultados.
La existencia de datos ausentes nunca debe impedir la aplicación del análisis multivariable o limitar la
posibilidad de generalizar los resultados de una investigación. La principal tarea del analista consistirá en
identificar su presencia, y desempeñar las acciones necesarias para minimizar sus efectos.
En datos correspondientes a encuestas es habitual encontrar códigos como los siguientes.
7= No procede, 8= No sabe , 9= No contesta
97= No procede, 98= No sabe, 99= No contesta
997= No procede, 998= No sabe, 999= No contesta
6
Se utilizan estos códigos cuando no son parte de los posibles datos de la variable.
El SPSS tiene un menú especial para tratar los valores perdidos.
El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el sistema.
Detección de outliers
Al examinar los datos recabados después de un proceso muestral el investigador puede detectar la
existencia de ciertas observaciones que no siguen el mismo comportamiento del resto, enfrentándose de
este modo a ciertos casos que, por ser claramente diferentes de otras observaciones de la muestra, son
calificados como outliers o atípicos.
El objetivo ante esta situación es identificar esa diferencia sustancial entre el valor real de la variable
criterio y su valor previsto, puesto que da lugar a observaciones que no son representaciones apropiadas de
la población de la cual se extrae la muestra.
Los casos atípicos se deben a errores en el procedimiento, o lo que es lo mismo, a falta al introducir los
datos o al codificar. Pero también pueden ser consecuencia de un evento extraordinario que hace destacar
esa observación. Este acontecimiento anormal puede tener o no una explicación. En cualquiera de estas
situaciones, una vez que: los outliers el analista debe juzgar qué es lo más apropiado: si evaluar toda la
incluyendo estas perturbaciones o eliminadas del análisis.
Estas decisiones han de justificarse, dado que determinados casos atípicos: aunque diferentes a la mayor
parte de la muestra, pueden contener información representativa de un segmento dominante. No obstante,
habrá situaciones donde lo más acertado sea su supresión porque pueden distorsionar seriamente los tests
estadísticos dados los problemas que presentan.
La detección de los casos atípicos desde una perspectiva univariable pasa por la observación de aquellos
casos que caigan fuera de los rangos de la distribución. Si lo que se pretende es evaluar conjuntamente
pares de variables se utilizará el gráfico de dispersión. Este método bivariable permite identificar los
casos atípicos al venir representado como puntos aislados. Por su parte, la detección multivariable supone
evaluar cada observación a lo largo de un conjunto de variables. Esto se consigue mediante el uso de la
Mahalanobis, puesto que es una medida de la distancia de cada observación en un espacio multidimensional
respecto del centro medio de las observaciones.
7
II. Estudio de Caso: Caracterización del Mundo2
Considere el archivo Mundo 95, que contiene las siguientes variables de los países del Mundo en el
año 1995:
Variable Etiqueta Etiqueta de Valor
país País
poblac Población x 1000
densidad Habitantes x Km2
urbana Habitantes en ciudades (%)
relig Religión mayoritaria
espvidaf Esperanza de vida Femenina
espvidam Esperanza de vida Masculina
alfabet Alfabetización (%)
inc_pob Aumento de población (% anual)
mortinf Mortalidad infantil (Muertes por 1000 nacimientos
vivos)
pib_cap Producto interno bruto per cápita
región Región Económica 1 = OCDE
2 = Europa Oriental
3 = Asia / Pacífico
4 = Africa
5 = Oriente Medio
6 = América Latina
calorías Ingesta diaria de calorías
sida Casos de SIDA
tasa_nat Tasa de natalidad (por 1.000 habitantes)
tasa_mor Tasa de mortalidad (por 1.000 habitantes)
tasasida Casos de SIDA por 100.000 habitantes
log_pib Log(10) de PIB_CAP
logtsida Log(10) de TASASIDA
nac_def Tasa nacimentos/defunciones
fertilid Número promedio de hijos
log_pob Log(10) de POBLAC
cregrano --
alfabmas Hombres alfabetizados (%)
alfabfem Mujeres alfabetizadas (%)
clima Clima predominante 1 = Desierto
2 = Arido / Desierto
3 = Arido
5 = Tropical
6 = Mediterráneo
7 = Marítimo
8 = Templado
2
TP Caso desarrollado por Sara Arancibia
8
9 = Artico /
Templado
10 = Artico
Usted debe realizar un informe donde compare los países en al menos los siguientes aspectos: Población,
densidad, % de habitantes en ciudades, esperanza de vida, alfabetización (%), tasas de natalidad y
mortalidad, número promedio de hijos por familia, tasa sida, considerando las variables nominales Región,
Religión mayoritaria y clima predominante.
Para su informe debe considerar al menos los siguientes puntos:
(i) Tres gráficos distintos con su interpretación.
(ii) Tablas de frecuencia
(iii) Tablas de contingencia
(iv) Outliers (Valores extremos)
(v) Medidas de tendencia central
(vi) Medidas de dispersión
(vii) Cubos OLAP
(viii) Puntuaciones z
Solución:
Comenzaremos el estudio determinando la frecuencia de las variables nominales; Región Económica, Religión
Predominante y Clima Predominante de los países
La tabla de frecuencia muestra el número de países por Región económica. Se observan dos regiones con la
mayor frecuencia, (21 países) las que corresponden a la Región OECD (Organización para la Cooperación y el
Desarrollo Económico) y a la Región de Latino América, correspondiendo al 19,3% del total de países. La
menor frecuencia se observa en Europa del Este con 14 países de un total de 109 países.
El gráfico siguiente muestra la frecuencia y porcentaje de países por Religión predominante.
9
Frecuencia y porcentaje de países
Other Buddhist
Protstnt
16,00 / 14,7%
Catholic
Orthodox
41,00 / 37,6%
8,00 / 7,3%
Muslim
27,00 / 24,8%
Se observa que 41 países que representan el 37,6% del total de países considerados tienen como religión
predominante a la religión Católica y 27 países a la religión Musulmana representando el 24,8% del total de
países considerados.
Para generar el gráfico: Graficar/Sectores/Resumen para grupos de casos/Nº de casos/Religión
Predominante. En el editor de gráficos se pide texto, valor y porcentaje y se colapsa los sectores a
mayores del 5%.
La tabla de frecuencia para religión predominante muestra complementariamente al gráfico anterior que
las religiones con menor frecuencia son las religiones Hindú, Judía, Taoísta y Tribal
Predominant religion
Al cruzar las variables región y religión podemos observar en la tabla de contingencia que la Religión
Predominante Animista pertenece a países de África. La religión predominante Católica se encuentra en
todas las regiones excepto en la Región de Oriente donde la religión predominante es la Musulmana con 15
países de un total de 17 países de la región
10
Predominant religion * Region or economic group Crosstabulation
Count
Region or economic group
East Pacific/ Middle Latn
OECD Europe Asia Africa East America Total
Predominant Animist 4 4
religion Buddhist 7 7
Catholic 10 5 1 5 20 41
Hindu 1 1
Jewish 1 1
Muslim 1 5 6 15 27
Orthodox 1 6 1 8
Protstnt 10 2 1 2 1 16
Taoist 2 2
Tribal 1 1
Total 21 14 17 18 17 21 108
En relación al Clima Predominante se observa que las mayores frecuencias corresponden a los climas
Temperado y Tropical los que representan un 31,8% y 29,9% respectivamente, respecto al total de datos
válidos.
Predominant climate
Ahora consideremos la población, densidad y habitantes que viven en ciudades. Podemos observar del
gráfico correspondiente a la mediana de población por región económica que el 50% de los países del
Asia/Pacífico tienen una población mayor o igual a 59.400.000 habitantes, valor notablemente alto en
relación a las medianas del resto de las regiones las que oscilan entre 10.400.000 y 5.500.000 habitantes.
11
Mediana de Población por Región Económica
70000
60000
59400
50000
30000
20000
10000
10400 9600 9100 7900
0 5500
OECD Pacific/Asia Middle East
East Europe Africa Latn America
Coherente con lo anterior se observa que la mayor densidad por región económica corresponde a la región
Asia/Pacífico con un valor promedio de 802 habitantes por kmP2P, la que es considerablemente superior a la
densidad promedio del resto de regiones, las que oscilan entre 127 y 62 habitantes por kmP2P
correspondiendo esta última a la región de África
800
802
600
400
200
108 127
77 62 88
0
OECD Pacific/Asia Middle East
East Europe Africa Latn America
12
Media de porcentaje de población
OECD 75
East Europe 62
Region or economic group
Pacific/Asia 45
Africa 29
Middle East 66
Latn America 61
20 30 40 50 60 70 80
En relación al porcentaje de personas que viven en ciudades, se observa del gráfico que el mayor
porcentaje promedio corresponde a la Región OECD, con un 75% en promedio. Es considerable la diferencia
con la región de África donde el promedio de población urbana es del 29%, seguido de Asia/Pacífico con un
promedio del 45%.
Podemos complementar la información anterior con Cubos OLAP, los que muestran por grupos, los
estadísticos que se necesiten conocer. Específicamente los Cubos siguientes muestran para las regiones
OECD y África, el número de países el que corresponde a 21 y 18 países respectivamente. Se observa la
media para cada una de las variables consideradas y la desviación estándar que muestra cuánto se desvían
los datos, en promedio respecto a la media.
Al considerar el cubo correspondiente a la región OECD se observan los valores mínimo y máximo, es
sorprendente observar que existen países con una densidad de 2,3 habitantes por kmP2P y de 366 personas
por kmP2P. Al considerar la población, dentro de los países del OECD se puede apreciar un valor mínimo de
263.000 habitantes en oposición al valor máximo de 260.800.000 habitantes. El mayor porcentaje de
población urbana corresponde al 96% y el menor corresponde al 34%.
OLAP Cubes
13
OLAP Cubes
Para generar las tablas: Analizar/Estadísticos Descriptivos/Explorar. En Factor colocar Región económica
y etiquetar por país. En Estadísticos seleccionar Valores Atípicos.
Ahora consideraremos las variables; Esperanza de vida femenina, esperanza de vida masculina, tasa de
natalidad, tasa de mortalidad, tasa sida, fertilidad y alfabetización
El gráfico siguiente muestra la media de esperanza de vida femenina y masculina por Región Económica. Se
observa que en todas las regiones es mayor la media de esperanza de vida femenina que masculina siendo la
región del OECD, la de mayor esperanza de vida, con un promedio de 80 y 74 años para mujeres y hombres
respectivamente. Es notable la diferencia con África donde se observa que el promedio de esperanza de
vida es muy baja siendo la media de 54 y 51 años para mujeres y hombres respectivamente.
14
Media de las variables Esperanza de Vida
80
80
76
74
70 72 72
68 67 67 66
60 63
40 Masculina
OECD Pacific/Asia Middle East
East Europe Africa Latn America
Región Económica
El siguiente gráfico apilado compara la tasa de natalidad y mortalidad por región económica, mostrando que
las mayores tasas corresponden a la región de África, las que indican que en promedio nacen 42 por cada
15
1.000 habitantes y mueren en promedio 15 por cada 1.000 habitantes. La menor tasa de natalidad en
promedio corresponde a la región del OECD
15
50
40 42
6
9 7
30 33
27 27
20 11 Death rate per 1000
10
people
10 13 13
Mean
0 people
OECD Pacific/Asia Middle East
East Europe Africa Latn America
Esta información está muy de acuerdo con la variable fertilidad, la que indica el promedio de hijos por
familia.
El diagrama de caja muestra por región económica que las mayores tasas de fertilidad se concentran en la
Región de África mostrando que la mediana representada por la línea horizontal en las cajas se aproxima al
valor 6 hijos por familia en promedio. El 50% de los datos de fertilidad de los países se encuentra en la
caja la que va desde el primer cuartil al tercer cuartil. La tabla de descriptivos para fertilidad por región
confirma la información entregada por el diagrama de caja.
Diagrama de caja
0
N= 21 13 16 19 17 21
16
Descriptives
Como complemento de la información vemos que la tabla siguiente muestra las medidas de tendencia central
y de dispersión para todas las variables consideradas en este apartado.
Descriptives
Si consideramos sólo los países de las regiones OECD y África, observamos cómo cambian las medidas de
tendencia central y dispersión ya que en todas las variables, los países de la región de África están con
índice muy por debajo de los de la región OECD. Si queremos reconocer qué países en esas regiones tienen
los cinco valores máximos y mínimos los podemos apreciar de la tabla de valores extremos.
17
Descriptives
Descriptives
18
EJERCICIOS:
1) Seleccione la Región de América Latina y realice un gráfico que muestre la población de los países
de esa región.
2) Segmente por región económica y calcule los cuartiles de esperanza de vida femenina y masculina
3) Crear rangos de “fertilidad” según los valores quintiles ( variable: Número promedio de hijos por
familia)
19
III. Estudio de Caso: Seguridad Minera3
El año 1980, el Servicio Nacional de Geología y Minería SERNAGEOMIN fue creado a partir de la unión del
Instituto de Investigaciones Geológicas y el Servicio de Minas del Estado, con el objetivo de ser el asesor técnico
especializado del Ministerio de Minería en materias geológicas y mineras. Su misión es producir y proveer
información y productos geológicos, ejercer la función pública de fiscalización de las condiciones de seguridad
minera y medioambiente en la minería y entregar asistencia técnica en materias de constitución de la propiedad
minera, con el fin de satisfacer las demandas de las instituciones del Estado, de las empresas públicas y
privadas, y de las personas que participan en el sector minero y en el quehacer geológico, contribuyendo al
desarrollo del país en un entorno social, económico y ambientalmente sustentable.
Una de las principales actividades del SERNAGEOMIN es la fiscalización, en materias de control de riesgos de
accidentes, a las empresas y los trabajadores que desarrollan actividades en el sector minero. Esta actividad
tiene su base legal en la Ley Orgánica del Servicio D.L. Nº 3.525 y se encuentra enmarcada dentro del
Reglamento de Seguridad Minera (D.S. Nº 72 del Ministerio de Minería, año 1985
Suponga que usted debe analizar la información entregada por SERNAGEOMIN relativa a accidentes en minería.
Considere el archivo de datos “Estadísticas seguridad minera (Archivo tarea 2).xls”
1- Desde SPSS importar el archivo “Estadísticas seguridad minera (Archivo tarea 2).xls” desde Excel. Calcular
una variable que represente el total de accidentes (considerando accidentes fatales más los accidentes C.T.P.).
Además considerando las regiones genere la variable zona; Norte, Centro y Sur. Muestre la sintaxis completa del
cálculo de ambas variables.
Luego considerando la totalidad de datos en el archivo de datos, genere una tabla donde muestre por zona la suma total
de accidentes; fatales, CTP y total de accidentes. Muestre la sintaxis.
¿Qué zona presenta la menor cantidad de accidentes C.T.P? ¿Qué zona presenta la mayor cantidad total de accidentes?
¿Qué zona presenta mayor cantidad de accidentes fatales y qué porcentaje representan respecto al total de accidentes
fatales?
2.- Crear un nuevo archivo que considere por año y tipo de empresa ( Mandantes y Contratistas): la media de
accidentes fatales, la suma de accidentes fatales, la media del total de accidentes, la suma del total de
accidentes, la media del total de accidentes, la suma de días perdidos, la suma de horas hombre. Pegar la
sintaxis.
3.- Considere el archivo creado en el punto anterior y calcule la tasa de frecuencia, la tasa de gravedad y la tasa
de fatalidad de acuerdo a las siguientes definiciones. (Fuente: Art.12° del D.S N° 40 de la Ley 16.744)
Tasa de Frecuencia: Número de lesionados por millón de horas trabajadas por todo el personal en el período
considerado.
3
TP Caso desarrollado por Sara Arancibia
20
Tasa de Gravedad: Número de días de ausencia al trabajo de los lesionados por millón de horas trabajadas por
todo el personal en el período considerado.
Tasa de Fatalidad: Numero de fatales por millón de horas trabajadas por todo el personal en el período
considerado
Pegar la sintaxis de los cálculos y mostrar un gráfico que permita visualizar en qué años la tasa de fatalidad toma
un valor extremo o atípico por tipo de empresa (Mandantes, Contratistas). ¿En qué tipo de empresa la mediana
es mayor? ¿En qué tipo de empresa se presentan las tasas de fatalidad más altas y dónde se observa más
variabilidad? Argumente su respuesta.
4.- Crear un nuevo archivo que considere por región y empresas; la media de accidentes fatales, la suma de
accidentes fatales, la suma del total de accidentes, el mínimo del total de accidentes, el máximo del total de
accidentes. Pegar la sintaxis. Muestre una tabla identificando la región donde se presentan los cinco valores
mayores para las variables; suma total de accidentes y suma de accidentes fatales, por tipo de empresa
(Mandantes y contratistas). Comente la tabla.
SOLUCION
Pregunta 1.
SINTAXIS
DATASET ACTIVATE Conjunto_de_datos3.
COMPUTE totalacc=AccidentesFatales + AccidentesC.T.P.
VARIABLE LABELS totalacc 'total de accidentes'.
EXECUTE.
Antofagasta 1 Antofagasta
Arica-Parinacota 2 Arica-Parinacota
Atacama 3 Atacama
Coquimbo 4 Coquimbo
De Aysén 5 De Aysén
De Los lagos 6 De Los lagos
Del Bío Bio 7 Del Bío Bio
21
Del Libertador Bernardo 8 Del Libertador Bernardo
O´Higgins 8 O´Higgins
Del Maule 9 Del Maule
Magallanes 10 Magallanes
Metropolitana 11 Metropolitana
Tarapacá 12 Tarapacá
Valparaíso 13 Valparaíso
RECODE regionrec (12=1) (11=2) (13=2) (10=3) (1 thru 4=1) (8 thru 9=2) (5 thru 7=3) INTO zona.
EXECUTE.
En definición de la variable
1 Norte
2 Centro
3 Sur
¿Qué zona presenta la mayor cantidad total de accidentes? La zona Norte con 21702
22
¿Qué zona presenta mayor cantidad de accidentes fatales y qué porcentaje representan respecto al total de accidentes
fatales?
La zona Norte con 390 accidentes fatales y representan el 70,7% del total de accidentes fatales
Pregunta 2:
SINTAXIS
AGGREGATE
/OUTFILE='G:\CURSOS 2011\MBA MINERIA\TAREA 2- MBA Minería 2011\AGRaccidentes1.sav'
/BREAK=Años Empresas
/AccidentesFatales_mean=MEAN(AccidentesFatales)
/AccidentesFatales_sum=SUM(AccidentesFatales)
/AccidentesC.T.P_mean=MEAN(AccidentesC.T.P)
/AccidentesC.T.P_sum_1=SUM(AccidentesC.T.P)
/totalacc_sum=SUM(totalacc)
/HorasHombre_sum=SUM(HorasHombre)
/DíasPerdidos_sum=SUM(DíasPerdidos)
/N_BREAK=N.
Pregunta 3
SINTAXIS:
23
Pregunta 4
SINTAXIS
24
25
IV Caso: Producción minera 2009-2010
Suponga que usted es un asesor de una empresa minera y debe entregar algunas estadísticas de producción
agregada. Considere el archivo en Excel llamado Producción minera 2009-2010.
El objetivo de este caso es importar un archivo desde Excel a SPSS, utilizar algunas funciones para
calcular variables y generar nuevos archivos con agregar.
1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.
2) Calcule una variable que muestre solo el año y otra que muestre solo el mes
3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando
la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción
mensual, la variabilidad, la mínima y máxima producción.
4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con
los datos del archivo.
5) Genere un gráfico que muestre para cada año la producción promedio mensual de cobre
6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y
máxima producción mensual y la variabilidad de producción de cobre
7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la
producción de oro. Para esto considere la media de producción mensual , la mínima y máxima producción, la
desviación estándar y el coeficiente de variabilidad de la producción de oro.
26
SOLUCION
1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.
Solución: Archivo /abrir/datos
Ajuste en vista de variables los decimales a 2 y guardar con el nombre producción minera 2009-2010
mensual
2) Calcule una variable que muestre solo el año y otra que muestre solo el mes.
27
Para calcular el mes
Transformar /calcular variable/ variable de destino: mes, tipo; cadena, anchura 10/expresión de cadena:
CHAR.SUBSTR(AñoyMes,6). Pegar/ ejecutar/Aceptar.
3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando
la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción
mensual , la variabilidad, la mínimo y máxima producción
28
4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con
los datos del archivo.
Datos/ transponer
DATASET ACTIVATE Conjunto_de_datos10.
FLIP VARIABLES=Cobretdefino_sum Cobretdefino_min Cobretdefino_max Cobretdefino_sd
Orokgdefino_sum
Orokgdefino_mean_1 Cobretdefino_mean Orokgdefino_min Orokgdefino_max Orokgdefino_sd
/NEWNAME=año.
Se genera un nuevo archivo sin título. Guardar como: Producc agregada 2009-2010, luego ir a Analizar/
informes Resúmenes de casos./limitar a los primeros 11 casos.
29
5) Genere un gráfico que muestre para cada año la producción mensual de cobre
Considere el archivo AGRPROD.sav /ir a gráficos /cuadros de diálogo antiguos/ barras/ simple/ valores
individuales de casos/ las barras representan: Cobretdefino_mean, varaible:año
Otra forma Considere el archivo prod minera 2009-2010. Ir a gráficos /cuadros de diálogo antiguos/
barras/ simple/ resúmenes para grupos de casos/ las barras representan: MEAN(Cobretdefino), eje de
categorías : año
30
6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y
máxima producción mensual y la variabilidad de producción de cobre
Ir a gráficos /cuadros de diálogo antiguos/ barras/ agrupados/ resúmenes para distintas variables/ las
barras representan: MEAN(Cobretdefino), MIN(Cobretdefino), MAX(Cobretdefino), STD(Cobretdefino),
eje de categorías : año. Aceptar
31
7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la
producción de oro. Para esto considere la media de producción mensual, la mínima y máxima producción, la
desviación estándar y el coeficiente de variabilidad de la producción de oro.
Ir a Datos Agregar/ Considere las variables como en la imagen y escriba un nuevo archivo de datos con el
nombre AGRPRODMES.sav
Luego abrir el archivo creado y generar la variables CV (Coeficiente de variabilidad). Para esto ir a
Transformar/calcular/ (Orokgdefino_sd / Orokgdefino_mean_1)*100
32
33
V. Estimación por Intervalos de Parámetros Poblacionales4.
(Muestras, intervalos de confianza).
a) Usando algún gráfico, identifique cuál es la distribución de las personas respecto a sus ingresos en
esta población conformada por 1.000 trabajadores.
Histograma
3
100 2
Normal esperado
1
80
0
-1
Frecuencia
60
-2
40 -3
Valor observado
20
Media =500,4162
Desviación típica =24,
05464
0 N =1.000
420,00 450,00 480,00 510,00 540,00 570,00
ingreso
EXAMINE
VARIABLES=ingreso
/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
ingreso ,014 1000 ,200* ,999 1000 ,743
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
4
Caso elaborado por Jaime Pérez-Kallens
34
Dado que la significancia de la prueba K_S es mayor a 0,05 no hay evidencia para rechazar la hipótesis
nula de normalidad de la variable y por tanto la variable distribuye normal
Descriptivos
USE ALL.
COMPUTE filter_$=(uniform(1)<=.20).
VARIABLE LABEL filter_$ 'Aproximadamente 20 % de los casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
genero
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 78 37,1 37,1 37,1
Masculino 132 62,9 62,9 100,0
Total 210 100,0 100,0
35
Genera una muestra aleatoria con el porcentaje aproximado de casos indicado.
Selecciona una muestra aleatoria con el número de casos especificado a partir del número total de casos
especificado. Si el número total de casos especificado excede el número total de casos presentes en el
archivo de datos, la muestra contendrá un número menor de casos proporcional al número solicitado.
USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
36
genero
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 78 39,0 39,0 39,0
Masculino 122 61,0 61,0 100,0
Total 200 100,0 100,0
d) Con la muestra antes seleccionada estime el ingreso medio por trabajador con un nivel de confianza
del 90%. Interprete el intervalo resultante. Además, verifique si la media poblacional está contenida en el
intervalo construido. Por último, identifique los principales estadísticos para la construcción del intervalo
de confianza.
Descriptivos
A partir de la muestra (200 registros) obtenemos el intervalo de confianza del 90% para la media
(497,3828 ; 503,0922)
De 100 intervalos similarmente construidos, 90 contendrán el parámetro poblacional
(media poblacional)
Se verifica que la media poblacional 500,4162 pertenece al intervalo de confianza antes indicado
Intervalo de confianza:
Limite inferior X z = 500,2375-1,645*1,72747=-497,3958
n
Limite superior X z =500,2375+1,645*1,72747=503,07918
n
24,43005
1,727465
n 200
37
e) Seleccione una nueva muestra aleatoria, del 20%, y construya otro intervalo de confianza para
estimar el ingreso promedio por persona, con un nivel de confianza del 90%; verifique si la media
poblacional está contenida dentro del intervalo. Además, compare este intervalo con el anterior y comente.
USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
Descriptivos
USE ALL.
do if $casenum = 1.
compute #s_$_1=10.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
38
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '10 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
EXAMINE
VARIABLES=ingreso
/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Descriptivos
genero
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 400 40,0 40,0 40,0
Masculino 600 60,0 60,0 100,0
Total 1000 100,0 100,0
39
h) Seleccione una muestra aleatoria, del 20% y estime la proporción de hombres que hay en la
población, con un nivel de confianza del 95%. Verifique si la proporción poblacional de hombre, está
contenida en el intervalo de confianza que construyó.
Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
genero 200 100,0% 0 ,0% 200 100,0%
USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
Descriptivos
40
VI. Estudio de Caso: Test market5
Una compañía produce computadores personales y está considerando la introducción de nuevos colores
para el hardware con la esperanza de aumentar las ventas. El mantenimiento de la producción de más de un
color de equipo es costoso.
Para la introducción de nuevos colores la empresa ha establecido que será rentable si llega a una meta de
ventas promedio de 260 unidades por semana.
El departamento de marketing introduce y publicita una presentación de los nuevos colores en un
experimento de prueba de marketing por 36 semanas
Las ventas semanales están dadas en el archivo testmarket.sav
Basada en las ventas en testmarket, ¿debería la compañía adoptar la opción de nuevos colores?
Los datos tabulados han sido entregados a usted en el archivo “testmarket colores” y se le solicita que
responda las siguientes preguntas:
Nota: Muestre todas las sintaxis necesarias para responder cada una de las preguntas.
1. Suponga que se quiere convencer a los ejecutivos que las ventas justifican la introducción de
nuevos colores. Es decir se quiere argumentar que el promedio semanal de ventas con la opción de
colores es mayor a 260 unidades.
Determine si existen diferencias significativas en la media de ventas semanales respecto a 260. Si
hay diferencias determine si la media poblacional es superior a 260 y estime un intervalo de
confianza para la media poblacional con un 95% de confianza. Interprete. (Debe verificar si se
cumplen las condiciones para aplicar test de hipótesis).
Solución
En primer lugar se debe agregar por semana, sumando la cantidad de ventas de computadores
AGGREGATE
/OUTFILE='F:\CURSOS 2012\AIE 2012-1\SOLEMNE 2- 2012\Archivos solemne2-2012-1\AGR
ventas.sav'
/BREAK=Semana
/cantidad_sum 'venta semanal'=SUM(cantidad)
/N_BREAK=N.
5
Caso elaborado por Sara Arancibia
41
DATASET ACTIVATE Conjunto_de_datos5.
EXAMINE VARIABLES=cantidad_sum
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Ahora aplicamos una prueba T para una muestra donde las hipótesis correspondientes son
T-TEST
/TESTVAL=260
/MISSING=ANALYSIS
/VARIABLES=cantidad_sum
/CRITERIA=CI(.99).
42
Dado que la sig es menor a 0,05 existe evidencia para rechazar la hipótesis nula y por tanto la media
poblacional de ventas difiere significativamente de 260.
Dado que la diferencia µ-260 está entre dos valores positivos entre 8,7355 y 44,0422 entonces se tiene
que
µ-260>0 es decir µ>260. Por tanto la media poblacional de las ventas semanales es superior a 260, lo que
implica que la compañía debería adoptar la opción de nuevos colores.
Además con un 95% de confianza la media poblacional µ está entre 260+8,7365 y 260+44,0422 es decir
entre 268,7355 y 304,0422.
NOTA: Otra forma para estimar el intervalo de confianza es pedir directamente el intervalo de confianza
en explorar para la media de ventas obteniendo
EXAMINE VARIABLES=cantidad_sum
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 99
/MISSING LISTWISE
/NOTOTAL.
2. Los directivos han observado que el rojo es el que menos se vende y lo han descartado.
a) Se le solicita que determine si existen diferencias significativas entre la venta promedio
semanal de los computadores en color gris plateado y rosado con un 95% de confianza.
Argumente su respuesta.
(Debe verificar si se cumplen las condiciones para aplicar test de hipótesis).
43
b) Determine si existen diferencias significativas entre la venta promedio semanal de los
computadores en color gris plateado y blanco con un 95% de confianza. Argumente su
respuesta.
Solución
En primer lugar se verificará si la variable ventas distribuye normal en cada uno de los grupos de colores
que interesan (Gris plateado, rosado y blanco)
Del test de normalidad Shapiro -Wilk se observa que no hay evidencia para rechazar la hipótesis nula y
por tanto la variable ventas distribuye normal en cada grupo (dado que la significancia es superior a 0,05).
a) Ahora aplicamos el test T para muestras independientes donde las hipótesis correspondientes son
Ho: No existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado
y rosado (Ho: µ1= µ2)
H1: Existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado y
rosado (Ho: µ1≠ µ2)
En primer lugar se ve el test de Levene de homogeneidad de varianzas donde las hipótesis son:
Ho: No existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris
plateado y rosado (Ho: )
H1: Existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris plateado y
rosado (H1: )
44
T-TEST GROUPS=COLOR(1 3)
/MISSING=ANALYSIS
/VARIABLES=cantidad
/CRITERIA=CI(.95).
Del test de Levene se tiene que no hay evidencia para rechazar la hipótesis nula y por lo tanto se asume
varianzas iguales.
En consecuencia se analiza la primera fila en el test de igualdad de medias
Del test se observa que hay evidencia para rechazar la hipótesis nula de igualdad de medias y por tanto
existen diferencias significativas en la media de ventas entre el gris plateado y rosado.
Del intervalo de confianza para la diferencia de medias al 95% de confianza, se observa que la diferencia
µ1- µ2 está entre dos valores positivos y por tanto µ1> µ2, es decir la media de ventas del color gris
plateado es mayor a la media de ventas del rosado.
b) En la pregunta b) también se aplica el test T para muestras independientes donde las hipótesis
correspondientes son
Ho: No existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado
y blanco (Ho: µ1= µ2)
H1: Existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado y
blanco (Ho: µ1≠ µ2)
En primer lugar se ve el test de Levene de homogeneidad de varianzas donde las hipótesis son:
Ho: No existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris
plateado y blanco (Ho: )
H1: Existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris plateado y
blanco (H1: )
45
/VARIABLES=cantidad
/CRITERIA=CI(.95).
Del test de Levene se tiene que no hay evidencia para rechazar la hipótesis nula y por lo tanto se asume
varianzas iguales.
En consecuencia se analiza la primera fila en el test de igualdad de medias
Del test se observa que no hay evidencia para rechazar la hipótesis nula de igualdad de medias y por tanto
no existen diferencias significativas en la media de ventas entre el gris plateado y blanco.
46
VII. Estudio de Caso: Estudio Morfología6
Coeficiente de Correlación
Considere el archivo “Estudio Morfología.sav”.
Correlaciones
Cociente
intelectual ESTATURA PESO
Cociente intelectual Correlación de Pearson 1 ,081 ,001
Sig. (bilateral) . ,325 ,988
N 149 149 148
ESTATURA Correlación de Pearson ,081 1 ,600**
Sig. (bilateral) ,325 . ,000
N 149 150 149
PESO Correlación de Pearson ,001 ,600** 1
Sig. (bilateral) ,988 ,000 .
N 148 149 149
**. La correlación es significativa al nivel 0,01 (bilateral).
b) Diagrama de Dispersión
La forma de una relación se puede estudiar visualmente a partir de la nube de puntos generada en el
Gráfico de Dispersión:
6
Caso elaborado por Sara Arancibia y Nelson Rodriguez
47
Gráfico de dispersión simple
110
27
100
93
90 31
80
70
SEXO
60 Mujer
Hombre
50
PESO
Total Population
40 R² = 0,3606
120 140 160 180 200 220 240 260 280
ESTATURA
Descubra qué puntos están alejados de la nube y fíltrelos para volver a hacer el gráfico de dispersión,
compare ahora el R2 e interprete.
USE ALL.
COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31).
VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FILTER BY filter_$.
EXECUTE .
100
90
80
70 SEXO
Mujer
60
Hombre
50
PESO
Total Population
40 R² = 0,7182
140 150 160 170 180 190 200
ESTATURA
Se han filtrado los casos 27, 31 y 93
48
Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos.
Seleccione el par estatura - peso y el par ci - peso
200
31
100
Cociente intelectual
PESO
ESTATURA
0 PESO
40 50 60 70 80 90 100 110
Como hay tres variables habrá tres parejas de relaciones (con cuatro variables habrá seis parejas).
49
Utilizando el archivo “Estudio Morfología.sav”. responda las siguientes preguntas:
iii. Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y
Error típico de estimación
Resumen del modelo
El coeficiente R mide la fuerza de asociación lineal entre estatura y peso, la cual es considerable.
El R2 =0,718 indica que la variación en el peso se explica en un 71,8% por la variable estatura.
Una forma de estimar el error estándar del estimador es basándose en los residuos;
S Y ,X
e 2
n2
El error estándar de la estimación es una medida de cuán inexacto podría ser la predicción y mide la
dispersión con respecto a una recta promedio, denominada recta de regresión.
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 15309,683 1 15309,683 366,941 ,000a
Residual 6008,032 144 41,722
Total 21317,715 145
a. Variables predictoras: (Constante), ESTATURA
b. Variable dependiente: PESO
Cuando se trata de una regresión simple la prueba ANOVA se reduce a la prueba individual Test T donde
H0: 1 = 0
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -92,138 8,816 -10,451 ,000
ESTATURA ,999 ,052 ,847 19,156 ,000
a. Variable dependiente: PESO
Y = -92,13 + 0,999•X
donde Y = Peso
X = Estatura
v. Pruebe la hipótesis nula H0: 1 = 0 para la estatura y el peso. ¿Existe una relación
significativa entre el ingreso y el consumo?
En el SPSS ver la tabla “coeficientes“ que resultó en el ejercicio b) y observar el valor del estadígrafo t
(asociado a la pendiente de la regresión) y su nivel de significancia.
50
Dado que la sig < 0,01 se rechaza la hipótesis nula H0: 1 = 0. Concluimos entonces que existe una relación
significativa entre ingreso y consumo.
b1 ( 1 )o
t
sb1
donde s SY , X
b1
X
2
2
nX
Sin embargo, cuando, como ocurre por lo general, la hipótesis nula es que la pendiente es cero, la
fórmula se simplifica y enuncia como
b
t 1
sb1
El intervalo de confianza para la pendiente de la población 1, en el que los grados de libertad
asociados con t son n-2, se elabora de la siguiente manera:
b1 tsb1
Definición de grados de libertad: Los grados de libertad indican el número de valores “libres de
variar” en la muestra que sirve de base al intervalo de confianza.
vii. Determine el intervalo de confianza del 95% para 1. Para esto seleccione Regresión lineal/
Estadísticos/Intervalos de confianza.
En la tabla de resultados “coeficientes” del SPSS observe los límites inferior y superior del intervalo de
confianza para b1 al 95%.
51
Coeficientesa
Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) -92,138 8,816 -10,451 ,000 -109,564 -74,712
ESTATURA ,999 ,052 ,847 19,156 ,000 ,896 1,102
a. Variable dependiente: PESO
Coeficient
es
Coeficientes no estandari Intervalo de confianza para
estandarizados zados B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) 2,129 7,164 ,297 ,772 -13,834 18,092
INGRESO ,861 ,049 ,984 17,596 ,000 ,752 ,970
a. Variable dependiente: CONSUMO
viii. Determine los valores pronosticados y los residuos usando la ecuación de regresión desarrollada.
Compare los residuos obtenidos del SPSS. Para esto seleccione “Guardar” en el cuadro de diálogo
“Regresión lineal” y en el cuadro de diálogo siguiente considere valores pronosticados no tipificados (es
decir el valor que predice el modelo para la variable dependiente) y valores tipificados (transformación de
cada valor pronosticado a su forma tipificada). Además considere residuos no tipificados (es decir, la
diferencia entre un valor observado y el valor pronosticado del modelo) y los residuos tipificados.
52
Observación:
Si en la regresión lineal queremos llevar a cabo inferencias y partimos de los estadísticos obtenidos
en la muestra, deberemos tener en cuenta una serie de requisitos:
Normalidad e igualdad de las varianzas en la variable dependiente (Y) del modelo para
valores fijos de la independiente o independientes del mismo X.
Independencia de las observaciones
Linealidad en la relación entre las variables.
ix. Considere “Gráficos” del cuadro de diálogo ”Regresión lineal” para realizar los
siguientes gráficos:
1. Los residuos tipificados ZRESID frente a los valores pronosticados tipificados ZPRED para
contrastar la igualdad de las varianzas.
Nota: Si no hay ningún patrón sistemático claramente definido en los datos y los residuales fluctúan
aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor cero, podemos
concluir que se cumple el requisito de linealidad en la relación entre las variables. Este gráfico puede
igualmente servirnos para contrastar hasta qué punto el principio de igualdad de varianzas puede o no ser
violado por los datos. Si la variabilidad de los residuales a lo largo de los valores predichos es más o menos
constante, podemos concluir que se cumple la igualdad de varianzas. No en caso contrario.
53
Nota: El gráfico de residuos tipificados de prob. normal se usa para comprobar la normalidad. Si la variable
se distribuye normalmente los puntos representados forman una línea recta diagonal
,8 2
,5
Prob acum esperada
-1
,3
-2
0,0 -3
0,0 ,3 ,5 ,8 1,0 -3 -2 -1 0 1 2 3
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Standardized Residual ,044 146 ,200* ,992 146 ,601
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
54
VIII Estudio de Caso: Consumo producto7
El área de Marketing de una empresa necesita conocer un modelo que le permita pronosticar la cantidad
promedio consumida de un producto por una familia dependiendo de sus características. Para esto ha
recopilado una muestra aleatoria de 70 familias con la cantidad consumida de un producto en Kg, su ingreso
en miles de pesos y el tamaño de la familia (número de personas que componen la familia). Considere el
archivo “consumo producto.sav”
a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el modelo e
interprete.
b) Mostrar en un gráfico de dispersión simple para la variable que mas se correlaciona con el consumo
(mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos. Mostrar la
sintaxis.
c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita pronosticar la
cantidad consumida del producto. Interprete el coeficiente de determinación. Muestre las tablas de donde
se desprenden sus respuestas.
SOLUCION
a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el modelo e
interprete.
Correlaciones
tamaño de
cantidad ingreso la familia
cantidad Correlación de Pearson 1 ,693** ,401**
Sig. (bilateral) ,000 ,001
N 70 70 70
ingreso Correlación de Pearson ,693** 1 ,265*
Sig. (bilateral) ,000 ,027
N 70 70 70
tamaño de la familia Correlación de Pearson ,401** ,265* 1
Sig. (bilateral) ,001 ,027
N 70 70 70
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).
7
Caso elaborado por Sara Arancibia
55
La matriz de correlaciones nos muestra que todas las variables se correlacionan. La correlación más alta se
da entre cantidad consumida e ingreso (0,693) siendo significativa la correlación al nivel del 0,01. Lo mismo
ocurre para cantidad y tamaño de la familia pero la correlación es más baja alcanzando una fuerza de
asociación de 0,401.
b) Mostrar en un gráfico de dispersión simple para la variable que mas se correlaciona con el consumo
(mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos. Mostrar la
sintaxis.
140
70
120
100
cantidad
69
2
80
60
R Sq Linear = 0,48
40
ingreso
Se observa una fuerte asociación lineal positiva entre las variables cantidad consumida e ingreso.
Sin embargo se observa claramente tres valores atípicos.
USE ALL.
COMPUTE filter_$=(id ~= 2 & id ~= 69 & id ~= 70).
VARIABLE LABEL filter_$ 'id ~= 2 & id ~= 60 & id ~= 66 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
56
c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita pronosticar la
cantidad consumida del producto. Interprete el coeficiente de determinación. Muestre las tablas de donde
se desprenden sus respuestas.
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 16,897 3,218 5,250 ,000
ingreso ,064 ,003 ,921 19,092 ,000
a. Variable dependiente: cantidad
De la tabla anterior se desprende que ambos coeficientes son estadísticamente significativos pues su
significancia es menor a 0,05.
Ante el aumento de una unidad (mil pesos) en el ingreso, la cantidad consumida aumenta en promedio 0,064
Kg.
57
Gráfico P-P normal de regresión Residuo tipificado
0,8
Prob acum esperada
0,6
0,4
0,2
0,0
0,0 0,2 0,4 0,6 0,8 1,0
Observando al prueba de K-S se observa que no se rechaza la hipótesis de normalidad de los residuos.
58
Gráfico de dispersión
2
Regresión Residuo tipificado
-1
-2
-3
-2 -1 0 1 2 3
59
IX Estudio de caso: Desempleados
Los despidos y el desempleo han afectado a muchos trabajadores en los últimos años. En un estudio
publicado en la Revista de Relaciones Laborales se muestran datos de variables que pueden tener relación
con la cantidad de semanas que un empleado está desempleado. La variable dependiente en el estudio es
“Semanas” y se define como la cantidad de semanas que ha estado desempleado un trabajador a causa de
su despido.
Variable Etiqueta
edad Edad del trabajador
antig Antigüedad en el último empleo (en
años)
profesional 1 = Sí
0 = No
a) Realice un diagrama de dispersión para cada variable independiente con la variable dependiente.
¿Qué puede observar del gráfico?
Diagrama de Dispersión entre Semanas Desempleado Diagrama de Dispersión entre Semanas Desempleado
80 80
70 70
60
60
50
50
40
40
SEMANAS
30
SEMANAS
30
20
20
10 Rsq = 0,7216
10 Rsq = 0,2164
10 20 30 40 50 60
0 10 20 30 40
edad
ANTIG
En los diagramas de dispersión se puede observar que existe una correlación lineal positiva entre las
variables. En el caso de la edad vs. semanas, la correlación es lineal positiva alta mientras que en el caso de
la antigüedad vs. semanas, no se observa tan claro la linealidad.
60
Correlations
En la matriz de correlaciones se puede observar que tanto la correlación entre la edad y las semanas de
desempleo, como la correlación entre la antigüedad y las semanas de desempleo son significativas con un
nivel de significancia del 0.01 ( Se trata de correlaciones lineales positivas fuerte y moderada
respectivamente)
c) Ejecute la regresión lineal múltiple para obtener las tablas con las estimaciones del modelo e
interprete la tabla ANOVA. ¿Son estadísticamente significativas las variables independientes? Argumente.
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 10999,684 2 5499,842 61,892 ,000a
Residual 4176,496 47 88,862
Total 15176,180 49
a. Predictors: (Constant), ANTIG, edad
b. Dependent Variable: SEMANAS
Coefficientsa
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -17,428 5,983 -2,913 ,005
edad 1,794 ,192 ,818 9,318 ,000
ANTIG ,195 ,264 ,065 ,739 ,464
a. Dependent Variable: SEMANAS
El estadístico F contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto, permite
decidir si existe relación lineal significativa entre la variable dependiente y el conjunto de variables
independientes tomadas juntas. El valor del nivel crítico (Sig. = 0,000), es menor que 0,05, por tanto
existe relación lineal significativa.
Puede afirmarse, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen ajuste a
la nube de puntos.
Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa que el
coeficiente es estadísticamente significativo al nivel 0,05. Sin embargo, la significancia de la variable
antigüedad es mayor a 0,05 por lo que no se rechaza la hipótesis nula de que su valor es igual a cero.
61
d) Determine la ecuación de un modelo donde todas las variables sean significativas. Interprete el
coeficiente R y el R cuadrado.
Model Summary
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 10951,194 1 10951,194 124,416 ,000a
Residual 4224,986 48 88,021
Total 15176,180 49
a. Predictors: (Constant), edad
b. Dependent Variable: SEMANAS
Coefficientsa
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -18,179 5,868 -3,098 ,003
edad 1,863 ,167 ,849 11,154 ,000
a. Dependent Variable: SEMANAS
En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para los
desempleados existe una alta correlación lineal entre las variables SEMANAS y EDAD. Por otra parte, el
valor R2 = 0,722 indica que la variabilidad en las semanas de desempleo puede ser explicada en un 72,2%
por la variable EDAD.
e) ¿Qué ocurre si al último modelo le agrega la variable dami profesional? Interprete los coeficientes
de las variables independientes del último modelo.
Model Summary
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 12048,898 2 6024,449 90,542 ,000a
Residual 3127,282 47 66,538
Total 15176,180 49
a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad
b. Dependent Variable: SEMANAS
62
Coefficientsa
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -19,465 5,112 -3,808 ,000
edad 1,975 ,148 ,900 13,361 ,000
Es profesional
-11,512 2,834 -,274 -4,062 ,000
( 1=SI, 0=NO)
a. Dependent Variable: SEMANAS
Para este nuevo modelo se cumple que existe una relación lineal significativa entre la variable dependiente
y el conjunto de variables independientes tomadas juntas, lo que se observa en el valor del nivel crítico del
estadístico F, puesto que es menor que 0,05. Además, todas las variables independientes son significativas
pues la sig de las pruebas t son menores que 0,05 .
Ante el aumento de un año en la edad en promedio las semanas que un empleado permanece desempleado
aumentan en casi 1,98 semanas, manteniéndose el resto de variables constante. Por otra parte, el
coeficiente asociado a la variable dummy PROFESIONAL indica que para una misma edad, una persona
profesional, en promedio estará desempleada 11,512 semanas menos de lo que estaría si no fuera
profesional.
f) Para el último modelo seleccionado, determine si se satisfacen las hipótesis de normalidad de los
residuos y homocedasticidad.
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Standardized Residual ,088 50 ,200* ,970 50 ,407
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
La prueba de normalidad de Shapiro-Wilk indica que se cumple la hipótesis de normalidad. (La prueba de
Shapiro-Wilk es usada cuando hay hasta 50 casos. Dado que son 50 los casos analizados, se usa el
estadístico Shapairo Wilk).
63
Scatterplot
Dependent Variable: SEMANAS
2
-1
-2
-3
-2 -1 0 1 2 3
Este gráfico muestra que se cumple la hipótesis de homocedasticidad pues los puntos se encuentran
distribuidos en forma aleatoria sin seguir ningún patrón.
64
X. Estudio de caso: Consumo de agua potable8
Considere el archivo “consumo agua potable.sav” correspondiente a una muestra aleatoria de hogares de la
región Metropolitana que contiene el consumo de agua potable del mes de Enero del 2005. Considere
además el archivo Ingresos hogares correspondientes al ingreso familiar del hogar de los mismos hogares
de la muestra considerada para el consumo de agua potable.
Prepare un informe para un ejecutivo que necesita la siguiente información respecto al consumo de agua del
mes de Enero de los hogares de la base de datos con sus respectivos ingresos.
a) Crear una variable “gasto” que indique el gasto en agua potable de cada hogar, sabiendo que el gasto
depende del límite de sobreconsumo (LSC= 60 m3).
El valor del m3 de agua es $270 si el consumo es menor o igual al límite de sobreconsumo (LSC=60m3)
Para los metros cúbicos de agua que excede al LSC el valor por m3 es $560.
Mostrar la sintaxis correspondiente.
b) Mostrar una tabla que contenga el número de casos, la media, mediana, desv. estándar del gasto en agua
potable y de los ingresos de los hogares para las comunas de Cerrillos (1), El Bosque (4) y Providencia (22).
Muestre la sintaxis de todo el procedimiento.
c) Crear una variable “rangconsu” que considere los hogares con sobreconsumo (consumo>60), con consumo
normal (20<consumo<=60) y bajo consumo (consumo<=20). Mostrar la sintaxis correspondiente.
d) Crear un archivo que muestre por comuna y por rangos de consumo (sobreconsumo, normal y bajo) el
promedio de los gastos de agua potable y el promedio del ingreso de hogares. Muestre la sintaxis del
procedimiento e identifique las comunas con mayor promedio de gastos por rangos de consumo
f) Seleccione la variable que tenga la mayor correlación lineal con el gasto de consumo de agua potable y
verifique si existe correlación significativa entre estas variables. Muestre tabla y comente los resultados,
interpretando el coeficiente R.
h) Considerando el filtro seleccionado en c), determine una ecuación de regresión lineal simple para el
gasto de consumo de agua potable e interprete R, y el R cuadrado.
8
TP PT Caso elaborado por Sara Arancibia
65
i) Los coeficientes de la ecuación son estadísticamente significativos. Interprete la pendiente.
Argumente su respuesta.
Solución
a)
IF (consumo <= 60) gasto = 270 * consumo .
VARIABLE LABELS gasto 'gasto consumo de agua potable' .
EXECUTE .
IF (consumo > 60) gasto = 270 * 60+560 * (consumo - 60) .
VARIABLE LABELS gasto 'gasto consumo de agua potable' .
EXECUTE .
OLAP CUBES
gasto ingreso BY comu
/CELLS=COUNT MEAN MEDIAN STDDEV
66
/TITLE='Cubos OLAP'.
Cubos OLAP
d)
RECODE
consumo
(Lowest thru 20=1) (20.001 thru 60=2) (60.001 thru Highest=3) INTO rangcons .
VARIABLE LABELS rangcons 'rangos de consumo'.
EXECUTE .
En def de variables
1= bajo consumo
2= consumo normal
3=sobreconsumo
e) AGGREGATE
/OUTFILE='D:\AIE 2005\Solemnes 1 2005-1\AGR comu gastos ingresos.sav'
/BREAK=comu rangcons
/gasto_mean = MEAN(gasto) /ingreso_mean = MEAN(ingreso) .
EXAMINE
VARIABLES=gasto_mean BY rangcons /ID= comu
/PLOT BOXPLOT STEMLEAF
/COMPARE GROUP
/STATISTICS EXTREME
/MISSING LISTWISE
/NOTOTAL.
67
Valores extremos
gasto_mean
Mayores
Número Comuna donde se
rangos de consumo del caso encuentra el hogar Valor
Bajo consumo 1 42 MACUL 5313,60
2 28 LA REINA 5248,80
3 73 SAN MIGUEL 5227,20
4 76 SAN RAMON 5216,40
5 45 MAIPU 5184,00
Consumo normal 1 43 MACUL 15390,00
2 57 PROVIDENCIA 14382,00
3 32 LAS CONDES 14040,00
4 26 LA PINTANA 13543,20
5 71 SAN JOAQUIN 12957,69
Sobreconsumo 1 81 VITACURA 95301,87
2 58 PROVIDENCIA 92287,20
3 62 QUILICURA 88189,65
4 35 LO BARNECHEA 87406,61
5 16 HUECHURABA 82689,42
De la tabla se desprende que las comunas con mayor gasto promedio según rangos de consumo son:
Bajo consumo....Macul
Consumo normal....Macul
Sobreconsumo Vitacura
El diagrama muestra
Diagrama de disperción Matricial
que parece existir una
para variables Ingreso, Gasto y Habitantes alta relación lineal
positiva entre el par de
variables Gasto e
N° de Habitantes del Ingreso, donde se
observan dos valores
atípicos.
Para el par de variables
GASTO
Gasto y Nº de
habitantes también
parece existir alguna
relación lineal positiva,
Ingreso del hogar pero mucho menos
marcada que para el par
anterior.
68
h) Seleccione la variable que tenga la mayor correlación lineal con el gasto de consumo de agua potable y
verifique si existe correlación significativa entre estas variables. Muestre tabla y comente los resultados,
interpretando el coeficiente R.
USE ALL.
COMPUTE filter_$=(id_hogar ~= 126 & id_hogar ~= 400).
VARIABLE LABEL filter_$ 'id_hogar ~= 126 & id_hogar ~= 400 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
69
j) Considerando el filtro seleccionado en c), determine una ecuación de regresión lineal simple
para el gasto de consumo de agua potable e interprete R, y el R cuadrado.
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -10772,8 573,711 -18,777 ,000
Ingreso del hogar ,116 ,001 ,976 129,888 ,000
a. Variable dependiente: gasto en consumo de agua potable
En el caso de regresión simple R es el valor absoluto del r de Pearson, indica la fuerza de asociación lineal
entre las variables, en este caso R=0,976 valor considerable ( muy alto)
R cuadrado es el coeficiente de determinación, mide la bondad de ajuste del modelo.
La variabilidad en el gasto de consumo está siendo explicado en un 95,3% por la variable ingreso del hogar.
Ambos coeficientes presentan Sig<0,01 por tanto los coeficientes son estadísticamente significativos
(dado que se rechaza la Ho:i =0.
La pendiente 0,116 indica que por cada aumento de una unidad en el ingreso , en promedio el gasto aumenta
en 0,116 unidades.
70
l)Verifique si se cumple la hipótesis de normalidad de los residuos y homocedasticidad de las varianzas.
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Standardized Residual ,114 829 ,000 ,797 829 ,000
a. Corrección de la significación de Lilliefors
De la prueba Kolmogorov-Smirnov se deduce que los residuos no siguen la distribución normal pues el nivel
de sig<0.01 y por tanto se rechaza la hipótesis de nula. H0: La distribución sigue una normal.
Otra forma es presentar un gráfico P_P para los residuos.
71