You are on page 1of 0

Tema 1.

Introduccin al Anlisis
Exploratorio de Datos
NDICE
l Introduccin
l Qu es el Anlisis Exploratorio de Datos?
l Objetivos e Importancia del A.E.D.
l Datos y Variables. Tipos
l Etapas del Anlisis Exploratorio de Datos
l Por qu mtodos grficos?
Introduccin
n Analizar datos significa seleccionar datos en los que los mtodos
de anlisis pueden ser empleados, con una visin para la toma de
decisiones, seleccin, planificacin, prediccin o comprensin
n Debido a que los datos son complejos, muy grandes y numerosos,
se necesitan herramientas especficas para diseccionar los datos y
realizar resmenes tanto numricos como grficos
n Se va a proporcionar una visin global de las tcnicas de
exploracin de datos disponibles:
los procesos ms sencillos de inspeccin visual de grficos
procesos estadsticos que se siguen en el tratamiento de
missings y en la comprobacin de las hiptesis de las tcnicas
multivariantes
Qu es?
La Estadstica se ocupa de aplicar el mtodo cientfico para la
recogida, organizacin, resumen, presentacin, anlisis de datos,
as como de obtener conclusiones vlidas y tomar decisiones
razonables basadas en dichos anlisis. (of Spiegel, 1961)
El A.E.D. consiste en la aplicacin de una serie de herramientas
que nos permiten observar los datos de una manera informal,
exploratoria para obtener una impresin inicial de los mismos
Las tareas que requieren explorar un conjunto de datos pueden
parecer un tanto mundanas e inconsecuentes pero son una parte
esencial para cualquier anlisis
Estas tareas requieren su tiempo pero son necesarias, y en muchos
casos son olvidadas por los analistas de datos
Objetivos
Describir los datos
Investigar la calidad de los mismos
Buscar posibles estructuras o patrones sin realizar
ninguna hiptesis matemtica acerca de la estructura
de estas observaciones o variables
Examinar los datos previamente a la aplicacin de
cualquier tcnica estadstica
Obtener un conocimiento bsico de los datos y de las
relaciones entre las variables
Importancia y necesidad del A.E.D.
til en la especificacin y refinamiento del modelo
Proporciona una perspectiva razonada para la
interpretacin de los resultados
Conduce a una mejor prediccin y a un asesoramiento
ms preciso
Ayudan a comprender la estructura de los datos, que
debido al tamao y complejidad de estos, no puede
descubrirse directamente
El A.E.D. es necesario para la posterior aplicacin de
tcnicas estadsticas multivariantes que requieren
grandes conjuntos de datos e hiptesis ms complejas
que las que se realizan al aplicar anlisis univariantes
Datos y Variables
Datos es un conjunto de informacin organizada de
cualquier tipo, cubriendo todos los aspectos de un
dominio relacionados con una meta especfica
(prediccin, mejora del conocimiento, anlisis causal,
toma de decisiones, etc.)
Es la cuantificacin del mundo real en una imagen,
aceptable para el cerebro humano, y despus para el
ordenador
La complejidad de los datos depende del campo de
estudio y/o de la meta inicial, y/o del grado de detalle
asociado con el estudio
Variable estadstica: caracterstica o propiedad de los
elementos de una poblacin que es posible medir
Tipos de variables-Clasificacin de Stevens
Variables nominales: cada observacin pertenece a una y slo
una de varias categoras. Estas categoras no tienen por qu ser
numricas. Si lo son, no implican cantidades de un atributo o
caracterstica
Ejemplos: la raza, la religin, nombres de compaas, nacionalidad, sexo, ...
Variables ordinales: existe un orden natural entre las categoras
Ejemplos: la dureza de un mineral, el estatus socioeconmico, ranking de
vinos, ranking de opiniones, grado de satisfaccin con un producto, etc.
Variables intervalo: la diferencia entre valores sucesivos es la
misma
Ejemplos: temperatura en grados centgrados, fechas de calendario,
beneficios de un empresa, etc.
Variables razn: las variables con un punto natural que representa
el origen de medida
Ejemplos: la altura, el peso, el total de ventas, etc.
Tipos de variables - Otras clasificaciones
Dependiendo de su periodicidad:
Variables longitudinales: se observan a lo largo del tiempo (series de
tiempo)
Variables trasversales: se observan en un instante de tiempo dado (E.P.F.,
encuestas de opinin)
Variables de tipo panel: caso mixto (E.P.A.)
Segn el nmero de valores que pueden tomar:
Variables categricas o discretas: toman un nmero finito de valores
Variables continuas: toman cualquier valor de los comprendidos dentro de
un intervalo
Segn la posibilidad de ser cuantificadas numricamente:
Variables cualitativas o no mtricas: describen cualidades de un objeto
Variables cuantitativas o mtricas: utilizan unidades de medida
Dependiendo del papel que toman en el estudio:
Variables dependientes: su valor se puede explicar en funcin de los
valores de variables independientes
Etapas del A.E.D.
Las principales etapas en la investigacin estadstica son:
Establecer los objetivos de la investigacin
Recogida y preparacin de los datos
Investigar la estructura y calidad de los datos
Anlisis Inicial de Datos
Seleccin y aplicacin de un anlisis estadstico
formal apropiado
Validacin de los resultados
Interpretacin y comunicacin de los resultados
Objetivos de la investigacin
Hay alguien que tiene que tomar una decisin:
Puede ser el administrador (en una empresa), el cientfico (en
ciencias bsicas), el fsico (en medicina), el agrnomo (en el
estudio de las plantas), el decisor (en marketing), etc
Qu es lo que decide?
Estudiar un campo basndose en ciertas hiptesis. Por tanto,
debe definir el propsito y mbito del estudio, las cotas del
campo y dependiendo de su conocimiento, dibujar las
caractersticas principales y la orientacin que desea darle, y
entonces determinar los datos que se espera son necesarios
para describir o explicar el problema que se est intentando
resolver
Recogida y preparacin de los datos
Escoger los procedimientos para la recogida de datos (recogida
automtica, muestreo, seguimientos, etc.)
Los valores aceptables para las variables deben predecirse para
que la introduccin de datos pueda ser validada
Una vez que los datos se han recogido hay una serie de pasos que
se deben dar para hacerlos accesibles a cualquier tcnica. Estos
pasos son:
Eleccin del ordenador para realizar el anlisis
Eleccin de un paquete estadstico
Introduccin de datos
Administracin de datos
Almacenamiento de datos. Construccin de un libro de cdigos
Recogida y preparacin de datos
Eleccin de un paquete estadstico
Los paquetes estadsticos son conjuntos de programas que
implementan diversas tcnicas estadsticas en un entorno comn
Se pueden manejar en modo comando o por mens (utilizando
ventanas y ratn). Esta forma facilita ms el manejo de dichos
paquetes y se va imponiendo poco a poco en el mercado. Tiene el
inconveniente que no todos los comandos del paquete se pueden
ejecutar as sino solamente los de uso ms frecuente
Los paquetes estadsticos ms utilizados son: SAS, BMDP, SPSS,
SYSTAT, STATISTICA, STATA y ltimamente MINITAB y S-
PLUS
Nuestra eleccin: SPSS 11.5 para Windows
Recogida y preparacin de datos
Introduccin de datos
Se pueden introducir de dos formas: por teclado o importndolos
de un archivo
Para introducirlos por teclado se pueden utilizar:
Hojas de clculo: se disponen los datos de cada individuo por filas y las
variables por columnas
Formularios: se rellenan todos las campos correspondientes a un mismo
elemento
SPSS permite definir los nombres de las variables, sus tipos, su formato y
etiquetas asociadas a la misma
SPSS permite importar datos de archivos ASCII (Texto), Excel,
Dbase, Lotus, etc
SPSS permite que sus grficos y sus resultados puedan ser
manejados por otros programas del entorno Windows como son el
procesador de textos MS-Word o la hoja de clculo Excel
Recogida y preparacin de datos
Administracin de datos
Administrar los datos significa: crear, actualizar, comprobar,
validar, controlar, introducir, ordenar, mezclar, construir, extraer,
aadir o pedir datos.
En ocasiones es necesario manipular los datos previo al anlisis
de los mismos
SPSS permite realizar las siguientes operaciones:
Combinar conjuntos de datos provenientes de dos archivos distintos
Seleccionar subconjuntos de datos
Dividir el archivo de datos en varias partes
Transformar variables
Ordenar casos
Agregar y eliminar nuevos datos y/o variables
Recogida y preparacin de datos
Almacenamiento de datos
SPSS permite guardar los datos en archivos que se pueden
grabar en el disco duro del PC o en diskettes del usuario.
Tambin permite guardar listados de resultados, grficos y
archivos de comandos
Es bueno, de cara a aumentar la inteligibilidad de los datos
almacenados, crear asociada a la base de datos utilizada, un
libro de cdigos
SPSS tambin permite la construccin de un libro de cdigos
en el que se recogen los nombres de las variables utilizadas, su
tipo y su rango de valores, su significado as como las fuentes
de donde se han sacado los datos
Investigacin de la estructura y calidad
de los datos
Debe investigarse la posible presencia de errores, outliers o
atpicos y observaciones missing y decidir qu hacer con
estos datos
La localizacin y tratamiento de outliers (atpicos) suele
ligarse al estudio de normalidad. Se analiza si su inclusin
afecta al anlisis
En el tratamiento de datos missing, se investiga si su
aparicin es aleatoria o depende de los valores que tomen
otras variables
Entre las posibles soluciones se consideran el eliminar del
estudio aquellos casos y/o variables en los que aparezcan
missings, o el dar valores a dichos datos
Anlisis inicial de datos
Vamos a distinguir los siguientes pasos:
Examen grficode los datos (tambin sirve para la deteccin de atpicos)
Unidimensional: Descripcin de la informacin contenida en cada
variable
Bidimensional: Estudio de la dependencia entre dos variables.
Introduce el estudio de la causalidad
Multidimensional: Representacin simultnea de las relaciones entre
todas las variables
Sntesis de los datos: recoger las caractersticas ms significativas de los
datos mediante medidas descriptivas numricas
Estudio de la homocedasticidady normalidad(si es necesario)
Determinacin de transformaciones para conseguir normalidad y
homocedasticidad
De esta etapa puede que tambin se vislumbre la posible
existencia de una estructuraen los datos
Seleccin de un anlisis apropiado
Una vez que se ha realizado el Anlisis Exploratorio de
Datos, si los datos sugieren una cierta estructura, se
pasar al Anlisis Confirmatorio
Se formula un modelo y se aplica la tcnica estadstica
apropiada
Para ello: en el anlisis exploratorio previo se ha debido
comprobar:
La calidad de los datos
Las hiptesis que se requieran en dicha tcnica
(normalidad, homocedasticidad, etc.)
Validacin, interpretacin y comunicacin de
los resultados
Validacin:
Se comparan los resultados obtenidos con otros
resultados previos
Si fuera necesario se analizaran ms conjuntos de datos
Interpretacin y comunicacin:
El objetivo no es slo la diseccin de los datos, sino su
presentacin de tal forma que se puedan tomar decisiones
Existen resultados y grficos tanto para el analista de
datos como para el decisor. Este paso a menudo es
olvidado por la mayora de los analistas, pero la
eficiencia de cualquier estudio es la capacidad de
presentar conclusiones vlidas basadas en grficos
comprensibles
Mtodos grficos
Tcnicas grficas disponibles para que el investigador represente
sus datos
Los mtodos grficos proporcionan al analista un conjunto de
formas sencillas para examinar tanto las variables individualmente
como las relaciones entre las mismas
Distinguiremos los mtodos grficos dependiendo del nmero de
variables que se analizan:
Variables unidimensionales: diagramas de caja, diagramas de
cuantiles, diagramas unidimensionales, diagramas de tallos y
hojas, histogramas
Variables bidimensionales: diagramas cuantil-cuantil,
diagramas de dispersin
Variables multidimensionales: perfiles multivariantes, caras de
Chernoff, matrices de dispersin
Por qu mtodos grficos?
No existe ninguna tcnica estadstica que sea tan poderosa y
sencilla como un grfico bien escogido
Existen mtodos grficos que permiten al analista explorar los
datos en profundidad, inspeccionar posibles relaciones o patrones,
confirmar o rechazar lo esperado, y descubrir nuevos fenmenos.
Estos mtodos pueden utilizarse tambin para apoyar los anlisis
estadsticos clsicos
La reciente proliferacin de hardware grfico (terminales,
plotters,...) ha acompaado un desarrollo sostenido del software
para el anlisis grfico de datos. Hoy en da disponemos de
herramientas grficas a un coste razonable
Los grficos nos muestran toda la informacin acerca de los datos.
Las medidas numricas resumen, pero en ocasiones pueden
equivocar
Ejemplo
Chatfield (1985)
45 estudiantes agrupados aleatoriamente en 5
grupos del mismo tamao.
Grupos A y B: enseanza tradicional
Grupos C, D y E: 3 nuevos mtodos enseanza
9 9 9 9 9 N=
GRUPO_E GRUPO_D GRUPO_C GRUPO_B GRUPO_A
40
30
20
10
0
4
9
GRUPOA GRUPOB GRUPOC GRUPOD GRUPOE
17,00
14,00
24,00
20,00
24,00
23,00
16,00
15,00
24,00
21,00
23,00
13,00
19,00
13,00
19,00
20,00
21,00
16,00
28,00
30,00
29,00
24,00
27,00
30,00
28,00
28,00
23,00
19,00
28,00
26,00
26,00
19,00
24,00
24,00
23,00
22,00
21,00
14,00
13,00
19,00
15,00
15,00
10,00
18,00
20,00
Media 19,67 18,33 27,44 23,44 16,11
Rango 10 10 7 9 11

You might also like