You are on page 1of 70

FACULTAD DE INGENIERIA

ESCUELA DE SISTEMAS

Trabajo Final de Data Warehouse y Data Mining:

Creaci
on de un Datawarehouse usando la
Metodologa Hefesto y An
alisis de datos mediante
WEKA: Predicci
on, clasificaci
on, clustering y
asociaci
on
Realizado por: Juan Carlos Lojano U.

Profesor:
Ing. Vctor Saquicela

Indice general
Lista de figuras

Lista de tablas

1. Introducci
on
1.1. Problema planteado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Descripcion de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1
1
1

2. M. Hefeso
2.1. Analisis de requerimientos . . . . . . . . . . . . . . .
2.1.1. Identificar preguntas. Accidentes de carretera
2.1.2. Identificar indicadores y perspectivas. . . . . .
2.1.3. Modelo Conceptual . . . . . . . . . . . . . . .
2.2. Analisis de los OLTP . . . . . . . . . . . . . . . . . .
2.2.1. Conformar Indicadores . . . . . . . . . . . . .
2.2.2. Establecer Correspondencias . . . . . . . . . .
2.2.3. Nivel de Granularidad . . . . . . . . . . . . .
2.2.4. Modelo Conceptual Ampliado . . . . . . . . .
2.3. Modelo Logico del DW . . . . . . . . . . . . . . . . .
2.3.1. Tipo de Modelo Logico del DW . . . . . . . .
2.3.2. Tablas de dimensiones . . . . . . . . . . . . .
2.3.3. Tablas de hechos . . . . . . . . . . . . . . . .
2.3.4. Uniones . . . . . . . . . . . . . . . . . . . . .
2.4. Integracion de Datos . . . . . . . . . . . . . . . . . .
2.4.1. Carga Inicial . . . . . . . . . . . . . . . . . .
2.4.2. Actualizacion . . . . . . . . . . . . . . . . . .
2.4.3. Creacion de cubos multidimensionales . . . . .
2.4.4. Resultados . . . . . . . . . . . . . . . . . . . .
3. Minera de Datos
3.1. Introduccion . .
3.2. Objetivos . . .
3.3. Problematia . .
3.4. Prediccion . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

5
5
5
6
8
9
9
12
16
18
18
18
18
24
25
26
26
28
29
31

.
.
.
.

35
35
35
36
36

INDICE GENERAL

INDICE GENERAL

3.4.1.
3.4.2.
3.4.3.
3.4.4.
3.4.5.
3.4.6.

Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Definicion del problema . . . . . . . . . . . . . . . . . . . . . . .
Obtencion de los datos para el analisis . . . . . . . . . . . . . . .
Eleccion del algoritmo para el analisis de los datos . . . . . . . . .
Aplicacion de los algoritmos a los datos . . . . . . . . . . . . . . .
Seleccion del modelo en base al MAPE (Mean Absolute Percentage
Error) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.7. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . .
3.5. Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . .
3.5.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . .
3.5.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . .
3.5.5. Aplicacion del algoritmo a los datos . . . . . . . . . . . . . . . . .
3.5.6. Seleccion del modelo en base al MAE (Mean Absolute Error) . . .
3.5.7. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . .
3.6. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . .
3.6.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . .
3.6.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . .
3.6.5. Aplicacion del algoritmo a los datos . . . . . . . . . . . . . . . . .
3.6.6. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . .
3.7. Asociacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . .
3.7.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . .
3.7.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . .
3.7.5. Aplicacion del algoritmo a los datos . . . . . . . . . . . . . . . . .
3.7.6. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.

36
37
37
37
38

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

42
43
43
43
44
44
45
45
46
47
48
48
49
49
50
50
53
54
54
54
55
56
56
56

4. Conclusiones

58

A. Reporte usando Report Designer

60

Universidad de Cuenca

Ingeniera de Sistemas

Indice de figuras
2.1.
2.2.
2.3.
2.4.
2.5.

Modelo Conceptual de Accidentes de Carretera . . . . . . . . . . . . . . .


Modelo Conceptual de Accidentes Ferroviarios . . . . . . . . . . . . . . . .
Modelo Entidad Relacion Accidentes de Carretera . . . . . . . . . . . . . .
Modelo Entidad Relacion Accidentes de Carretera . . . . . . . . . . . . . .
Correspondencia entre el Modelo Conceptual de Accidentes de Carretera y
el Modelo Entidad Relacion . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6. Correspondencia entre el Modelo Conceptual de Accidentes de Ferroviarios
y el Modelo Entidad Relacion . . . . . . . . . . . . . . . . . . . . . . . . .
2.7. Modelo Conceptual Ampliado de Accidentes de Carretera . . . . . . . . . .
2.8. Modelo Conceptual Ampliado de Accidentes de Ferrocarriles . . . . . . . .
2.9. Dimension Lugar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.10. Dimension Tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.11. Dimension Grupo Edad de Vctima . . . . . . . . . . . . . . . . . . . . . .
2.12. Dimension Sexo de Vctima . . . . . . . . . . . . . . . . . . . . . . . . . .
2.13. Dimension Grupo Tipo de Carretera . . . . . . . . . . . . . . . . . . . . .
2.14. Dimension Grupo Tipo Vctima . . . . . . . . . . . . . . . . . . . . . . . .
2.15. Dimension Transporte de Mercadera Peligrosa . . . . . . . . . . . . . . . .
2.16. Dimension Suicidios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.17. Dimension Tipo Accidente Ferroviario . . . . . . . . . . . . . . . . . . . .
2.18. Tabla de hecho ACCIDENTE CARRETERA . . . . . . . . . . . . . . . .
2.19. Tabla de hecho ACCIDENTES FERROVIARIOS . . . . . . . . . . . . . .
2.20. Union ACCIDENTE DE CARRETERA . . . . . . . . . . . . . . . . . . .
2.21. Union ACCIDENTE FERROVIARIO . . . . . . . . . . . . . . . . . . . . .
2.22. Carga Inicial de Accidentes de carretera (1) . . . . . . . . . . . . . . . . .
2.23. Carga Inicial de Accidentes de carretera (2) . . . . . . . . . . . . . . . . .
2.24. Carga Inicial de Accidentes de carretera (3) . . . . . . . . . . . . . . . . .
2.25. Carga Inicial de Accidentes de carretera (4) . . . . . . . . . . . . . . . . .
2.26. CUBO DE ACCIDENTES DE CARRETERA . . . . . . . . . . . . . . . .
2.27. CUBO DE ACCIDENTES FERROVIARIOS . . . . . . . . . . . . . . . .
2.28. DIMENSIONES Y JERARQUIAS PARA CUBO DE CARRETERA . . .
2.29. DIMENSIONES Y JERARQUIAS PARA ACCIDENTES FERROVIARIOS
2.30. MEDIDAS PARA CUBO DE ACCIDENTES DE CARRETERA . . . . .
2.31. MEDIDAS PARA CUBO DE ACCIDENTES FERROVIARIOS . . . . . .
DE LOS CUBOS . . . . . . . . . . . . . . . . . . . . . . .
2.32. PUBLICACION

8
9
12
13
14
15
19
20
21
21
21
21
22
22
23
23
24
24
25
25
26
27
27
28
29
30
30
31
31
32
32
32

INDICE DE FIGURAS

INDICE DE FIGURAS

2.33. N
umero de vctimas de accidentes de carretera por pas y a
no
2.34. N
umero de vctimas de accidentes ferroviarios por pas y a
no .
2.35. Cantidad de suicidios por pas y a
no . . . . . . . . . . . . . .
2.36. Suicidios por pas y a
no, grafico . . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

33
33
34
34

Datos para la prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . .


Analsis previo de los datos, para conductor . . . . . . . . . . . . . . . . .
Configuracion del Mean Absolute Porcentaje Error . . . . . . . . . . . .
Entrenamiento con Algoritmo Perceptron Multicapa . . . . . . . . . . . .
Prediccion (grafica) con Algoritmo Perceptron Multicapa . . . . . . . . .
Predicciones (numerica) con Algoritmo Perceptron Multicapa, para los
proximos 4 a
nos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7. Entrenamiento con Algoritmo IBk . . . . . . . . . . . . . . . . . . . . . .
3.8. Prediccion (grafica) con Algoritmo IBk . . . . . . . . . . . . . . . . . . .
3.9. Predicciones (numerica) con Algoritmo IBk, para los proximos 4 a
nos . .
3.10. Entrenamiento con Algoritmo Holt Winters . . . . . . . . . . . . . . . .
3.11. Prediccion (grafica) con Algoritmo Holt Winters . . . . . . . . . . . . . .
3.12. Predicciones (numerica) con Algoritmo Holt Winters, para los proximos 4
a
nos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.13. Resultados grafico de la prediccion para los proximos 4 a
nos . . . . . . .
3.14. Datos para la clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . .
3.15. Opciones de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.16. Resultados. Matriz de Confusion . . . . . . . . . . . . . . . . . . . . . . .
3.17. Resultados. Reglas generadas . . . . . . . . . . . . . . . . . . . . . . . .
3.18. Variable para clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . .
3.19. Resultados del alfrotimo Naive Bayes . . . . . . . . . . . . . . . . . . . .
3.20. Datos para la clustering . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.21. Cluster mode, Use training set . . . . . . . . . . . . . . . . . . . . . . . .
3.22. Resultados de Canopy, clustering . . . . . . . . . . . . . . . . . . . . . .
3.23. Resultados graficos de algoritmo Canopy, clustering . . . . . . . . . . . .
3.24. Resultados de Simple-K Means, clustering . . . . . . . . . . . . . . . . .
3.25. Resultados graficos de algoritmo Simple-K Means, clustering . . . . . . .
3.26. Algoritmo Simple-K Means, clustering . . . . . . . . . . . . . . . . . . .
3.27. Set de datos para la asociacion . . . . . . . . . . . . . . . . . . . . . . . .
3.28. Configuracion del n
umero de reglas para la asociacion . . . . . . . . . . .
3.29. Mejores reglas de asociacion encontradas . . . . . . . . . . . . . . . . . .

.
.
.
.
.

37
38
38
39
39

.
.
.
.
.
.

39
40
40
41
41
42

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

42
43
45
46
47
47
48
48
50
50
51
52
52
53
54
55
56
57

3.1.
3.2.
3.3.
3.4.
3.5.
3.6.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

A.1. Vctimas Jovenes y Adultos de Austria y Bulgaria . . . . . . . . . . . . . . 60


A.2. Vctimas Jovenes y Adultos de Austria y Bulgaria . . . . . . . . . . . . . . 61
A.3. Vctimas Jovenes y Adultos de Austria y Bulgaria . . . . . . . . . . . . . . 62

Universidad de Cuenca

Ingeniera de Sistemas

Indice de cuadros
3.1. Resultados de la prediccion para los proximos 4 a
nos . . . . . . . . . . . . 43
3.2. Resultados de la clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Captulo 1
Introducci
on
1.1.

Problema planteado

Basicamente lo que se desea implementar es un Datawarehouse sobre accidentes de carretera y accidentes ferroviarios (trenes), que ha ocurrido en pases de Europa. Para esto se
ha tomado como referencia varias bases de datos de la EUROSTAT (http://ec.europa.eu),
las mismas que contiene datos importantes sobre estos accidentes, como por ejemplo: el
n
umero de vctimas, el tipo de accidente, el tipo de carretera donde ha sucedido el accidente, el tipo de vctimas involucrados (pasajero, peaton, conductor), etc., esto respecto a lo
que son accidentes de carretera o de transito, y de la misma forma respecto a los accidentes
que involucran trenes (n
umero de vctimas, accidentes por transporte de material peligroso en trenes, accidentes por incendios, etc). Todos estos datos son de pases europeos
tomados de los a
nos 2004 a 2013. Para implementar este Datawarehouse se ha optado por
seguir la metodologa Hefesto, la misma que presenta pasos claros y concisos de desarrollo.
Basicamente se desea conocer la cantidad de accidentes que se han dado en un cierto
periodo de tiempo, el tipo de accidentes que se han dado y en que lugar, el n
umero de
vctimas, tipo de vctimas, etc., todos estos puntos estan detallados mas adelante en el
analisis de requerimientos.

1.2.

Descripci
on de los datos

Los datos se encuentran en varios formatos, entre ellos estan los siguientes: formato
.xlsx, .sql, .cvs, .txt, etc. Y lo que se busca es integrar todas estas fuentes de datos de
tal manera que se pueda responder a ciertas preguntas, las mismas que se describen en el
siguiente apartado.
Fuentes:
Las siguientes son fuentes que contienen los datos respecto a los accidentes de
carretera:

DE LOS DATOS
1.2. DESCRIPCION

CAPITULO 1. INTRODUCCION

Fuente 1: Esta primera fuente esta en formato de una base de datos (.sql) y basicamente
contiene las estadsticas de las vctimas de accidentes de trafico seg
un el tipo de usuario
que estuvo involucrado en el accidente, esto es conductor, pasajero, peaton.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto esta
como n
umero.
ROADUSER: Tipo de vctima (o usuario de va) involucrada en los accidentes: pasajero, conductor o peaton.
Value: N
umero de vctimas.
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Fuente 2: Esta segunda fuente esta en formato Excel (.xlsx) y basicamente contiene
las estadsticas con el n
umero de accidentes y el n
umero de vctimas seg
un el tipo de
carretera en el que se dio el accidente.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto esta
como n
umero.
TRA INFR: Tipo de carretera en donde se dio el accidente.
Value: N
umero de vctimas.
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Fuente 3: Esta tercera fuente esta en formato .cvs y basicamente contiene las estadsticas de los pasajeros clasificados seg
un la edad de los mismos, no los involucrados en un
accidente, pero si el n
umero de pasajeros en un medio de tansporte en Europa, de acuerdo
a la edad. Estos datos serviran para conocer que tipo de usuarios son los mas frecuentes
en estos pases, jovenes o adultos, para poder determinar si esto incide en los accidentes.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto esta
como n
umero.
AGE: Rango de edad de los pasajeros, este campo contiene las edades de las vctimas
clasificadas por rangos.
Value: N
umero o cantidad de vctimas.
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Fuente 4: Esta cuarta fuente esta en formato de un archivo de texto (.txt) y basica-

Universidad de Cuenca

Ingeniera de Sistemas


CAPITULO 1. INTRODUCCION

DE LOS DATOS
1.2. DESCRIPCION

mente contiene las estadsticas de las vctimas en accidentes, segun la edad. A diferencia
de la fuente anterior en este caso si son personas que ya estuvieron involucradas en accidentes, y por ende son vctimas.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto como
n
umero
AGE: Rango de edad de los pasajeros, este campo contiene las edades de las vctimas
clasificadas por rangos.
Value: N
umero de vctimas
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Fuente 5: Esta quinta fuente basicamente consumira un servicio web que devolvera el
n
umero de vctimas clasificadas por sexo.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto como
n
umero.
SEX: Sexo de la vctima.
Value: N
umero de vctimas.
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Las siguientes son fuentes que contienen los datos respecto a los accidentes
ferroviarios:
Fuente 1: Esta primera fuente esta en formato de una base de datos (.sql) y basicamente
contiene las estadsticas de las vctimas de accidentes de ferrocarriles. Lo particular de
esta fuente es que las vctimas son por suicidios en ferrocarriles, y que de alguna forma
estuvo relacionado con algun accidente del mismo.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto esta
como n
umero.
Value: N
umero de vctimas.
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Fuente 2: Esta segunda fuente esta en formato Excel (.cvs) y contiene las estadsticas con el n
umero de accidentes y el n
umero de vctimas seg
un el tipo de accidente que
se dio. Obviamente estos tipos son referentes a los ferrocarriles, por ejemplo: colisiones,

Universidad de Cuenca

Ingeniera de Sistemas

DE LOS DATOS
1.2. DESCRIPCION

CAPITULO 1. INTRODUCCION

incendios dentro del ferrocarril, descarrilamientos, etc.


Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto esta
como n
umero.
ACCIDENT: Tipo de accidente que ha ocurrido.
Value: N
umero de vctimas.
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.

Fuente 3: Esta tercera fuente esta en formato de un archivo de texto (.txt) y contiene las estadsticas de los accidentes ferroviarios que implican el transporte de mercancas
peligrosas.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto como
n
umero
ACCIDENT: Detalle del accidente y de la mercanca peligrosa involucrada.
Value: N
umero de vctimas
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Algunos de estos campos contienen informacion que no presentan un gran aporte, por
lo cual en el proceso de ETL se hara la limpieza de esta clase de datos.

Universidad de Cuenca

Ingeniera de Sistemas

Captulo 2
Desarrollo de la Metologa Hefesto
2.1.
2.1.1.

An
alisis de requerimientos
Identificar preguntas. Accidentes de carretera

Cuantos hombres adultos murieron en accidentes de carretera en un determinado


pas de Europa y en un determinado a
no?
Cuantas mujeres jovenes murieron en accidentes de carretera en un determinado
pas de Europa y en un determinado a
no?
Cuantos conductores hombres murieron en accidentes de carretera en un determinado a
no y pas de Europa?
Cuantos pasajeros (jovenes) murieron en accidentes de carretera en un determinado
a
no y pas de Europa?
Cuantos peatones (mujeres) murieron en accidentes de carretera en un determinado
a
no y pas de Europa?
Cuantos adultos murieron en accidentes de carreteras rural, en un determinado a
no
y pas de Europa?
C
uantas mujeres murieron en accidentes de carreteras urbana, en un determinado
a
no y pas de Europa?
Cuantos pasajeros (no vctimas) jovenes existen, en un determinado a
no y pas de
Europa?
Identificar preguntas. Accidentes ferroviarios
Cuantos suicidos se dieron durante un accidente ferroviario en un determinado pas
de Europa y en un determinado a
no?
Cuantos accidentes involucraron el transporte de mercaderias peligrosas en un determinado pas y en un determinado a
no?


2.1. ANALISIS
DE REQUERIMIENTOS

CAPITULO 2. M. HEFESO

Cuantos ferrocarriles se incendiaron en un determinado a


no y pas de Europa?
Cuantos accidentes de ferrocarriles por descarrilamientos sucedieron en un determinado a
no y pas de Europa?
Cuantos accidentes de ferrocarriles por material rodante sucedieron en un determinado a
no y pas de Europa?

2.1.2.

Identificar indicadores y perspectivas.

Accidentes de carretera.
N
umero de hombres adultos que murieron en accidentes de carretera en un determinado pas de Europa y en un determinado a
no.
N
umero de mujeres jovenes que murieron en accidentes de carretera en un determinado pas de Europa y en un determinado a
no.
N
umero de conductores que hombres murieron en accidentes de carretera en un
determinado a
no y pas de Europa.
N
umero de pasajeros (jovenes) que murieron en accidentes de carretera en un determinado a
no y pas de Europa.
N
umero de peatones (mujeres) que murieron en accidentes de carretera en un determinado a
no y pas de Europa.
N
umero de adultos que murieron en accidentes de carreteras rural, en un determinado a
no y pas de Europa.
N
umero de mujeres que murieron en accidentes de carreteras urbana, en un determinado a
no y pas de Europa.
N
umero de pasajeros (no vctimas) jovenes que existen, en un determinado a
no y
pas de Europa.
Identificar preguntas. Accidentes ferroviarios
N
umero de suicidos se dieron durante un accidente ferroviario en un determinado
pas de Europa y en un determinado a
no.
N
umero accidentes involucraron el transporte de mercaderias peligrosas en un determinado pas y en un determinado a
no.
N
umero ferrocarriles se incendiaron en un determinado a
no y pas de Europa.
N
umero accidentes de ferrocarriles por descarrilamientos sucedieron en un determinado a
no y pas de Europa.

Universidad de Cuenca

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

2.1. ANALISIS
DE REQUERIMIENTOS

N
umero accidentes de ferrocarriles por material rodante sucedieron en un determinado a
no y pas de Europa.
Perspectivas - Accidentes de carretera
Tiempo.
En a
nos.
Lugar.
Por pas.
Edad de vctima.
Joven.
Adulto.
Sexo de vctima.
Hombre.
Mujer.
Tipo carretera del accidente.
Autopista.
Carretera Rural.
Carretera Urbana.
Tipo de la vctima
Conductor
Pasajero
Peaton

Perspectivas - Accidentes ferroviarios


Tiempo.
En a
nos.
Lugar.
Por pas.
Transporte de mercaderia peligrosa.
Accidentes por mercaderias peligrosas.
Mercaderias peligrosas que no se liberan.
Mercaderias peligrosas que se liberan
Suicidios.
Cantidad.

Universidad de Cuenca

Ingeniera de Sistemas


2.1. ANALISIS
DE REQUERIMIENTOS

CAPITULO 2. M. HEFESO

Tipo de accidente.
Accidentes por material rodante.
Accidentes por paso a nivel.
Colisiones.
Descarrillamientos.
Incendios.

2.1.3.

Modelo Conceptual

Se puede ver en la Figura 2.1 el modelo conceptual para los accidentes de carretera.

Figura 2.1: Modelo Conceptual de Accidentes de Carretera

Universidad de Cuenca

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

2.2. ANALISIS
DE LOS OLTP

Se puede ver en la Figura 2.2 el modelo conceptual para los accidentes ferroviarios.

Figura 2.2: Modelo Conceptual de Accidentes Ferroviarios

2.2.

An
alisis de los OLTP

2.2.1.

Conformar Indicadores

Los indicadores para los accidentes de carretera se calcularan de la siguiente manera:


Hombres adultos muertos
Hechos: N
umero de hombres adultos que murieron en accidentes de carretera.
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador n
umero de hombres adultos que murieron en accidentes de carretera representa la sumatoria de los hombres que murieron en accidentes de carretera
en un determinado pas de Europa y en un determinado a
no.
Mujeres jovenes muertas
Hechos: N
umero de mujeres jovenes que murieron en accidentes de carretera.
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador n
umero de mujeres que murieron en accidentes de carretera
representa la sumatoria de las mujeres que murieron en accidentes de carretera en un
determinado pas de Europa y en un determinado a
no.

Universidad de Cuenca

Ingeniera de Sistemas


2.2. ANALISIS
DE LOS OLTP

CAPITULO 2. M. HEFESO

Conductores hombres muertos


Hechos: N
umero de conductores hombres, que murieron en accidentes de carretera.
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador n
umero de conductores que murieron en accidentes de carretera
representa la sumatoria de los conductores que murieron en accidentes de carretera en un
determinado pas de Europa y en un determinado a
no.
Pasajeros j
ovenes muertos
Hechos: N
umero de pasajeros ni
nos que murieron en accidentes de carretera.
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador n
umero de pasajeros que murieron en accidentes de carretera
representa la sumatoria de los pasajeros que eran ni
nos y que murieron en accidentes de
carretera en un determinado pas de Europa y en un determinado a
no.
Pasajeros mujeres en medios de transporte (no muertos)
Hechos: N
umero de pasajeros en medios de transporte
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador n
umero de pasajeros representa la sumatoria de los pasajeros
jovenes presentes en medios de transportes (no en accidentes) en un determinado pas de
Europa y en un determinado a
no.
Peatones mujeres muertos
Hechos: N
umero de peatones mujeres que murieron en accidentes de carretera.
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador n
umero de peatones que murieron representa la sumatoria de
peatones que eran mujeres y que murieron en accidentes de carretera en un determinado
pas de Europa y en un determinado a
no.
Vctimas adultos en carretera rural
Hechos: Vctimas ni
nos en carretera rural.
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador vctimas ni
nos en accidentes de carretera representa la sumatoria de ni
nos que murieron en accidentes de carretera de tipo rural en un determinado
pas de Europa y en un determinado a
no.
vctimas mujeres en carretera urbana
Hechos: vctimas mujeres en carretera urbana.
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador vctimas mujeres representa la sumatoria de las mujeres que
murieron en accidentes de carretera de tipo urbana en un determinado pas de Europa y
en un determinado a
no.
N
umero de pasajeros (no vctimas) j
ovenes
Hechos: N
umero de pasajeros (no vctimas).

Universidad de Cuenca

10

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

2.2. ANALISIS
DE LOS OLTP

Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador pasajeros representa la sumatoria de los pasajeros (no vctimas)
en un determinado pas de Europa y en un determinado a
no.

Los indicadores para los accidentes ferroviarios se calcular


an de la siguiente manera:
N
umero de suicidos
Hechos: N
umero de muertes por suicido.
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador n
umero de suicidos representa la sumatoria de las muertes por
suicidos y que involucran accidentes de carretera en un determinado pas de Europa y en
un determinado a
no.
Accidentes por transporte de mercaderias peligrosas
Hechos: Accidentes por transporte de mercaderias peligrosas.
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador Accidentes por transporte de mercaderias peligrosas representa
la sumatoria de este tipo de accidentes en un determinado pas de Europa y en un determinado a
no.
Ferrocarriles incendiados
Hechos: Ferrocarriles incendiados.
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador Ferrocarriles incendiados representa la sumatoria de los accidentes que se dieron por incendios de ferrocarriles en un determinado pas de Europa y
en un determinado a
no.
Pasajeros j
ovenes muertos
Hechos: N
umero de pasajeros ni
nos que murieron en accidentes de carretera.
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador n
umero de pasajeros que murieron en accidentes de carretera
representa la sumatoria de los pasajeros que eran ni
nos y que murieron en accidentes de
carretera en un determinado pas de Europa y en un determinado a
no.
Accidentes de ferrocarriles por descarrilamientos
Hechos: Accidentes de ferrocarriles por descarrilamientos
Funci
on de sumarizaci
on: SUM
Aclaraci
on: Este indicador representa la sumatoria de los accidentes de ferrocarriles por
descarrilamientos en un determinado pas de Europa y en un determinado a
no.
Accidentes de ferrocarriles por material rodante
Hechos: Accidentes de ferrocarriles por material rodante
Funci
on de sumarizaci
on: SUM

Universidad de Cuenca

11

Ingeniera de Sistemas


2.2. ANALISIS
DE LOS OLTP

CAPITULO 2. M. HEFESO

Figura 2.3: Modelo Entidad Relacion Accidentes de Carretera


Aclaraci
on: Este indicador representa la sumatoria de los accidentes de ferrocarriles por
material rodante en un determinado pas de Europa y en un determinado a
no.

2.2.2.

Establecer Correspondencias

Se puede ver el modelo Entidad Relacion en la Figura 2.3 y 2.4.


Y las correspondencias con los modelos conceptuales en las figuras 2.5 y 2.6
Las relaciones identificadas fueron las siguientes:
Accidentes de Carretera
La tabla Lugar se relaciona con la perspectiva Lugar.
La perspectiva Tiempo se relaciona con el campo fechaAccidente de la tabla Accidente.
La perspectiva Edad vctima se relaciona con el campo Edad vctima de la tabla
vctima.
La perspectiva Sexo vctima se relaciona con el campo Sexo vctima de la tabla
vctima.

Universidad de Cuenca

12

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

2.2. ANALISIS
DE LOS OLTP

Figura 2.4: Modelo Entidad Relacion Accidentes de Carretera


La perspectiva Tipo Carretera del accidente se relaciona con la tabla Carretera.
La perspectiva Tipo de vctima se relaciona con la tabla Tipo de vctima.
El indicador vctimas hombres se relaciona con el campo vctimas hombres de la
tabla Accidente.
El indicador vctimas mujeres se relaciona con el campo vctimas mujeres de la tabla
Accidente.
El indicador vctimas conductores se relaciona con el campo vctimas conductores
de la tabla Accidente.
El indicador vctimas pasajeros se relaciona con el campo vctimas pasajeros de la
tabla Accidente.
El indicador vctimas peatones se relaciona con el campo vctimas peatones de la
tabla Accidente.
Accidentes Ferroviarios
La tabla Lugar se relaciona con la perspectiva Lugar.
La perspectiva Tiempo se relaciona con el campo fechaAccidente de la tabla Accidente de Carretera.

Universidad de Cuenca

13

Ingeniera de Sistemas


2.2. ANALISIS
DE LOS OLTP

CAPITULO 2. M. HEFESO

Figura 2.5: Correspondencia entre el Modelo Conceptual de Accidentes de Carretera y el


Modelo Entidad Relacion
Universidad de Cuenca

14

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

2.2. ANALISIS
DE LOS OLTP

Figura 2.6: Correspondencia entre el Modelo Conceptual de Accidentes de Ferroviarios y


el Modelo Entidad Relacion
Universidad de Cuenca

15

Ingeniera de Sistemas


2.2. ANALISIS
DE LOS OLTP

CAPITULO 2. M. HEFESO

La perspectiva Edad vctima se relaciona con el campo Edad vctima de la tabla


vctima.
La perspectiva Transporte de mercaderia peligrosa se relaciona con la tabla Mercaderia.
La perspectiva Suicidios se relaciona con el campo vctimas por suicidios de la tabla
Accidente Ferrroviarios.
La perspectiva Tipo de accidentes se relaciona con el campo tipo vctimas de la
tabla Accidente Ferrroviarios.
El indicador n
umero de suicidios se relaciona con el campo vctimas por suicidios
de la tabla AccidenteFerroviario.
El indicador n
umero de accidentes con mercaderia peligrosa se relacion con la tabla
mercaderia.
El indicador n
umero de ferrocarriles incendiados, ferrocarrilles descarrilados, por
material rodante se relaciona con el campo tipo de accidente de la tabla Accidentes
Ferroviarios.

2.2.3.

Nivel de Granularidad

Con respecto a la perspectiva Lugar los datos disponibles son los siguientes:
IdLugar: Codigo del accidente
Ubicacion: Es el pas donde se dio el accidente
Cantidad: Se refiere a la cantidad de vctimas en el pas
Con respecto a la perspectiva Tiempo los datos disponibles son los siguientes:
IdTiempo: Codigo del tiempo o fecha.
A
no: A
no en el que se dio el accidente.
Con respecto a la perspectiva Edad vctima los datos disponibles son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Grupos de edades de vctimas: Se refiere a los grupos de edades: jovenes y adultos
en los cuales estan clasificados las vctimas de los accidentes.
Con respecto a la perspectiva Sexo vctima los datos disponibles son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Sexo vctima: Se refiere al sexo de la vctima: masculino o femenino

Universidad de Cuenca

16

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

2.2. ANALISIS
DE LOS OLTP

Con respecto a la perspectiva Tipo de carretera los datos disponibles son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Tipo de carretera: Se refiere al tipo de carretera donde se ha dado
el acciente: Autopista, Carretera Rural o Carretera Urbana
Con respecto a la perspectiva Tipo de vctima los datos disponibles son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Tipo de vctima: Se refiere al tipo de vctima presente en el acciente: conductor,
pasajero o peaton.
Con respecto a la perspectiva Lugar de accidentes ferroviarios, los datos disponibles son
los siguientes:
IdLugar: Codigo del accidente
Ubicacion: Es el pas donde se dio el accidente
Cantidad: Se refiere a la cantidad de vctimas en el pas
Con respecto a la perspectiva Tiempo de accidentes ferroviarios, los datos disponibles son
los siguientes:
IdTiempo: Codigo del tiempo o fecha.
A
no: A
no en el que se dio el accidente.
Con respecto a la perspectiva Transporte de mercaderia peligrosa, los datos disponibles
son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Transporte de mercaderia peligrosa: Se refiere al tipo de acciente por transporte de
mercaderia peligrosa: Accidentes por mercaderias peligrosas, Mercaderias peligrosas
que no se liberan o Mercaderias peligrosas que se liberan
Con respecto a la perspectiva Suicidios, los datos disponibles son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Suicidios: Se refiere a la cantidad de suicidios que se han dado en un pas determinado
y en un a
no determinado
Con respecto a la perspectiva Tipo de accidente los datos disponibles son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Tipo de accidente: Se refiere al tipo de accidente: Accidentes por material rodante
o Accidentes por paso a nivel o Colisioneso o Descarrillamientos.Incendios.

Universidad de Cuenca

17

Ingeniera de Sistemas


2.3. MODELO LOGICO
DEL DW

2.2.4.

CAPITULO 2. M. HEFESO

Modelo Conceptual Ampliado

El modelo conceptual amplicado tanto de accidentes de carretera, como de accidentes


ferroviaros se pueden ver en la figura 2.7 y 2.8 respectivamente:
En este punto cabe aclarar que para la formula de calculo de la sumarizacion en los
indicadores, basicamente se hara una suma de los distintos indicadores, eso para todos
los casos.

2.3.
2.3.1.

Modelo L
ogico del DW
Tipo de Modelo L
ogico del DW

El esquema que se ultizara sera en estrella, esto debido a sus caractersticas, ventajas
y diferencias con los otros esquemas.

2.3.2.

Tablas de dimensiones

Las tablas de dimensiones se construyen en base a las perspectivas que se definieron


anteriormente, de hecho estas mismas se convierten en dimensiones, para luego formar lo
que es la tabla de hechos que contiene dimensiones, medidas, etc.
Dimensiones para accidentes de carretera
Perspectiva Lugar.
La nueva dimension tendra el nombre de Dim Lugar.
Se le agregara una clave principal con el nombre: id Lugar.
Se modificara el nombre de pas por Ubicacion.
Todo esto se puede ver en la figura 2.9:
Perspectiva Tiempo.
La nueva dimension tendra el nombre de Dim Tiempo.
Se le agregara una clave principal con el nombre: id Tiempo.
Se modificara el nombre de A
nos por A
no.
Todo esto se puede ver en la figura 2.10:
Perspectiva Edad de vctima.
La nueva dimension tendra el nombre de Dim Grupo Edad Vctima.
Se le agregara una clave principal con el nombre: id Grupo Edad Vctima.
Se modificara el nombre de Joven y Adulto por el campo GrupoEdad.
Se le agregara un campo con el nombre: CantidadVctimas Grupo Edad, que contendra el n
umero de vctimas de acuerdo a la edad.
Todo esto se puede ver en la figura 2.11:
Perspectiva Sexo de vctima.

Universidad de Cuenca

18

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

2.3. MODELO LOGICO


DEL DW

Figura 2.7: Modelo Conceptual Ampliado de Accidentes de Carretera

La nueva dimension tendra el nombre de Dim Sexo Vctima.

Universidad de Cuenca

19

Ingeniera de Sistemas


2.3. MODELO LOGICO
DEL DW

CAPITULO 2. M. HEFESO

Figura 2.8: Modelo Conceptual Ampliado de Accidentes de Ferrocarriles

Universidad de Cuenca

20

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

2.3. MODELO LOGICO


DEL DW

Figura 2.9: Dimension Lugar

Figura 2.10: Dimension Tiempo

Figura 2.11: Dimension Grupo Edad de Vctima


Se le agregara una clave principal con el nombre: id Sexo Vctima.
Se modificara el nombre de Hombre y Mujer por el campo GrupoSexo.
Se le agregara un campo con el nombre: CantidadGrupo Sexo, que contendra el
n
umero de vctimas de acuerdo al sexo.
Todo esto se puede ver en la figura 2.12:

Figura 2.12: Dimension Sexo de Vctima

Perspectiva Tipo de carretera del accidente.


La nueva dimension tendra el nombre de Dim Tipo Carretera Accidente.
Se le agregara una clave principal con el nombre: id Tipo Carretera Accidente.
Se modificara el nombre de Autopista, Carretera Rural y Carretera Urbana
por el campo GrupoTipoCarretera.
Se le agregara un campo con el nombre: CantidadGrupoTipoCarretera, que contendra el n
umero de vctimas de acuerdo al tipo de carretera donde se dio el accidente.

Universidad de Cuenca

21

Ingeniera de Sistemas


2.3. MODELO LOGICO
DEL DW

CAPITULO 2. M. HEFESO

Todo esto se puede ver en la figura 2.13:

Figura 2.13: Dimension Grupo Tipo de Carretera


Perspectiva Tipo de vctima.
La nueva dimension tendra el nombre de Dim Tipo Vctima.
Se le agregara una clave principal con el nombre: id Tipo Vctima.
Se modificara el nombre de Conductor, Pasajero y Peaton por el campo GrupoTipoVctima.
Se le agregara un campo con el nombre: CantidadGrupoTipoVctima, que contendra el n
umero de vctimas de acuerdo al tipo de persona.
Todo esto se puede ver en la figura 2.14:

Figura 2.14: Dimension Grupo Tipo Vctima

Universidad de Cuenca

22

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

2.3. MODELO LOGICO


DEL DW

Dimensiones para accidentes ferroviarios


Las dimensiones Tiempo y Lugar son dimensiones que se comparten en ambos
modelos
Perspectiva Transporte de mercadera peligrosa.
La nueva dimension tendra el nombre de Dim Transporte Mercadera Peligrosa.
Se le agregara una clave principal con el nombre: id Transporte Mercadera Peligrosa.
Se modificara el nombre de Accidentes por mercadera peligrosa, Accidentes por
mercadera peligrosa que no se liberan y Accidentes por mercadera peligrosa que
se liberan por el campo GrupoTransporteMercadera.
Se le agregara un campo con el nombre: CantidadGrupoTransporteMercaderia,
que contendra el n
umero de vctimas de acuerdo al tipo de transporte de mercadera
del ferrocarril.
Todo esto se puede ver en la figura 2.15:

Figura 2.15: Dimension Transporte de Mercadera Peligrosa


Perspectiva Suicidios.
La nueva dimension tendra el nombre de Dim Suicidios.
Se le agregara una clave principal con el nombre: id Suicidios.
Se mantedra el nombre de cantidad.
Se le agregara un campo con el nombre: razon, que contendra el detalles de la
muerte de la vctima.
Todo esto se puede ver en la figura 2.16:

Figura 2.16: Dimension Suicidios


Perspectiva Tipo de accidente ferroviario.
La nueva dimension tendra el nombre de Dim Tipo Accidente Ferroviario.
Se le agregara una clave principal con el nombre: id Tipo Accidentes Ferroviarios.
Se modificara el nombre de Accidentes por material rodante, Accidentes por paso
a nivel, Colisiones, Descarrillamientos e Incendios por el campo TipoAccidente.
Se le agregara un campo con el nombre: CantidadVctimas TipoAccidente, que

Universidad de Cuenca

23

Ingeniera de Sistemas


2.3. MODELO LOGICO
DEL DW

CAPITULO 2. M. HEFESO

contendra el n
umero de vctimas de acuerdo al tipo de accidente ferroviario.
Todo esto se puede ver en la figura 2.17:

Figura 2.17: Dimension Tipo Accidente Ferroviario

2.3.3.

Tablas de hechos

En esta parte se presentan las tablas de hechos de los accidentes de carretera y de los
accidentes ferroviarios, en la figura 2.18 y 2.19 respectivamente.

Figura 2.18: Tabla de hecho ACCIDENTE CARRETERA

Universidad de Cuenca

24

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

2.3. MODELO LOGICO


DEL DW

Figura 2.19: Tabla de hecho ACCIDENTES FERROVIARIOS

2.3.4.

Uniones

A continuacion, se realizara las uniones pertinentes, segun las dimensiones y los hechos descritos anteriormente. Esto se puede ver en las figuras 2.20 y 2.21 (Accidentes de
carretera y accidentes ferroviarios, respectivamente):

Figura 2.20: Union ACCIDENTE DE CARRETERA

Universidad de Cuenca

25

Ingeniera de Sistemas

DE DATOS
2.4. INTEGRACION

CAPITULO 2. M. HEFESO

Figura 2.21: Union ACCIDENTE FERROVIARIO

2.4.
2.4.1.

Integraci
on de Datos
Carga Inicial

El proceso ETL planteado para la Carga Inicial a modo general es lo que se muestra
en las figuras 2.22, 2.23, 2.24, 2.25.

Las tareas que se lleva a cabo son las siguientes:


Inicio: inicia la ejecucion de los pasos en el momento en que se le indique.
Carga de Dimension LUGAR: Se ejecutan la limpieza de datos y se cargara la
dimension LUGAR.
Carga de Dimension TIPOCARRETERRA: Se ejecutan la limpieza de datos y se
cargara esta dimension.
Carga de Dimension FECHA: Se ejecutan la limpieza de datos y se cargara la
dimension FECHA.
Carga de Dimension TIPOvctima: Se ejecutan la limpieza de datos y se cargara la
dimension TIPOvctima.
Carga de Dimension SEXOvctima: Se ejecutan la limpieza de datos y se cargara la
dimension SEXOvctima.
Carga de Dimension GRUPOEDAD: Se ejecutan la limpieza de datos y se cargara
la dimension GRUPOEDAD.

Universidad de Cuenca

26

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

DE DATOS
2.4. INTEGRACION

Figura 2.22: Carga Inicial de Accidentes de carretera (1)

Figura 2.23: Carga Inicial de Accidentes de carretera (2)

Carga de Dimension MERCADERIAPELIGROSA: Se ejecutan la limpieza de datos


y se cargara la dimension MERCADERIAPELIGROSA.

Universidad de Cuenca

27

Ingeniera de Sistemas

DE DATOS
2.4. INTEGRACION

CAPITULO 2. M. HEFESO

Figura 2.24: Carga Inicial de Accidentes de carretera (3)


Carga de Dimension TIPOACCIDENTE: Se ejecutan la limpieza de datos y se cargara la dimension MERCADERIAPELIGROSA.

Obtener datos de OLTP: Esto se obtiene a traves de una consulta SQL los datos del OLTP
necesarios para cargar los datos de vctimaS POR TIPO DE PERSONA.
SELECT
idvctimasU suario, T IM E, GEO, U N IT , ROADU SER, V alue, F laga ndF ootnotesF ROM vctimasp oru

2.4.2.

Actualizaci
on

Las politicas de Actualizacion son las siguientes:


La informacion se refrescara cada semana sabado a las doce de la noche.
Los datos de las tablas de dimensiones seran cargados totalmente cada vez.
Los datos de la tabla de dimension FECHA se cargaran teniendo en cuenta la
u
ltima fecha que se actualizo.

Universidad de Cuenca

28

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

DE DATOS
2.4. INTEGRACION

Figura 2.25: Carga Inicial de Accidentes de carretera (4)


Estas acciones se realizaran durante un periodo de prueba, para analizar cual es la
manera mas eficiente de generar las actualizaciones.

2.4.3.

Creaci
on de cubos multidimensionales

A continuacion se creara los cubos multidimensionales, uno para accidentes de carretera y otro para accidentes ferroviarios, que seran llamados: CUB ACC 1 y CUB ACC 2
respectivamente, bajo un mismo schema que se llamara: SCHEMA ACC. Todo esto se lo
hara en Schema Workbench y estos estaran basados en los modelos de las figuras 2.20 y
2.21.
Para los cubos se ha creado las dimensiones descritas en los puntos anteriores, ademas de
medidas en las que mayormente se ha usado la funcion de sumarizacion COUNT para
el n
umero de vctimas.
Todo esto se ve en las figuras 2.26 y 2.27, que son los cubos para accidentes de carretera
y accidentes ferroviarios, respectivamente. Asi mismo en la figura 2.28 y 2.29 se estan las
jerarquas de las dimensiones, asi como las tablas referenciadas en cada dimension.
Mientras que las medidas estan en las figuras 2.30 y 2.31:

Universidad de Cuenca

29

Ingeniera de Sistemas

DE DATOS
2.4. INTEGRACION

CAPITULO 2. M. HEFESO

Figura 2.26: CUBO DE ACCIDENTES DE CARRETERA

Figura 2.27: CUBO DE ACCIDENTES FERROVIARIOS


Una vez que se ha terminado de crear los cubos en el Schema Workbench se procede
a publicar el mismo en el BI Server para ver los resultados de las consultas realizadas al
mismo, figura 2.32.

Universidad de Cuenca

30

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

DE DATOS
2.4. INTEGRACION

Figura 2.28: DIMENSIONES Y JERARQUIAS PARA CUBO DE CARRETERA

Figura 2.29: DIMENSIONES Y JERARQUIAS PARA ACCIDENTES FERROVIARIOS

2.4.4.

Resultados

A continuacion se presenta ambos cubos publicados en el BI Server y algunos resultados


obtenidos. Cabe recalcar que en este punto se podran responder las preguntas inicialmente
planteadas, esto mediante los distintos cubos publicados:

Universidad de Cuenca

31

Ingeniera de Sistemas

DE DATOS
2.4. INTEGRACION

CAPITULO 2. M. HEFESO

Figura 2.30: MEDIDAS PARA CUBO DE ACCIDENTES DE CARRETERA

Figura 2.31: MEDIDAS PARA CUBO DE ACCIDENTES FERROVIARIOS

DE LOS CUBOS
Figura 2.32: PUBLICACION

Universidad de Cuenca

32

Ingeniera de Sistemas

CAPITULO 2. M. HEFESO

DE DATOS
2.4. INTEGRACION

Figura 2.33: N
umero de vctimas de accidentes de carretera por pas y a
no

Figura 2.34: N
umero de vctimas de accidentes ferroviarios por pas y a
no

Universidad de Cuenca

33

Ingeniera de Sistemas

DE DATOS
2.4. INTEGRACION

CAPITULO 2. M. HEFESO

Figura 2.35: Cantidad de suicidios por pas y a


no

Figura 2.36: Suicidios por pas y a


no, grafico

Universidad de Cuenca

34

Ingeniera de Sistemas

Captulo 3
Minera de Datos
3.1.

Introducci
on

Hoy en da practicamente todas las empresas cuentan con una enorme cantidad de
datos, esto debido a que sus aplicaciones basicamente se han convertido en recolectores de datos, ya sean estos de clientes, productos, etc, etc. Pero ahora lo importante es
que se pueda emplear esos datos como materia prima bruta para obtener conocimiento y
aprovecharlo. El datamining (minera de datos), es un conjunto de tecnicas que permiten
explorar grandes bases de datos, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto,
lo cual es beneficioso para cualquier tipo de empresa.
Basicamente, el datamining surge para intentar ayudar a comprender el contenido de
un repositorio de datos. Con este fin, hace uso de practicas estadsticas y, en algunos casos,
de algoritmos de b
usqueda proximos a la Inteligencia Artificial y a las redes neuronales.
En otras palabras se puede decir que existen muchas tecnicas para el proceso de Data
Mining, y entre las mas usadas estan las que se analizaran en este informe: prediccion,
clasificacion, clustering y asociacion. Todos estos tienen diferentes algoritmos que pueden
ser aplicados a un conjunto de datos, con el fin de obtener conocimiento de los mismos.

3.2.

Objetivos

Preparar un conjunto de datos, de manera que esten en un formato aceptado por


Weka.
Realizar la prediccion de accidentes para los proximos 4 a
nos.
Realizar una clasificacion de accidentes aplicando clasificadores de Weka.
Realizar un cl
ustering con los datos de los accidentes para pases europeos.
Realizar una asociacion en base a caractersticas presentes en accidentes de carretera.

35


3.3. PROBLEMATIA

3.3.

CAPITULO 3. MINERIA DE DATOS

Problema general planteado

Basicamente lo que se desea es realizar un analisis de datos estadsticos sobre accidentes


de carretera y n
umero de vctimas que han ocurrido en pases de Europa. Para esto se ha
tomado como referencia varias bases de datos de la EUROSTAT (http://ec.europa.eu),
las mismas que contiene datos importantes sobre estos accidentes, como por ejemplo:
el n
umero de vctimas, el tipo de accidente, el tipo de carretera donde ha sucedido el
accidente, el tipo de vctimas involucrados (pasajero, peaton, conductor), etc. Con estos
datos se procedera a realizar un analisis de los mismos: prediccion, clasificacion, clustering
y asociacion. Para ello se usara la herramienta: WEKA, misma que permite realizar estos
analsis.

3.4.
3.4.1.

Predicci
on
Marco Te
orico

El proceso de realizar una prediccion utiliza tecnicas estadsticas para modelar una serie dependiente del tiempo en el que se dan ciertos sucesos que corresponderan al conjunto
de datos analizado, es decir, seran diferentes para cada caso. Basicamente lo que se busca
al hacer una prediccion es usar un modelo para predecir eventos futuros en base al analisis
de eventos pasados, es decir, en base a las estadsticas de los datos. O en otras palabras,
predecir para una fecha futura lo que sucedera con los datos correspondientes a cierto caso.
Perceptr
on Multicapa
El perceptron multicapa es una red neuronal artificial (RNA) formada por m
ultiples capas, esto le permite resolver problemas que no son linealmente separables. El perceptron
multicapa puede ser totalmente o localmente conectado. [1]
Ibk
Este algoritmo esta basado en instancias, por ello consiste u
nicamente en almacenar los
datos presentados. Cuando una nueva instancia es encontrada, un conjunto de instancias
similares relacionadas es devuelto desde la memoria y usado para clasificar la instancia
consultada.
Se trata, por tanto, de un algoritmo del metodo lazy learning. Este metodo de aprendizaje se basa en que los modulos de clasificacion mantienen en memoria una seleccion de
ejemplos sin crear ning
un tipo de abstraccion en forma de reglas o de arboles de decision
(de ah su nombre, lazy, perezosos). Cada vez que una nueva instancia es encontrada, se
calcula su relacion con los ejemplos previamente guardados con el proposito de asignar
un valor de la funcion objetivo para la nueva instancia. [2]
HoltWinters
Esta metodologa es muy utilizada por su simplicidad y la precision de sus pronosticos
sobre todo con series de tiempo periodicas. Esta basada en cuatro ecuaciones basicas que
representan la regularidad, tendencia, periodicidad y pronostico de la serie. [3]

Universidad de Cuenca

36

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.4.2.

3.4. PREDICCION

Definici
on del problema

Basicamente lo que se busca es realizar una prediccion del n


umero de accidentes que
involucren conductores, esto para los proximos 4 a
nos.
Como se puede ver este analisis se enfoca en el tipo de vctima, donde los parametros
seran el n
umero de vctimas, en este caso de tipo conductor, esto frente al tiempo (a
nos).
Cabe recalcar que este mismo analisis se podra realizar para otros tipos de vctimas como
peaton o pasajero, donde el proceso basicamente sera el mismo.

3.4.3.

Obtenci
on de los datos para el an
alisis

Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene los
siguientes campos:
A
no: A
no de ocurrencia de los accidentes.
Conductor: Contiene el n
umero de vctimas conductores en un a
no determinado.
Este set de datos debe estar en un formato adecuado para que sea aceptado en Weka,
es por ello que se ha realizado el tratado de los mismos meditante algunas herramientas
como Pentaho y se ha obtenido el siguiente archivo .csv separado por comas:

Figura 3.1: Datos para la prediccion

3.4.4.

Elecci
on del algoritmo para el an
alisis de los datos

Para enfrentar este problema de prediccion se aplicaran los siguientes algoritmos: Perceptron Multicapa, Ibk y HoltWinters. Ya que lo que se busca es predecir el n
umero
de accidentes de conductores para los siguientes 4 a
nos.
Jutificaci
on de la elecci
on del tipo de algoritmos como Perceptr
on Multicapa
Previamente se realizo un analisis de los datos con los que se trabajarian, esto para ver
si los mismos tenian un comportamiento que motivara a la eleccion de un determinado

Universidad de Cuenca

37

Ingeniera de Sistemas


3.4. PREDICCION

CAPITULO 3. MINERIA DE DATOS

algoritmo, por ejemplo el de regresion lineal. Este tipo de algoritmos no se utilizo justamente por el comportamiento de los datos, los mismos que se pueden apreciar en la figura
3.2:

Figura 3.2: Analsis previo de los datos, para conductor


Como se puede ver los datos no tienen un comportamiento que motive al uso de un algoritmo de regresion lineal. Y es debido justamente a este comportamiento que se ha escogido
algoritmos como el MultiLayerPerceptron, el mismo que es una red neuronal artificial
(RNA) formada por m
ultiples capas, y es esto lo que le permite resolver problemas que
no son linealmente separables.

3.4.5.

Aplicaci
on de los algoritmos a los datos

Para realizar esta prediccion se ha separado el conjunto de datos, dejando un 20 %


para pruebas y se predecira el n
umero de accidentes con vctimas tipo conductor, para
los siguientes 4 a
nos.
En Weka se realiza la configuracion para obtener el Mean Absolute Porcentaje Error,
como se muestra en la figura 3.6, lo cual permitira seleccionar el mejor modelo.

Figura 3.3: Configuracion del Mean Absolute Porcentaje Error


A continuacion se procede a cargar los datos en WEKA y a realizar la prediccion de estos
mediante los algoritmos mencionados anteriormente.
Perceptr
on Multicapa
Entrenamiento y Evaluaci
on de resultados
Se puede apreciar en la figura 3.7 que el entrenamiento el modelo se aparece bastante a
los datos originales para conductor, mostrados en la figura 3.2. Ademas se observa que el

Universidad de Cuenca

38

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.4. PREDICCION

n
umero de vctimas conductores para los a
nos 2016 al 2017 aumenta considerablemente,
mientras que para los siguientes 2 a
nos estos se reducen, esto en la figura 3.8.
Las predicciones (valores numericos) se pueden ver en la figura 3.6, junto con la evaluacion
o pruebas para cada uno de los a
nos para los que se realizo la prediccion. Aqu tambien
esta presente el MAPE (Mean Absolute Percentage Error), el cual servira mas adelante
para la seleccion del modelo.

Figura 3.4: Entrenamiento con Algoritmo Perceptron Multicapa

Figura 3.5: Prediccion (grafica) con Algoritmo Perceptron Multicapa

Figura 3.6: Predicciones (numerica) con Algoritmo Perceptron Multicapa, para los proximos 4 a
nos

Universidad de Cuenca

39

Ingeniera de Sistemas


3.4. PREDICCION

CAPITULO 3. MINERIA DE DATOS

IBk
Entrenamiento y Evaluaci
on de resultados
Se puede apreciar en la figura 3.7 que en el entrenamiento el modelo encaja bastante
bien con los datos originales. Ademas se observa en la figura 3.8, que en este caso los
datos tienen un comportamiento aproximado a los datos originales, ya que el n
umero de
vctimas conductores para los a
nos 2016 y 2017 se reduce, mientras que para el siguiente
a
no (2018) aumenta en comparacion con los 2 anteriores y en el u
ltimo a
no vuelve a
reducirse, y como se puede apreciar en la figura 3.7 el comportamiento de los datos para
a
nos anteriores es similar.
Las predicciones (valores numericos) se pueden ver en la figura 3.9, junto con la evaluacion
o pruebas para cada uno de los a
nos para los que se realizo la prediccion. Una vez mas aqui
se puede observar que los valores tienen un comportamiento similar a los a
nos anteriores.
Ademas aqu tambien esta presente el MAPE (Mean Absolute Percentage Error), el cual
servira mas adelante para la seleccion del modelo y que en este caso es 0.

Figura 3.7: Entrenamiento con Algoritmo IBk

Figura 3.8: Prediccion (grafica) con Algoritmo IBk

Universidad de Cuenca

40

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.4. PREDICCION

Figura 3.9: Predicciones (numerica) con Algoritmo IBk, para los proximos 4 a
nos

Holt Winters
Entrenamiento y Evaluaci
on de resultados
Se puede apreciar en la figura 3.7 que el entrenamiento del modelo se parece bastante a
los datos originales. Ademas se observa que seg
un este algoritmo el n
umero de vctimas
conductores aumenta de un modo anormal, pasando de datos que maximo llegaban a las
3000 vctimas a datos que se predicen sobrepasan las 13000 vctimas (para el a
no 2019).
Este comportamiento resulta anormal para este tipo de datos ya que de darse esa cantidad
de vctimas implicara que el n
umero de conductores aumento considerablemente en estos
a
nos o que en su defecto, lo que aumento fue la irresponsabilidad de coductores que antes
eran responsables mientras conducan. Esta prediccion se puede ver graficamente en la
figura 3.11.
Las predicciones (valores numericos) se pueden ver en la figura 3.12, junto con la evaluacion
o pruebas para cada uno de los a
nos para los que se realizo la prediccion. Aqu tambien
esta presente el MAPE (Mean Absolute Percentage Error), el cual servira mas adelante
para la seleccion del modelo.

Figura 3.10: Entrenamiento con Algoritmo Holt Winters

Universidad de Cuenca

41

Ingeniera de Sistemas


3.4. PREDICCION

CAPITULO 3. MINERIA DE DATOS

Figura 3.11: Prediccion (grafica) con Algoritmo Holt Winters

Figura 3.12: Predicciones (numerica) con Algoritmo Holt Winters, para los proximos 4
a
nos

3.4.6.

Selecci
on del modelo en base al MAPE (Mean Absolute
Percentage Error)

En los puntos anteriores se aplico los algoritmos al conjunto de datos y en este proceso
se obtuvo el MAPE, lo cual ahora permitira realizar la seleccion del modelo.
Como se puede ver en la figura 3.6, 3.9 y 3.12 los valores del MAPE son diferentes en cada
caso, pero en el caso del algoritmo IBk se tiene un porcentaje de error 0, lo cual indica que
este es el modelo que mas se ajusta a los datos originales, esto mismo se pudo observar
en el analisis de este algoritmo ya que como se menciono este tiene un comportamiento
bastante similar a los datos originales.

Universidad de Cuenca

42

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.5. CLASIFICACION

Cuadro 3.1: Resultados de la prediccion para los proximos 4 a


nos

3.4.7.

An
alisis de resultados

Esta parte del analisis presenta los resultados obtenidos durante todo el proceso, los
cuales se pueden ver en el cuadro 3.1 y de modo grafico en la figura 3.13

Figura 3.13: Resultados grafico de la prediccion para los proximos 4 a


nos

3.5.

Clasificaci
on

3.5.1.

Marco Te
orico

Con respecto al problema de la clasificacion, que es el mas frecuente en la practica,


se puede decir que en ocasiones, este se formula como un refinamiento en el analisis, una
vez que se han aplicado algoritmos no supervisados de agrupamiento y asociacion para
describir relaciones de interes en los datos. [4]
PART
Este algoritmo esta basado en la construccion de reglas de clasificacion, esto en base a los
atributos presentes en los datos. PART construye una serie de reglas que se pueden ver
en la ventana de resultados de WEKA.

Universidad de Cuenca

43

Ingeniera de Sistemas


3.5. CLASIFICACION

CAPITULO 3. MINERIA DE DATOS

J48
del algoritmo C4.5, uno de los alEl algoritmo J48 de WEKA es una implementaciUn
`
goritmos de minerIa de datos mas utilizado.
Se trata de un refinamiento del modelo generado con OneR. Supone una mejora moderada
en las prestaciones.
El parametro mas importante que deberemos tener en cuenta es el factor de confianza
para la poda (confidence level), que influye en el tama
no ycapacidad de prediccion del
arbol construido. Para cada operacion de poda, define la probabilidad de error que se
permite a la hipotesis de que el empeoramiento debido a esta operacion es significativo.
[5]
JRip
Este es un algoritmo que genera un listado de reglas obtenidas basicamente a partir
de listas de decision (Rivest, 1987). Funciona de modo similar a RIPPER (Repeated Incremental Pruning to Produce Error Reduction), el cual fue presentado por William W.
Cohen (1995). [6]
Naive Bayes
Este clasificador estadstico se considera, en general, como uno de los mas basicos (George
et al., 1995; Marquez, 2002; inter alia), pero los autores coiciden en que, aunque sencillo,
este clasificador sigue mostrando un buen desempe
no en una gran variedad de problemas. A grandes rasgos, NB se esquematiza como un nodo C representante de la clase
y un nodo dependiente para cada atributo Xi que representa cada instancia o ejemplo.
Las condiciones metodologicas para la utilizacion de este algoritmo incluyen asumir que
los atributos que modela son independientes unos de otros y que sus valores son determinados a partir de la clase C de acuerdo a las distribuciones individuales de P(Xi C). [6]

3.5.2.

Definici
on del problema

Basicamente lo que se busca es aplicar un clasificador a un set de datos que contiene


una serie de atributos, descritos mas delante, para determinar si una persona con esas
caractersticas tiene o no un accidente. Es decir, clasificar en si tuvo o no tuvo un accidente.

3.5.3.

Obtenci
on de los datos para el an
alisis

Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene los
siguientes campos:
Ubicacion: Pas donde se dio los accidentes.
Carretera: Tipo de carretera donde ser dio los accidentes
TipoPersona: Tipo de persona que tuvo los accidentes
EdadPersona: Edad de persona que tuvo los accidentes

Universidad de Cuenca

44

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.5. CLASIFICACION

Accidente: Si o No. Determina si hubo o no accidente.


Los datos seran obtenidos de las mismas fuentes que se usaron para el sistema mutidimensional del data warehouse y estos deben estar en un formato adecuado para que sea
aceptado en Weka, es por ello que se ha realizado el tratado de los mismos meditante
algunas herramientas como Pentaho y se ha obtenido el siguiente archivo .csv separado
por comas:

Figura 3.14: Datos para la clasificacion

3.5.4.

Elecci
on del algoritmo para el an
alisis de los datos

Para enfrentar este problema de clasificacion se aplicaran los siguientes algoritmos:


J48, PART, JRip y NaiveBayes. Ya que lo que se busca es clasificar datos nominales y estos algoritmos permiten interpretar los resultados de una forma sencilla.

3.5.5.

Aplicaci
on del algoritmo a los datos

En la pesta
na Classify de Weka, primero se debera elegir el clasificador.
En esta parte se configurara el analisis para que divida al conjunto de datos en un 80 %
para el entrenamiento, y un 20 % para las pruebas, esto se lo hace en las test options
como se muestra en la figura 3.15:

Universidad de Cuenca

45

Ingeniera de Sistemas


3.5. CLASIFICACION

CAPITULO 3. MINERIA DE DATOS

Figura 3.15: Opciones de prueba

Cuadro 3.2: Resultados de la clasificacion


J48
Con este algoritmo se ha conseguido clasificar correctemente el 77.0492 % de los datos.
Esto es que 47 han sido correctamente clasificados mientras que 14 no. Esto es asi ya
que del total de datos que era de 306, unicamente el 20 % se uso para pruebas. En este
algoritmo ha existido el siguiente error absoluto promedio: 0.3495, este dato servira para
la eleccion del modelo en los puntos siguientes.
PART
Con este algoritmo se ha conseguido clasificar correctemente el 72.1311 % de los datos.
Esto es que 44 han sido correctamente clasificados mientras que 17 no. En este algoritmo
ha existido el siguiente error absoluto promedio: 0.2797.
JRip
Con este algoritmo se ha conseguido clasificar correctemente el 72.1311 % de los datos.
Esto es que 44 han sido correctamente clasificados mientras que 17 no. En este algoritmo
ha existido el siguiente error absoluto promedio: 0.3603.
NaiveBayes
Con este algoritmo se ha conseguido clasificar correctemente el 77.0492 % de los datos.
Esto es que 47 han sido correctamente clasificados mientras que 14 no. En este algoritmo
ha existido el siguiente error absoluto promedio: 0.3516.
Como se puede ver el porcentaje de clasificacion correcta es similar en algunos de los
algoritmos, pero tambien se puede ver que el error varia en los mismos.
Los resultados de la aplicacion de cada uno de los algoritmos estan en el cuadro 3.2.

3.5.6.

Selecci
on del modelo en base al MAE (Mean Absolute
Error)

En los puntos anteriores se aplico los algoritmos al conjunto de datos y en este proceso
se obtuvo el MAE, lo cual servira como base para realizar la seleccion del modelo.
Como se pudo ver en el cuadro 3.2 los valores del MAE son diferentes en cada caso, pero

Universidad de Cuenca

46

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.5. CLASIFICACION

en el caso del algoritmo PART se observa un error absoluto promedio menor, lo cual
indica que este es el algoritmo mas adecuado. En este punto se debe aclarar que aunque
con este algoritmo el error fue menor, se clasifico correctamente menos datos que con los
otros algoritmos, pero como se menciono anteriormente, en este caso se ha tomado como
base el MAE para la seleccion del algoritmo.

3.5.7.

An
alisis de resultados

Esta parte del analisis presenta los resultados obtenidos durante todo el proceso, los
cuales se muestran en el cuadro 3.2. Se puede observar tambien la matriz de confusion
que genero cada uno de los algoritmos, aqu se puede ver la cantidad de datos clasificados
correctamente y los que no. Se puede observar las reglas formadas, donde por ejemplo

Figura 3.16: Resultados. Matriz de Confusion

Figura 3.17: Resultados. Reglas generadas


si se es joven y esta en Belgium no tiene accidentes 4 de 9 personas (Figura 3.17). Cabe
mencionar que se ha ejecutado este analisis seleccionando la variable Accidente:
Finalmente tambien se ha incluido el resultado del algoritmo Naive Bayes, ya que
el mismo muestra de una forma mas clara los resultados que ofrece este algoritmo, esto
se puede ver en la figura 3.19. Ademas de ofrecer una mayor cantidad de clasificaciones
correctas, en comparacion con PART :

Universidad de Cuenca

47

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.6. CLUSTERING

Figura 3.18: Variable para clasificacion

Figura 3.19: Resultados del alfrotimo Naive Bayes

3.6.
3.6.1.

Clustering
Marco Te
orico

Los algoritmos de clustering permiten clasificar un conjunto de elementos de muestra


en un determinado n
umero de grupos basandose en las semejanzas y diferencias existentes
entre los componentes de la muestra.

Universidad de Cuenca

48

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.6. CLUSTERING

Simple K Means
`
Se trata de un algoritmo clasificado como MEtodo
de Particionado y Recolocacion. Este
metodo es hasta ahora el mas utilizado en aplicaciones cientficas e industriales. El nombre
le viene porque representa cada uno de los clusters por la media (o media ponderada) de
sus puntos, es decir, por su centroide. [7]
Canopy
El algoritmo canopy permite realizar agrupamientos en la cual su operacion se basa en
realizar calculos sencillos para generar subgrupos de puntos en la cual cada dato puede
pertenecer a mas de un subgrupo. Despues de la cual usa metodos de segmentacion como
el k-means con la restriccion de no realizar calculos de distancia entre dos puntos que no
pertenecen al mismo subgrupo. [8]

3.6.2.

Definici
on del problema

En esta parte del analisis se pretende agrupar o clusterizar accidentes y realizar 3


clusters con las caractersticas presentes en cada accidente (tipo vctima, gravedad, etc.)
y determinar si la gravedad de un accidente es grave, media, baja o nula (nula en el caso
de que dadas las caractersticas de los datos no se presenta un accidente).

3.6.3.

Obtenci
on de los datos para el an
alisis

Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene los
siguientes campos:
Ubicacion: Pas donde se dio los accidentes.
Carretera: Tipo de carretera donde ser dio los accidentes
TipoPersona: Tipo de persona que tuvo los accidentes
EdadPersona: Edad de persona que tuvo los accidentes
Accidente: Si o No. Determina si hubo o no accidente.
Gravedad: Determina la gravedad del accidente.
Los datos seran obtenidos de las mismas fuentes que se usaron para el sistema mutidimensional del data warehouse y estos deben estar en un formato adecuado para que sea
aceptado en Weka, es por ello que se ha realizado el tratado de los mismos meditante
algunas herramientas como Pentaho y se ha obtenido el siguiente archivo .csv separado
por comas:

Universidad de Cuenca

49

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.6. CLUSTERING

Figura 3.20: Datos para la clustering

3.6.4.

Elecci
on del algoritmo para el an
alisis de los datos

En esta seccion se aplico dos algoritmos de clustering, estos son: Simple-KMeans


y Canopy, los mismos que permitiran tener una comparacion de los cl
usters que se
obtengan de cada uno.

3.6.5.

Aplicaci
on del algoritmo a los datos

Para este analisis se trabajara con todos los datos, tanto para el entrenamiento como
para las pruebas, para ello se debe configurar el modo del cluster en Use training set,
como se ve en la figura 3.21.

Figura 3.21: Cluster mode, Use training set

Universidad de Cuenca

50

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.6. CLUSTERING

Canopy
Una vez aplicado este algoritmo al set de datos, se obtiene los resultados de la figura
3.22, donde se puede ver los cl
usters generados, sus respectivos porcentajes, ademas se
observa que hay presencia de ruido, lo cual dificultara agrupar los accidentes de acuerdo
a su gravedad.
En la figura 3.23 se puede ver de manera grafica los cl
usters generados donde se ha
cruzado la ubicacion (pas) y la gravedad del accidente. Como se menciono anteriormente
existe ruido, por lo cual no existe una separacion suficientemente clara entre los cl
usters
generados.

Figura 3.22: Resultados de Canopy, clustering


Simple-K Means
Al aplicarse este algoritmo al set de datos, se obtiene los resultados de la figura 3.24, donde
se puede ver los cl
usters generados, sus respectivos porcentajes, y demas caractersticas
de los mismos.
En la figura 3.25 se puede ver de manera grafica los cl
usters generados donde se ha cruzado
la ubicacion (pas) y la gravedad del accidente.

Universidad de Cuenca

51

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.6. CLUSTERING

Figura 3.23: Resultados graficos de algoritmo Canopy, clustering

Figura 3.24: Resultados de Simple-K Means, clustering

Universidad de Cuenca

52

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.6. CLUSTERING

Figura 3.25: Resultados graficos de algoritmo Simple-K Means, clustering

3.6.6.

An
alisis de resultados

A sido difcil establecer un modelo para el set de datos de accidentes, debido a la


presencia de ruido en ambos algoritmos, tanto Canopy como Simple-K Means. Como se
ha observado en la figura 3.23 y 3.25 existen algunos cl
usters con menos ruidos que otros,
y al parecer el que ofrece un mejor modelo es el Simple-k Means, donde se ha se
nalado
algunos de los mejores cl
usters, esto en la figura 3.26.

Entonces, se puede decir que:

Los accidentes del cl


uster 0 son nulos, es decir q no ha habido accidentes para esos
casos.
Los accidentes del cl
uster 1 son de gravedad media.
Los accidentes del cl
uster 2 son tambien de gravedad media pero se han dado en
pases diferentes.
Los accidente de gravedad alta presenta demasiado ruido por lo que ning
un cl
uster
ha podido agruparlos.

Universidad de Cuenca

53

Ingeniera de Sistemas


3.7. ASOCIACION

CAPITULO 3. MINERIA DE DATOS

Figura 3.26: Algoritmo Simple-K Means, clustering

3.7.
3.7.1.

Asociaci
on
Marco Te
orico

Mediante algoritmos de asociacion se puede realizar la b


usqueda automatica de reglas
que relacionan conjuntos de atributos entre s. Son algoritmos no supervisados, ya que no
existen relaciones conocidas a priori con las que contrastar la validez de los resultados,
sino que se eval
ua si esas reglas son estadsticamente significativas.
Apriori
El principal algoritmo implementado en WEKA es el algoritmo Apriori, el cual solo busca reglas entre atributos simbolicos, por lo cual todos los atributos numericos deberan
ser discretizados previamente. [9]

3.7.2.

Definici
on del problema

En esta parte del analisis lo que se pretende es realizar una asociacion de los accidentes de carretera, para lo cual se tiene valores nominales (Si y No) de las diferentes
caractersticas presentes en los accidentes. Por ejemplo se busca determinar que si una

Universidad de Cuenca

54

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.7. ASOCIACION

persona que es joven, sera tambien conductor y tendra un accidente de transito, esto en
base al historial de accidentes y de sus respectivas caractersticas.

3.7.3.

Obtenci
on de los datos para el an
alisis

Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene los
siguientes campos:
Conductor: Determina si la vctima fue un conductor.
Jovenes: Determina si la vctima fue un joven.
Adultos: Determina si la vctima fue un Adulto o no (puede ser joven, o adulto o
ninguno de los dos, es decir, ni
no o anciano).
Muejeres: Determina si la vctima fue mujer.
C. Urbana: Determina si el accidente se dio en una carretera urbana.
Da: Determina si el accidente ocurrio durante el da.
Accidente: Determina si el accidente ocurrio o no.
Los datos seran obtenidos de las mismas fuentes que se usaron para el sistema
mutidimensional del data warehouse y estos deben estar en un formato adecuado
para que sea aceptado en Weka, es por ello que se ha realizado el tratado de los
mismos meditante algunas herramientas como Pentaho y se ha obtenido el siguiente
archivo .csv separado por comas, como se ve en la figura 3.27:

Figura 3.27: Set de datos para la asociacion

Universidad de Cuenca

55

Ingeniera de Sistemas


3.7. ASOCIACION

3.7.4.

CAPITULO 3. MINERIA DE DATOS

Elecci
on del algoritmo para el an
alisis de los datos

El algoritmo que se ha seleccionado para realizar esta asociacion es el Apriori,


debido a que es el mas comunmente usado para este tipo de analisis. Y se ha considerado generar 10 reglas de asociacion.

3.7.5.

Aplicaci
on del algoritmo a los datos

Para aplicar el algoritmo de asociacion se ha configurado el n


umero de reglas, esto
se ve en la figura 3.28.
Una vez ejecutado el algoritmo se ha encontrado con un valor aproximado del 90 %
de confiabilidad lo cual hace que el modelo sea valido.

Figura 3.28: Configuracion del n


umero de reglas para la asociacion

3.7.6.

An
alisis de resultados

En esta parte del analisis se puede ver algunas de las reglas de asociacion que
WEKA ha encontrado en el set de datos. Por ejemplo la regla 8 que dice que de los
datos analizados sin son conductores, entonces tambien son adultos, esto con una
confiabilidad de 0.99, y de la misma forma para las demas reglas encontradas, las
mismas que estan en la figura 3.29.

Universidad de Cuenca

56

Ingeniera de Sistemas

CAPITULO 3. MINERIA DE DATOS

3.7. ASOCIACION

Figura 3.29: Mejores reglas de asociacion encontradas

Universidad de Cuenca

57

Ingeniera de Sistemas

Captulo 4
Conclusiones
Luego del presente analisis se tiene las siguientes conclusiones:
Existen muchas metodologas para la construccion de un Data warehouse, y
cada una de estas tiene su propios pasos para el desarrollo. En el caso de este
trabajo se ha seleccionado la metodologa hefesto por ser clara y sencilla en
su desarrollo.
Pueden existir un sinn
umero de fuentes y las mismas pueden estar en diferentes
formatos.
Los datos deben ser tratados mediante herramientas como pentaho data integration, el cual permite realizar una limpieza de los mismos, entre muchas
otras cosas mas.
Las dimensiones y los hechos se han creado a partir de los modelos conceptuales
creados siguiendo la metodologa hefesto.
La creacion y publicacion de los cubos multidimensionales se ha hecho mediante schema workbench, en el cual se debe realizar ciertas configuraciones, por
ejemplo establecer la conexion con la base de datos, claves para la publicacion,
etc.
Una vez publicado correctamente los cubos, estos pueden ser accedidos mediante BI Server, el cual permite ver los resultados y hacer consultas al data
warehouse.
Para trabajar con weka los datos deben estar en un formato adecuado, lo que
implica que no todos los tipos de datos se pueden cargar en weka.
Para realizar los distintos analisis (Prediccion, Clasificacion, etc) existen una
serie de algoritmos, de los cuales se debera escoger el mas adecuado para los
datos.

58

CAPITULO 4. CONCLUSIONES

No todos los algoritmos se pueden aplicar a todos los datos, su uso dependera
de lo que se desee hacer y del comportamiento de los datos.
Es recomendable realizar un analis previo de los datos para ver su comportamiento, esto antes de aplicar cualquier algoritmo de weka.

Universidad de Cuenca

59

Ingeniera de Sistemas

Ap
endice A
Reporte usando Report Designer
En esta seccion se presenta un ejemplo de reporte del data warehouse construido.
Esto mediante la herramienta de pentaho: report designer.
El siguiente reporte muestra el n
umero de vctimas adultos y jovenes de dos paises
de Europa, perimitiendo as comparar estos dos pases.
Como se puede ver en la figura A1, A2 y A3, la mayor cantidad de accidentes de
han dado en Austria con un 87 % frente a un 13 % en Bulgaria.

Figura A.1: Vctimas Jovenes y Adultos de Austria y Bulgaria


De la misma manera se pueden elaborar y obtener todos los reportes que se deseen.

60


APENDICE
A. REPORTE USANDO REPORT DESIGNER

Figura A.2: Vctimas Jovenes y Adultos de Austria y Bulgaria

Universidad de Cuenca

61

Ingeniera de Sistemas


APENDICE
A. REPORTE USANDO REPORT DESIGNER

Figura A.3: Vctimas Jovenes y Adultos de Austria y Bulgaria

Universidad de Cuenca

62

Ingeniera de Sistemas

Bibliografa
[1] Wikipedia. Perceptron multicapa.
[2] Zaida Cebrian Jimenez Alejandro Boris Valiente. Inteligencia en redes de comunicaciones. diagnostico cardiologa.
[3] MC. Pedro Flores Perez. Una metodologa basada en algoritmos geneticos autoadaptables para la construccion de modelos lineales para series de tiempo y
funciones de transferencia discretas.
[4] MC. Flores P. Tecnicas de analisis de datos en weka.

[5] Aranzazu Alvarez


Sierra Mara Garca Jimenez. Analisis de datos en weka.
de mEtodos

[6] Nora Marcela Aguilar Caro. AplicaciOn


de aprendizaje automAtico
del pp attachment en espaNol.

para la desambiguaciOn

[7] Aranzazu Alvarez


Sierra Mara Garca Jimenez. Analisis de datos en weka.
[8] Wilson Rodrigo Perez Rocano Valeria Alexandra Haro Valle. Data warehouse
para el centro de documentacion regional juan bautista vazquez.

[9] Aranzazu Alvarez


Sierra Mara Garca Jimenez. Analisis de datos en weka.

63

You might also like