Professional Documents
Culture Documents
ESCUELA DE SISTEMAS
Creaci
on de un Datawarehouse usando la
Metodologa Hefesto y An
alisis de datos mediante
WEKA: Predicci
on, clasificaci
on, clustering y
asociaci
on
Realizado por: Juan Carlos Lojano U.
Profesor:
Ing. Vctor Saquicela
Indice general
Lista de figuras
Lista de tablas
1. Introducci
on
1.1. Problema planteado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Descripcion de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
1
2. M. Hefeso
2.1. Analisis de requerimientos . . . . . . . . . . . . . . .
2.1.1. Identificar preguntas. Accidentes de carretera
2.1.2. Identificar indicadores y perspectivas. . . . . .
2.1.3. Modelo Conceptual . . . . . . . . . . . . . . .
2.2. Analisis de los OLTP . . . . . . . . . . . . . . . . . .
2.2.1. Conformar Indicadores . . . . . . . . . . . . .
2.2.2. Establecer Correspondencias . . . . . . . . . .
2.2.3. Nivel de Granularidad . . . . . . . . . . . . .
2.2.4. Modelo Conceptual Ampliado . . . . . . . . .
2.3. Modelo Logico del DW . . . . . . . . . . . . . . . . .
2.3.1. Tipo de Modelo Logico del DW . . . . . . . .
2.3.2. Tablas de dimensiones . . . . . . . . . . . . .
2.3.3. Tablas de hechos . . . . . . . . . . . . . . . .
2.3.4. Uniones . . . . . . . . . . . . . . . . . . . . .
2.4. Integracion de Datos . . . . . . . . . . . . . . . . . .
2.4.1. Carga Inicial . . . . . . . . . . . . . . . . . .
2.4.2. Actualizacion . . . . . . . . . . . . . . . . . .
2.4.3. Creacion de cubos multidimensionales . . . . .
2.4.4. Resultados . . . . . . . . . . . . . . . . . . . .
3. Minera de Datos
3.1. Introduccion . .
3.2. Objetivos . . .
3.3. Problematia . .
3.4. Prediccion . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
6
8
9
9
12
16
18
18
18
18
24
25
26
26
28
29
31
.
.
.
.
35
35
35
36
36
INDICE GENERAL
INDICE GENERAL
3.4.1.
3.4.2.
3.4.3.
3.4.4.
3.4.5.
3.4.6.
Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Definicion del problema . . . . . . . . . . . . . . . . . . . . . . .
Obtencion de los datos para el analisis . . . . . . . . . . . . . . .
Eleccion del algoritmo para el analisis de los datos . . . . . . . . .
Aplicacion de los algoritmos a los datos . . . . . . . . . . . . . . .
Seleccion del modelo en base al MAPE (Mean Absolute Percentage
Error) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.7. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . .
3.5. Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . .
3.5.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . .
3.5.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . .
3.5.5. Aplicacion del algoritmo a los datos . . . . . . . . . . . . . . . . .
3.5.6. Seleccion del modelo en base al MAE (Mean Absolute Error) . . .
3.5.7. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . .
3.6. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . .
3.6.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . .
3.6.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . .
3.6.5. Aplicacion del algoritmo a los datos . . . . . . . . . . . . . . . . .
3.6.6. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . .
3.7. Asociacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.2. Definicion del problema . . . . . . . . . . . . . . . . . . . . . . .
3.7.3. Obtencion de los datos para el analisis . . . . . . . . . . . . . . .
3.7.4. Eleccion del algoritmo para el analisis de los datos . . . . . . . . .
3.7.5. Aplicacion del algoritmo a los datos . . . . . . . . . . . . . . . . .
3.7.6. Analisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
36
37
37
37
38
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
42
43
43
43
44
44
45
45
46
47
48
48
49
49
50
50
53
54
54
54
55
56
56
56
4. Conclusiones
58
60
Universidad de Cuenca
Ingeniera de Sistemas
Indice de figuras
2.1.
2.2.
2.3.
2.4.
2.5.
8
9
12
13
14
15
19
20
21
21
21
21
22
22
23
23
24
24
25
25
26
27
27
28
29
30
30
31
31
32
32
32
INDICE DE FIGURAS
INDICE DE FIGURAS
2.33. N
umero de vctimas de accidentes de carretera por pas y a
no
2.34. N
umero de vctimas de accidentes ferroviarios por pas y a
no .
2.35. Cantidad de suicidios por pas y a
no . . . . . . . . . . . . . .
2.36. Suicidios por pas y a
no, grafico . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
33
33
34
34
.
.
.
.
.
37
38
38
39
39
.
.
.
.
.
.
39
40
40
41
41
42
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
42
43
45
46
47
47
48
48
50
50
51
52
52
53
54
55
56
57
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Universidad de Cuenca
Ingeniera de Sistemas
Indice de cuadros
3.1. Resultados de la prediccion para los proximos 4 a
nos . . . . . . . . . . . . 43
3.2. Resultados de la clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Captulo 1
Introducci
on
1.1.
Problema planteado
Basicamente lo que se desea implementar es un Datawarehouse sobre accidentes de carretera y accidentes ferroviarios (trenes), que ha ocurrido en pases de Europa. Para esto se
ha tomado como referencia varias bases de datos de la EUROSTAT (http://ec.europa.eu),
las mismas que contiene datos importantes sobre estos accidentes, como por ejemplo: el
n
umero de vctimas, el tipo de accidente, el tipo de carretera donde ha sucedido el accidente, el tipo de vctimas involucrados (pasajero, peaton, conductor), etc., esto respecto a lo
que son accidentes de carretera o de transito, y de la misma forma respecto a los accidentes
que involucran trenes (n
umero de vctimas, accidentes por transporte de material peligroso en trenes, accidentes por incendios, etc). Todos estos datos son de pases europeos
tomados de los a
nos 2004 a 2013. Para implementar este Datawarehouse se ha optado por
seguir la metodologa Hefesto, la misma que presenta pasos claros y concisos de desarrollo.
Basicamente se desea conocer la cantidad de accidentes que se han dado en un cierto
periodo de tiempo, el tipo de accidentes que se han dado y en que lugar, el n
umero de
vctimas, tipo de vctimas, etc., todos estos puntos estan detallados mas adelante en el
analisis de requerimientos.
1.2.
Descripci
on de los datos
Los datos se encuentran en varios formatos, entre ellos estan los siguientes: formato
.xlsx, .sql, .cvs, .txt, etc. Y lo que se busca es integrar todas estas fuentes de datos de
tal manera que se pueda responder a ciertas preguntas, las mismas que se describen en el
siguiente apartado.
Fuentes:
Las siguientes son fuentes que contienen los datos respecto a los accidentes de
carretera:
DE LOS DATOS
1.2. DESCRIPCION
CAPITULO 1. INTRODUCCION
Fuente 1: Esta primera fuente esta en formato de una base de datos (.sql) y basicamente
contiene las estadsticas de las vctimas de accidentes de trafico seg
un el tipo de usuario
que estuvo involucrado en el accidente, esto es conductor, pasajero, peaton.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto esta
como n
umero.
ROADUSER: Tipo de vctima (o usuario de va) involucrada en los accidentes: pasajero, conductor o peaton.
Value: N
umero de vctimas.
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Fuente 2: Esta segunda fuente esta en formato Excel (.xlsx) y basicamente contiene
las estadsticas con el n
umero de accidentes y el n
umero de vctimas seg
un el tipo de
carretera en el que se dio el accidente.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto esta
como n
umero.
TRA INFR: Tipo de carretera en donde se dio el accidente.
Value: N
umero de vctimas.
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Fuente 3: Esta tercera fuente esta en formato .cvs y basicamente contiene las estadsticas de los pasajeros clasificados seg
un la edad de los mismos, no los involucrados en un
accidente, pero si el n
umero de pasajeros en un medio de tansporte en Europa, de acuerdo
a la edad. Estos datos serviran para conocer que tipo de usuarios son los mas frecuentes
en estos pases, jovenes o adultos, para poder determinar si esto incide en los accidentes.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto esta
como n
umero.
AGE: Rango de edad de los pasajeros, este campo contiene las edades de las vctimas
clasificadas por rangos.
Value: N
umero o cantidad de vctimas.
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Fuente 4: Esta cuarta fuente esta en formato de un archivo de texto (.txt) y basica-
Universidad de Cuenca
Ingeniera de Sistemas
CAPITULO 1. INTRODUCCION
DE LOS DATOS
1.2. DESCRIPCION
mente contiene las estadsticas de las vctimas en accidentes, segun la edad. A diferencia
de la fuente anterior en este caso si son personas que ya estuvieron involucradas en accidentes, y por ende son vctimas.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto como
n
umero
AGE: Rango de edad de los pasajeros, este campo contiene las edades de las vctimas
clasificadas por rangos.
Value: N
umero de vctimas
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Fuente 5: Esta quinta fuente basicamente consumira un servicio web que devolvera el
n
umero de vctimas clasificadas por sexo.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto como
n
umero.
SEX: Sexo de la vctima.
Value: N
umero de vctimas.
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Las siguientes son fuentes que contienen los datos respecto a los accidentes
ferroviarios:
Fuente 1: Esta primera fuente esta en formato de una base de datos (.sql) y basicamente
contiene las estadsticas de las vctimas de accidentes de ferrocarriles. Lo particular de
esta fuente es que las vctimas son por suicidios en ferrocarriles, y que de alguna forma
estuvo relacionado con algun accidente del mismo.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto esta
como n
umero.
Value: N
umero de vctimas.
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Fuente 2: Esta segunda fuente esta en formato Excel (.cvs) y contiene las estadsticas con el n
umero de accidentes y el n
umero de vctimas seg
un el tipo de accidente que
se dio. Obviamente estos tipos son referentes a los ferrocarriles, por ejemplo: colisiones,
Universidad de Cuenca
Ingeniera de Sistemas
DE LOS DATOS
1.2. DESCRIPCION
CAPITULO 1. INTRODUCCION
Fuente 3: Esta tercera fuente esta en formato de un archivo de texto (.txt) y contiene las estadsticas de los accidentes ferroviarios que implican el transporte de mercancas
peligrosas.
Los campos que contiene esta fuente son los siguientes:
TIME: A
no: 2004 a 2013.
GEO: Ubicacion o Pas de Europa.
UNIT: Se refiere a la unidad en la que esta la cantidad de vctimas. Por defecto como
n
umero
ACCIDENT: Detalle del accidente y de la mercanca peligrosa involucrada.
Value: N
umero de vctimas
Flag and Footnotes: Banderas y notas. Por defecto esta en blanco.
Algunos de estos campos contienen informacion que no presentan un gran aporte, por
lo cual en el proceso de ETL se hara la limpieza de esta clase de datos.
Universidad de Cuenca
Ingeniera de Sistemas
Captulo 2
Desarrollo de la Metologa Hefesto
2.1.
2.1.1.
An
alisis de requerimientos
Identificar preguntas. Accidentes de carretera
2.1. ANALISIS
DE REQUERIMIENTOS
CAPITULO 2. M. HEFESO
2.1.2.
Accidentes de carretera.
N
umero de hombres adultos que murieron en accidentes de carretera en un determinado pas de Europa y en un determinado a
no.
N
umero de mujeres jovenes que murieron en accidentes de carretera en un determinado pas de Europa y en un determinado a
no.
N
umero de conductores que hombres murieron en accidentes de carretera en un
determinado a
no y pas de Europa.
N
umero de pasajeros (jovenes) que murieron en accidentes de carretera en un determinado a
no y pas de Europa.
N
umero de peatones (mujeres) que murieron en accidentes de carretera en un determinado a
no y pas de Europa.
N
umero de adultos que murieron en accidentes de carreteras rural, en un determinado a
no y pas de Europa.
N
umero de mujeres que murieron en accidentes de carreteras urbana, en un determinado a
no y pas de Europa.
N
umero de pasajeros (no vctimas) jovenes que existen, en un determinado a
no y
pas de Europa.
Identificar preguntas. Accidentes ferroviarios
N
umero de suicidos se dieron durante un accidente ferroviario en un determinado
pas de Europa y en un determinado a
no.
N
umero accidentes involucraron el transporte de mercaderias peligrosas en un determinado pas y en un determinado a
no.
N
umero ferrocarriles se incendiaron en un determinado a
no y pas de Europa.
N
umero accidentes de ferrocarriles por descarrilamientos sucedieron en un determinado a
no y pas de Europa.
Universidad de Cuenca
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
2.1. ANALISIS
DE REQUERIMIENTOS
N
umero accidentes de ferrocarriles por material rodante sucedieron en un determinado a
no y pas de Europa.
Perspectivas - Accidentes de carretera
Tiempo.
En a
nos.
Lugar.
Por pas.
Edad de vctima.
Joven.
Adulto.
Sexo de vctima.
Hombre.
Mujer.
Tipo carretera del accidente.
Autopista.
Carretera Rural.
Carretera Urbana.
Tipo de la vctima
Conductor
Pasajero
Peaton
Universidad de Cuenca
Ingeniera de Sistemas
2.1. ANALISIS
DE REQUERIMIENTOS
CAPITULO 2. M. HEFESO
Tipo de accidente.
Accidentes por material rodante.
Accidentes por paso a nivel.
Colisiones.
Descarrillamientos.
Incendios.
2.1.3.
Modelo Conceptual
Se puede ver en la Figura 2.1 el modelo conceptual para los accidentes de carretera.
Universidad de Cuenca
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
2.2. ANALISIS
DE LOS OLTP
Se puede ver en la Figura 2.2 el modelo conceptual para los accidentes ferroviarios.
2.2.
An
alisis de los OLTP
2.2.1.
Conformar Indicadores
Universidad de Cuenca
Ingeniera de Sistemas
2.2. ANALISIS
DE LOS OLTP
CAPITULO 2. M. HEFESO
Universidad de Cuenca
10
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
2.2. ANALISIS
DE LOS OLTP
Funci
on de sumarizaci
on: SUM
Aclaraci
on: El indicador pasajeros representa la sumatoria de los pasajeros (no vctimas)
en un determinado pas de Europa y en un determinado a
no.
Universidad de Cuenca
11
Ingeniera de Sistemas
2.2. ANALISIS
DE LOS OLTP
CAPITULO 2. M. HEFESO
2.2.2.
Establecer Correspondencias
Universidad de Cuenca
12
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
2.2. ANALISIS
DE LOS OLTP
Universidad de Cuenca
13
Ingeniera de Sistemas
2.2. ANALISIS
DE LOS OLTP
CAPITULO 2. M. HEFESO
14
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
2.2. ANALISIS
DE LOS OLTP
15
Ingeniera de Sistemas
2.2. ANALISIS
DE LOS OLTP
CAPITULO 2. M. HEFESO
2.2.3.
Nivel de Granularidad
Con respecto a la perspectiva Lugar los datos disponibles son los siguientes:
IdLugar: Codigo del accidente
Ubicacion: Es el pas donde se dio el accidente
Cantidad: Se refiere a la cantidad de vctimas en el pas
Con respecto a la perspectiva Tiempo los datos disponibles son los siguientes:
IdTiempo: Codigo del tiempo o fecha.
A
no: A
no en el que se dio el accidente.
Con respecto a la perspectiva Edad vctima los datos disponibles son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Grupos de edades de vctimas: Se refiere a los grupos de edades: jovenes y adultos
en los cuales estan clasificados las vctimas de los accidentes.
Con respecto a la perspectiva Sexo vctima los datos disponibles son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Sexo vctima: Se refiere al sexo de la vctima: masculino o femenino
Universidad de Cuenca
16
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
2.2. ANALISIS
DE LOS OLTP
Con respecto a la perspectiva Tipo de carretera los datos disponibles son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Tipo de carretera: Se refiere al tipo de carretera donde se ha dado
el acciente: Autopista, Carretera Rural o Carretera Urbana
Con respecto a la perspectiva Tipo de vctima los datos disponibles son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Tipo de vctima: Se refiere al tipo de vctima presente en el acciente: conductor,
pasajero o peaton.
Con respecto a la perspectiva Lugar de accidentes ferroviarios, los datos disponibles son
los siguientes:
IdLugar: Codigo del accidente
Ubicacion: Es el pas donde se dio el accidente
Cantidad: Se refiere a la cantidad de vctimas en el pas
Con respecto a la perspectiva Tiempo de accidentes ferroviarios, los datos disponibles son
los siguientes:
IdTiempo: Codigo del tiempo o fecha.
A
no: A
no en el que se dio el accidente.
Con respecto a la perspectiva Transporte de mercaderia peligrosa, los datos disponibles
son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Transporte de mercaderia peligrosa: Se refiere al tipo de acciente por transporte de
mercaderia peligrosa: Accidentes por mercaderias peligrosas, Mercaderias peligrosas
que no se liberan o Mercaderias peligrosas que se liberan
Con respecto a la perspectiva Suicidios, los datos disponibles son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Suicidios: Se refiere a la cantidad de suicidios que se han dado en un pas determinado
y en un a
no determinado
Con respecto a la perspectiva Tipo de accidente los datos disponibles son los siguientes:
Idcaracterstica: Codigo de esta caracterstica.
Tipo de accidente: Se refiere al tipo de accidente: Accidentes por material rodante
o Accidentes por paso a nivel o Colisioneso o Descarrillamientos.Incendios.
Universidad de Cuenca
17
Ingeniera de Sistemas
2.3. MODELO LOGICO
DEL DW
2.2.4.
CAPITULO 2. M. HEFESO
2.3.
2.3.1.
Modelo L
ogico del DW
Tipo de Modelo L
ogico del DW
El esquema que se ultizara sera en estrella, esto debido a sus caractersticas, ventajas
y diferencias con los otros esquemas.
2.3.2.
Tablas de dimensiones
Universidad de Cuenca
18
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
Universidad de Cuenca
19
Ingeniera de Sistemas
2.3. MODELO LOGICO
DEL DW
CAPITULO 2. M. HEFESO
Universidad de Cuenca
20
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
Universidad de Cuenca
21
Ingeniera de Sistemas
2.3. MODELO LOGICO
DEL DW
CAPITULO 2. M. HEFESO
Universidad de Cuenca
22
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
Universidad de Cuenca
23
Ingeniera de Sistemas
2.3. MODELO LOGICO
DEL DW
CAPITULO 2. M. HEFESO
contendra el n
umero de vctimas de acuerdo al tipo de accidente ferroviario.
Todo esto se puede ver en la figura 2.17:
2.3.3.
Tablas de hechos
En esta parte se presentan las tablas de hechos de los accidentes de carretera y de los
accidentes ferroviarios, en la figura 2.18 y 2.19 respectivamente.
Universidad de Cuenca
24
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
2.3.4.
Uniones
A continuacion, se realizara las uniones pertinentes, segun las dimensiones y los hechos descritos anteriormente. Esto se puede ver en las figuras 2.20 y 2.21 (Accidentes de
carretera y accidentes ferroviarios, respectivamente):
Universidad de Cuenca
25
Ingeniera de Sistemas
DE DATOS
2.4. INTEGRACION
CAPITULO 2. M. HEFESO
2.4.
2.4.1.
Integraci
on de Datos
Carga Inicial
El proceso ETL planteado para la Carga Inicial a modo general es lo que se muestra
en las figuras 2.22, 2.23, 2.24, 2.25.
Universidad de Cuenca
26
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
DE DATOS
2.4. INTEGRACION
Universidad de Cuenca
27
Ingeniera de Sistemas
DE DATOS
2.4. INTEGRACION
CAPITULO 2. M. HEFESO
Obtener datos de OLTP: Esto se obtiene a traves de una consulta SQL los datos del OLTP
necesarios para cargar los datos de vctimaS POR TIPO DE PERSONA.
SELECT
idvctimasU suario, T IM E, GEO, U N IT , ROADU SER, V alue, F laga ndF ootnotesF ROM vctimasp oru
2.4.2.
Actualizaci
on
Universidad de Cuenca
28
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
DE DATOS
2.4. INTEGRACION
2.4.3.
Creaci
on de cubos multidimensionales
A continuacion se creara los cubos multidimensionales, uno para accidentes de carretera y otro para accidentes ferroviarios, que seran llamados: CUB ACC 1 y CUB ACC 2
respectivamente, bajo un mismo schema que se llamara: SCHEMA ACC. Todo esto se lo
hara en Schema Workbench y estos estaran basados en los modelos de las figuras 2.20 y
2.21.
Para los cubos se ha creado las dimensiones descritas en los puntos anteriores, ademas de
medidas en las que mayormente se ha usado la funcion de sumarizacion COUNT para
el n
umero de vctimas.
Todo esto se ve en las figuras 2.26 y 2.27, que son los cubos para accidentes de carretera
y accidentes ferroviarios, respectivamente. Asi mismo en la figura 2.28 y 2.29 se estan las
jerarquas de las dimensiones, asi como las tablas referenciadas en cada dimension.
Mientras que las medidas estan en las figuras 2.30 y 2.31:
Universidad de Cuenca
29
Ingeniera de Sistemas
DE DATOS
2.4. INTEGRACION
CAPITULO 2. M. HEFESO
Universidad de Cuenca
30
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
DE DATOS
2.4. INTEGRACION
2.4.4.
Resultados
Universidad de Cuenca
31
Ingeniera de Sistemas
DE DATOS
2.4. INTEGRACION
CAPITULO 2. M. HEFESO
DE LOS CUBOS
Figura 2.32: PUBLICACION
Universidad de Cuenca
32
Ingeniera de Sistemas
CAPITULO 2. M. HEFESO
DE DATOS
2.4. INTEGRACION
Figura 2.33: N
umero de vctimas de accidentes de carretera por pas y a
no
Figura 2.34: N
umero de vctimas de accidentes ferroviarios por pas y a
no
Universidad de Cuenca
33
Ingeniera de Sistemas
DE DATOS
2.4. INTEGRACION
CAPITULO 2. M. HEFESO
Universidad de Cuenca
34
Ingeniera de Sistemas
Captulo 3
Minera de Datos
3.1.
Introducci
on
Hoy en da practicamente todas las empresas cuentan con una enorme cantidad de
datos, esto debido a que sus aplicaciones basicamente se han convertido en recolectores de datos, ya sean estos de clientes, productos, etc, etc. Pero ahora lo importante es
que se pueda emplear esos datos como materia prima bruta para obtener conocimiento y
aprovecharlo. El datamining (minera de datos), es un conjunto de tecnicas que permiten
explorar grandes bases de datos, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto,
lo cual es beneficioso para cualquier tipo de empresa.
Basicamente, el datamining surge para intentar ayudar a comprender el contenido de
un repositorio de datos. Con este fin, hace uso de practicas estadsticas y, en algunos casos,
de algoritmos de b
usqueda proximos a la Inteligencia Artificial y a las redes neuronales.
En otras palabras se puede decir que existen muchas tecnicas para el proceso de Data
Mining, y entre las mas usadas estan las que se analizaran en este informe: prediccion,
clasificacion, clustering y asociacion. Todos estos tienen diferentes algoritmos que pueden
ser aplicados a un conjunto de datos, con el fin de obtener conocimiento de los mismos.
3.2.
Objetivos
35
3.3. PROBLEMATIA
3.3.
3.4.
3.4.1.
Predicci
on
Marco Te
orico
El proceso de realizar una prediccion utiliza tecnicas estadsticas para modelar una serie dependiente del tiempo en el que se dan ciertos sucesos que corresponderan al conjunto
de datos analizado, es decir, seran diferentes para cada caso. Basicamente lo que se busca
al hacer una prediccion es usar un modelo para predecir eventos futuros en base al analisis
de eventos pasados, es decir, en base a las estadsticas de los datos. O en otras palabras,
predecir para una fecha futura lo que sucedera con los datos correspondientes a cierto caso.
Perceptr
on Multicapa
El perceptron multicapa es una red neuronal artificial (RNA) formada por m
ultiples capas, esto le permite resolver problemas que no son linealmente separables. El perceptron
multicapa puede ser totalmente o localmente conectado. [1]
Ibk
Este algoritmo esta basado en instancias, por ello consiste u
nicamente en almacenar los
datos presentados. Cuando una nueva instancia es encontrada, un conjunto de instancias
similares relacionadas es devuelto desde la memoria y usado para clasificar la instancia
consultada.
Se trata, por tanto, de un algoritmo del metodo lazy learning. Este metodo de aprendizaje se basa en que los modulos de clasificacion mantienen en memoria una seleccion de
ejemplos sin crear ning
un tipo de abstraccion en forma de reglas o de arboles de decision
(de ah su nombre, lazy, perezosos). Cada vez que una nueva instancia es encontrada, se
calcula su relacion con los ejemplos previamente guardados con el proposito de asignar
un valor de la funcion objetivo para la nueva instancia. [2]
HoltWinters
Esta metodologa es muy utilizada por su simplicidad y la precision de sus pronosticos
sobre todo con series de tiempo periodicas. Esta basada en cuatro ecuaciones basicas que
representan la regularidad, tendencia, periodicidad y pronostico de la serie. [3]
Universidad de Cuenca
36
Ingeniera de Sistemas
3.4.2.
3.4. PREDICCION
Definici
on del problema
3.4.3.
Obtenci
on de los datos para el an
alisis
Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene los
siguientes campos:
A
no: A
no de ocurrencia de los accidentes.
Conductor: Contiene el n
umero de vctimas conductores en un a
no determinado.
Este set de datos debe estar en un formato adecuado para que sea aceptado en Weka,
es por ello que se ha realizado el tratado de los mismos meditante algunas herramientas
como Pentaho y se ha obtenido el siguiente archivo .csv separado por comas:
3.4.4.
Elecci
on del algoritmo para el an
alisis de los datos
Para enfrentar este problema de prediccion se aplicaran los siguientes algoritmos: Perceptron Multicapa, Ibk y HoltWinters. Ya que lo que se busca es predecir el n
umero
de accidentes de conductores para los siguientes 4 a
nos.
Jutificaci
on de la elecci
on del tipo de algoritmos como Perceptr
on Multicapa
Previamente se realizo un analisis de los datos con los que se trabajarian, esto para ver
si los mismos tenian un comportamiento que motivara a la eleccion de un determinado
Universidad de Cuenca
37
Ingeniera de Sistemas
3.4. PREDICCION
algoritmo, por ejemplo el de regresion lineal. Este tipo de algoritmos no se utilizo justamente por el comportamiento de los datos, los mismos que se pueden apreciar en la figura
3.2:
3.4.5.
Aplicaci
on de los algoritmos a los datos
Universidad de Cuenca
38
Ingeniera de Sistemas
3.4. PREDICCION
n
umero de vctimas conductores para los a
nos 2016 al 2017 aumenta considerablemente,
mientras que para los siguientes 2 a
nos estos se reducen, esto en la figura 3.8.
Las predicciones (valores numericos) se pueden ver en la figura 3.6, junto con la evaluacion
o pruebas para cada uno de los a
nos para los que se realizo la prediccion. Aqu tambien
esta presente el MAPE (Mean Absolute Percentage Error), el cual servira mas adelante
para la seleccion del modelo.
Figura 3.6: Predicciones (numerica) con Algoritmo Perceptron Multicapa, para los proximos 4 a
nos
Universidad de Cuenca
39
Ingeniera de Sistemas
3.4. PREDICCION
IBk
Entrenamiento y Evaluaci
on de resultados
Se puede apreciar en la figura 3.7 que en el entrenamiento el modelo encaja bastante
bien con los datos originales. Ademas se observa en la figura 3.8, que en este caso los
datos tienen un comportamiento aproximado a los datos originales, ya que el n
umero de
vctimas conductores para los a
nos 2016 y 2017 se reduce, mientras que para el siguiente
a
no (2018) aumenta en comparacion con los 2 anteriores y en el u
ltimo a
no vuelve a
reducirse, y como se puede apreciar en la figura 3.7 el comportamiento de los datos para
a
nos anteriores es similar.
Las predicciones (valores numericos) se pueden ver en la figura 3.9, junto con la evaluacion
o pruebas para cada uno de los a
nos para los que se realizo la prediccion. Una vez mas aqui
se puede observar que los valores tienen un comportamiento similar a los a
nos anteriores.
Ademas aqu tambien esta presente el MAPE (Mean Absolute Percentage Error), el cual
servira mas adelante para la seleccion del modelo y que en este caso es 0.
Universidad de Cuenca
40
Ingeniera de Sistemas
3.4. PREDICCION
Figura 3.9: Predicciones (numerica) con Algoritmo IBk, para los proximos 4 a
nos
Holt Winters
Entrenamiento y Evaluaci
on de resultados
Se puede apreciar en la figura 3.7 que el entrenamiento del modelo se parece bastante a
los datos originales. Ademas se observa que seg
un este algoritmo el n
umero de vctimas
conductores aumenta de un modo anormal, pasando de datos que maximo llegaban a las
3000 vctimas a datos que se predicen sobrepasan las 13000 vctimas (para el a
no 2019).
Este comportamiento resulta anormal para este tipo de datos ya que de darse esa cantidad
de vctimas implicara que el n
umero de conductores aumento considerablemente en estos
a
nos o que en su defecto, lo que aumento fue la irresponsabilidad de coductores que antes
eran responsables mientras conducan. Esta prediccion se puede ver graficamente en la
figura 3.11.
Las predicciones (valores numericos) se pueden ver en la figura 3.12, junto con la evaluacion
o pruebas para cada uno de los a
nos para los que se realizo la prediccion. Aqu tambien
esta presente el MAPE (Mean Absolute Percentage Error), el cual servira mas adelante
para la seleccion del modelo.
Universidad de Cuenca
41
Ingeniera de Sistemas
3.4. PREDICCION
Figura 3.12: Predicciones (numerica) con Algoritmo Holt Winters, para los proximos 4
a
nos
3.4.6.
Selecci
on del modelo en base al MAPE (Mean Absolute
Percentage Error)
En los puntos anteriores se aplico los algoritmos al conjunto de datos y en este proceso
se obtuvo el MAPE, lo cual ahora permitira realizar la seleccion del modelo.
Como se puede ver en la figura 3.6, 3.9 y 3.12 los valores del MAPE son diferentes en cada
caso, pero en el caso del algoritmo IBk se tiene un porcentaje de error 0, lo cual indica que
este es el modelo que mas se ajusta a los datos originales, esto mismo se pudo observar
en el analisis de este algoritmo ya que como se menciono este tiene un comportamiento
bastante similar a los datos originales.
Universidad de Cuenca
42
Ingeniera de Sistemas
3.5. CLASIFICACION
3.4.7.
An
alisis de resultados
Esta parte del analisis presenta los resultados obtenidos durante todo el proceso, los
cuales se pueden ver en el cuadro 3.1 y de modo grafico en la figura 3.13
3.5.
Clasificaci
on
3.5.1.
Marco Te
orico
Universidad de Cuenca
43
Ingeniera de Sistemas
3.5. CLASIFICACION
J48
del algoritmo C4.5, uno de los alEl algoritmo J48 de WEKA es una implementaciUn
`
goritmos de minerIa de datos mas utilizado.
Se trata de un refinamiento del modelo generado con OneR. Supone una mejora moderada
en las prestaciones.
El parametro mas importante que deberemos tener en cuenta es el factor de confianza
para la poda (confidence level), que influye en el tama
no ycapacidad de prediccion del
arbol construido. Para cada operacion de poda, define la probabilidad de error que se
permite a la hipotesis de que el empeoramiento debido a esta operacion es significativo.
[5]
JRip
Este es un algoritmo que genera un listado de reglas obtenidas basicamente a partir
de listas de decision (Rivest, 1987). Funciona de modo similar a RIPPER (Repeated Incremental Pruning to Produce Error Reduction), el cual fue presentado por William W.
Cohen (1995). [6]
Naive Bayes
Este clasificador estadstico se considera, en general, como uno de los mas basicos (George
et al., 1995; Marquez, 2002; inter alia), pero los autores coiciden en que, aunque sencillo,
este clasificador sigue mostrando un buen desempe
no en una gran variedad de problemas. A grandes rasgos, NB se esquematiza como un nodo C representante de la clase
y un nodo dependiente para cada atributo Xi que representa cada instancia o ejemplo.
Las condiciones metodologicas para la utilizacion de este algoritmo incluyen asumir que
los atributos que modela son independientes unos de otros y que sus valores son determinados a partir de la clase C de acuerdo a las distribuciones individuales de P(Xi C). [6]
3.5.2.
Definici
on del problema
3.5.3.
Obtenci
on de los datos para el an
alisis
Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene los
siguientes campos:
Ubicacion: Pas donde se dio los accidentes.
Carretera: Tipo de carretera donde ser dio los accidentes
TipoPersona: Tipo de persona que tuvo los accidentes
EdadPersona: Edad de persona que tuvo los accidentes
Universidad de Cuenca
44
Ingeniera de Sistemas
3.5. CLASIFICACION
3.5.4.
Elecci
on del algoritmo para el an
alisis de los datos
3.5.5.
Aplicaci
on del algoritmo a los datos
En la pesta
na Classify de Weka, primero se debera elegir el clasificador.
En esta parte se configurara el analisis para que divida al conjunto de datos en un 80 %
para el entrenamiento, y un 20 % para las pruebas, esto se lo hace en las test options
como se muestra en la figura 3.15:
Universidad de Cuenca
45
Ingeniera de Sistemas
3.5. CLASIFICACION
3.5.6.
Selecci
on del modelo en base al MAE (Mean Absolute
Error)
En los puntos anteriores se aplico los algoritmos al conjunto de datos y en este proceso
se obtuvo el MAE, lo cual servira como base para realizar la seleccion del modelo.
Como se pudo ver en el cuadro 3.2 los valores del MAE son diferentes en cada caso, pero
Universidad de Cuenca
46
Ingeniera de Sistemas
3.5. CLASIFICACION
en el caso del algoritmo PART se observa un error absoluto promedio menor, lo cual
indica que este es el algoritmo mas adecuado. En este punto se debe aclarar que aunque
con este algoritmo el error fue menor, se clasifico correctamente menos datos que con los
otros algoritmos, pero como se menciono anteriormente, en este caso se ha tomado como
base el MAE para la seleccion del algoritmo.
3.5.7.
An
alisis de resultados
Esta parte del analisis presenta los resultados obtenidos durante todo el proceso, los
cuales se muestran en el cuadro 3.2. Se puede observar tambien la matriz de confusion
que genero cada uno de los algoritmos, aqu se puede ver la cantidad de datos clasificados
correctamente y los que no. Se puede observar las reglas formadas, donde por ejemplo
Universidad de Cuenca
47
Ingeniera de Sistemas
3.6. CLUSTERING
3.6.
3.6.1.
Clustering
Marco Te
orico
Universidad de Cuenca
48
Ingeniera de Sistemas
3.6. CLUSTERING
Simple K Means
`
Se trata de un algoritmo clasificado como MEtodo
de Particionado y Recolocacion. Este
metodo es hasta ahora el mas utilizado en aplicaciones cientficas e industriales. El nombre
le viene porque representa cada uno de los clusters por la media (o media ponderada) de
sus puntos, es decir, por su centroide. [7]
Canopy
El algoritmo canopy permite realizar agrupamientos en la cual su operacion se basa en
realizar calculos sencillos para generar subgrupos de puntos en la cual cada dato puede
pertenecer a mas de un subgrupo. Despues de la cual usa metodos de segmentacion como
el k-means con la restriccion de no realizar calculos de distancia entre dos puntos que no
pertenecen al mismo subgrupo. [8]
3.6.2.
Definici
on del problema
3.6.3.
Obtenci
on de los datos para el an
alisis
Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene los
siguientes campos:
Ubicacion: Pas donde se dio los accidentes.
Carretera: Tipo de carretera donde ser dio los accidentes
TipoPersona: Tipo de persona que tuvo los accidentes
EdadPersona: Edad de persona que tuvo los accidentes
Accidente: Si o No. Determina si hubo o no accidente.
Gravedad: Determina la gravedad del accidente.
Los datos seran obtenidos de las mismas fuentes que se usaron para el sistema mutidimensional del data warehouse y estos deben estar en un formato adecuado para que sea
aceptado en Weka, es por ello que se ha realizado el tratado de los mismos meditante
algunas herramientas como Pentaho y se ha obtenido el siguiente archivo .csv separado
por comas:
Universidad de Cuenca
49
Ingeniera de Sistemas
3.6. CLUSTERING
3.6.4.
Elecci
on del algoritmo para el an
alisis de los datos
3.6.5.
Aplicaci
on del algoritmo a los datos
Para este analisis se trabajara con todos los datos, tanto para el entrenamiento como
para las pruebas, para ello se debe configurar el modo del cluster en Use training set,
como se ve en la figura 3.21.
Universidad de Cuenca
50
Ingeniera de Sistemas
3.6. CLUSTERING
Canopy
Una vez aplicado este algoritmo al set de datos, se obtiene los resultados de la figura
3.22, donde se puede ver los cl
usters generados, sus respectivos porcentajes, ademas se
observa que hay presencia de ruido, lo cual dificultara agrupar los accidentes de acuerdo
a su gravedad.
En la figura 3.23 se puede ver de manera grafica los cl
usters generados donde se ha
cruzado la ubicacion (pas) y la gravedad del accidente. Como se menciono anteriormente
existe ruido, por lo cual no existe una separacion suficientemente clara entre los cl
usters
generados.
Universidad de Cuenca
51
Ingeniera de Sistemas
3.6. CLUSTERING
Universidad de Cuenca
52
Ingeniera de Sistemas
3.6. CLUSTERING
3.6.6.
An
alisis de resultados
Universidad de Cuenca
53
Ingeniera de Sistemas
3.7. ASOCIACION
3.7.
3.7.1.
Asociaci
on
Marco Te
orico
3.7.2.
Definici
on del problema
En esta parte del analisis lo que se pretende es realizar una asociacion de los accidentes de carretera, para lo cual se tiene valores nominales (Si y No) de las diferentes
caractersticas presentes en los accidentes. Por ejemplo se busca determinar que si una
Universidad de Cuenca
54
Ingeniera de Sistemas
3.7. ASOCIACION
persona que es joven, sera tambien conductor y tendra un accidente de transito, esto en
base al historial de accidentes y de sus respectivas caractersticas.
3.7.3.
Obtenci
on de los datos para el an
alisis
Para esta parte del analisis se ha tomado el siguiente set de datos, que contiene los
siguientes campos:
Conductor: Determina si la vctima fue un conductor.
Jovenes: Determina si la vctima fue un joven.
Adultos: Determina si la vctima fue un Adulto o no (puede ser joven, o adulto o
ninguno de los dos, es decir, ni
no o anciano).
Muejeres: Determina si la vctima fue mujer.
C. Urbana: Determina si el accidente se dio en una carretera urbana.
Da: Determina si el accidente ocurrio durante el da.
Accidente: Determina si el accidente ocurrio o no.
Los datos seran obtenidos de las mismas fuentes que se usaron para el sistema
mutidimensional del data warehouse y estos deben estar en un formato adecuado
para que sea aceptado en Weka, es por ello que se ha realizado el tratado de los
mismos meditante algunas herramientas como Pentaho y se ha obtenido el siguiente
archivo .csv separado por comas, como se ve en la figura 3.27:
Universidad de Cuenca
55
Ingeniera de Sistemas
3.7. ASOCIACION
3.7.4.
Elecci
on del algoritmo para el an
alisis de los datos
3.7.5.
Aplicaci
on del algoritmo a los datos
3.7.6.
An
alisis de resultados
En esta parte del analisis se puede ver algunas de las reglas de asociacion que
WEKA ha encontrado en el set de datos. Por ejemplo la regla 8 que dice que de los
datos analizados sin son conductores, entonces tambien son adultos, esto con una
confiabilidad de 0.99, y de la misma forma para las demas reglas encontradas, las
mismas que estan en la figura 3.29.
Universidad de Cuenca
56
Ingeniera de Sistemas
3.7. ASOCIACION
Universidad de Cuenca
57
Ingeniera de Sistemas
Captulo 4
Conclusiones
Luego del presente analisis se tiene las siguientes conclusiones:
Existen muchas metodologas para la construccion de un Data warehouse, y
cada una de estas tiene su propios pasos para el desarrollo. En el caso de este
trabajo se ha seleccionado la metodologa hefesto por ser clara y sencilla en
su desarrollo.
Pueden existir un sinn
umero de fuentes y las mismas pueden estar en diferentes
formatos.
Los datos deben ser tratados mediante herramientas como pentaho data integration, el cual permite realizar una limpieza de los mismos, entre muchas
otras cosas mas.
Las dimensiones y los hechos se han creado a partir de los modelos conceptuales
creados siguiendo la metodologa hefesto.
La creacion y publicacion de los cubos multidimensionales se ha hecho mediante schema workbench, en el cual se debe realizar ciertas configuraciones, por
ejemplo establecer la conexion con la base de datos, claves para la publicacion,
etc.
Una vez publicado correctamente los cubos, estos pueden ser accedidos mediante BI Server, el cual permite ver los resultados y hacer consultas al data
warehouse.
Para trabajar con weka los datos deben estar en un formato adecuado, lo que
implica que no todos los tipos de datos se pueden cargar en weka.
Para realizar los distintos analisis (Prediccion, Clasificacion, etc) existen una
serie de algoritmos, de los cuales se debera escoger el mas adecuado para los
datos.
58
CAPITULO 4. CONCLUSIONES
No todos los algoritmos se pueden aplicar a todos los datos, su uso dependera
de lo que se desee hacer y del comportamiento de los datos.
Es recomendable realizar un analis previo de los datos para ver su comportamiento, esto antes de aplicar cualquier algoritmo de weka.
Universidad de Cuenca
59
Ingeniera de Sistemas
Ap
endice A
Reporte usando Report Designer
En esta seccion se presenta un ejemplo de reporte del data warehouse construido.
Esto mediante la herramienta de pentaho: report designer.
El siguiente reporte muestra el n
umero de vctimas adultos y jovenes de dos paises
de Europa, perimitiendo as comparar estos dos pases.
Como se puede ver en la figura A1, A2 y A3, la mayor cantidad de accidentes de
han dado en Austria con un 87 % frente a un 13 % en Bulgaria.
60
APENDICE
A. REPORTE USANDO REPORT DESIGNER
Universidad de Cuenca
61
Ingeniera de Sistemas
APENDICE
A. REPORTE USANDO REPORT DESIGNER
Universidad de Cuenca
62
Ingeniera de Sistemas
Bibliografa
[1] Wikipedia. Perceptron multicapa.
[2] Zaida Cebrian Jimenez Alejandro Boris Valiente. Inteligencia en redes de comunicaciones. diagnostico cardiologa.
[3] MC. Pedro Flores Perez. Una metodologa basada en algoritmos geneticos autoadaptables para la construccion de modelos lineales para series de tiempo y
funciones de transferencia discretas.
[4] MC. Flores P. Tecnicas de analisis de datos en weka.
para la desambiguaciOn
63