You are on page 1of 16

UNIVERSIDAD NACIONAL DE ANCASH SANTIAGO ANTUNEZ DE MAYOLO

FACULTAD DE CIENCIAS ESCUELA DE ESTADISTICA E INFORMATICA DATA MART Y LOS SOFTWARE ESTADSTICOS AUTORES: MAGUIA PALMA, Misael E. RODRGUEZ ORELLANA, Hugo HUARAC CANQUI, Frank Y. ASESOR: Ing. FLORES CHACN, Erik G. HUARAZ PERU. 2007

MINERIA DE DATOS
Def. Descubrimiento de Conocimiento a partir de Bases de Datos (KDD, del ingls Knowledge Discovery from Databases). proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y en ltima instancia comprensibles a partir de los datos. (Fayyad et al. 1996) Objetivos: Conocer las caractersticas especiales de la extraccin automtica de conocimiento de bases de datos. Entender el proceso de extraccin de conocimiento, sus fases y sus aplicaciones. Conocer las tcnicas ms apropiadas y su adaptacin a estos problemas, especialmente clasificacin y agrupamiento. Saber utilizar un paquete de minera de datos para resolver problemas sencillos de extraccin de conocimiento.

Ejemplo: Para ello trataremos con el data Mart DMCALIDADAGUA. Proporcionado por el Ing. Erick FLORES CHACN. Para ello realizaremos los siguientes pasos: Conexin de orgenes de datos (ODBC) para ello nos dirigimos a: Inicio -> panel de control -> Rendimiento y mantenimiento -> Herramientas administrativas -> orgenes de datos (ODBC), mostrndose la siguiente ventana:

Luego seleccionamos en el administrador de orgenes de datos ODBC la pestaa DSN de sistema como muestra en la siguiente figura:

Luego presionamos en Configurar y tenemos la siguiente ventana:

Luego seleccionar Siguiente:

Luego seleccionar Siguiente y seleccionamos la base de datos:

Y por ultimo presionamos en finalizar y listo. A minerisar se dijo.

CONEXIN DEL DATA MART


Para esta parte utilizaremos los siguientes softwares: Spss V. 15 en espaol. Spss Clementine V. 6.5 en espaol.

Con estas 2 herramientas realizaremos los anlisis correspondientes de la informacin, para ello organizaremos la informacin en el Spss 15 ya que en esta versin nos ayuda a organizar mejor la informacin almacenada en Bases de Datos, no obviando. Las relaciones que se tiene (trabaja con toda la base de datos). Mientras que solo el Spss Clementine solo trabaja con una solo tabla y etiquetndola respectivamente. PROCEDIMIENTOS: 1. Cargamos el Spss 15 en nuestro ordenador:

2. Luego seleccionamos Crear una nueva consulta mediante el Asistente de base de datos. Y le damos aceptar.

3. Luego Seleccionamos -> LocalServer -> Siguiente.

4. Luego Seleccionamos ya arrastramos las tablas: dbo.Dim_Tiempo, dbo.Dim_Estacion, dbo.Dim_Ubigeo, dbo.TH_CalidadAgua. De izquierda a derecha. Le damos siguiente.

5. Luego si el procedimiento est bien hecho me nos mostrara las tablas relacionas tal como se muestra la imagen. Presionamos siguiente.

6. Luego siguiente -> siguiente -> Introducimos el criterio de consulta y Finalizar, listos para minerisar ahora ya podemos nosotros empezar a realizar los anlisis correspondientes.

7. Una vez con la base de datos en el Spss 15 podemos importarla des de el clementine de la siguiente manera: Origenes ->import. Spss -> Definir archivo -> Establecer -> Aceptar. Y preparado para el anlisis.

EXPLOTACIN DE LA INFORMACIN
Una vez terminado los procedimientos anteriores, solo queda explotar la informacin. Para tal motivo utilizaremos el Software estadstico:

Para esto necesitamos realizar el paso 7 de lo explicado anteriormente. Luego queda mostrar en el clementine los datos.

Seguidamente realizaremos los reportes de estadsticas descriptivas para algunas de las variables en estudio.

Como podemos observar existen 170 observaciones recolectadas para los minerales de FE y MN. Mientras que 171 para el CU.

Existe una relacin con la presencia de FE y MN a lo largo del RIO SANTA.

Si nuestro objetivo fuera determinar la Presencia de FE por Distrito y provincia seria:

Si queremos determinar por trimestre y mes la presencia de FE seria de:

Para este caso utilizaremos la base de datos guardada anteriormente. Nos ubicamos en Analizar -> tablas ->Tablas personalizadas.. -> definimos como queremos que se nos muestre la informacin deseada. Aceptar, y

Por ejemplo: se quiere saber el nivel de MN definimos de la siguiente manera en el Spss.

Luego presionamos Aceptar y ya tenemos el resultado.


CARHUA Z Mn Sum . . . . . . 2,93 . . . . . HUA RA Z Mn Sum . . 1,86 2,67 2,84 . . 1,80 . . . . Provincia HUA Y LA S PA LLA SCA Mn Mn Sum Sum 22,10 . . . . . . . . . . . . . . . . 8,64 . . . . . . RECUA Y Mn Sum . 4,13 . . . . . . . 3,39 . 2,71 SANTA Mn Sum . . . . . 13,25 . . . . 21,18 .

Distrito

CARA Z CATA C HUA RA Z INDEPENDENCIA JA NGA S MA CA TE MA RCA RA OLLEROS PA LLA SCA RECUA Y SANTA TICA PA MPA

Y As podemos nosotros seguir realizando el anlisis correspondiente para determinar la presencia de los dems minerales por diferentes tipos Lo que nos lleva a preguntarnos que si el promedio de FE , MN CU en el ao 2003 es igual al de 2004. Para ello realizamos el anlisis de normalidad de los 2 grupos de 2003 y del 2004. Para el 2003:
One -Sam ple Kolm ogorov-Sm ir nov Tes t Fe N Normal Parameters a,b Mos t Ex treme Dif f erences Kolmogorov-Smirnov Z Asy mp. Sig. (2-tailed) a. Test dis tribution is Normal. b. Calc ulated f rom data. Mean Std. Deviation Abs olute Positive Negative 94 19,2418 34,43615 ,300 ,300 -,288 2,907 ,000 Mn 94 ,4497 ,72326 ,267 ,241 -,267 2,589 ,000 Cu 95 ,0502 ,06331 ,237 ,237 -,214 2,312 ,000

Para el 2004:
One -Sam ple Kolm ogorov-Sm ir nov Tes t Fe N Normal Parameters a,b Mos t Ex treme Dif f erences Kolmogorov-Smirnov Z Asy mp. Sig. (2-tailed) a. Test dis tribution is Normal. b. Calc ulated f rom data. Mean Std. Deviation Abs olute Positive Negative 76 12,2791 21,73686 ,293 ,288 -,293 2,551 ,000 Mn 76 ,5949 ,74575 ,258 ,258 -,232 2,252 ,000 Cu 76 ,0509 ,08150 ,345 ,345 -,266 3,008 ,000

La prueba relacionada seria de


Group Statis tics Ao 2003 2004 N 94 76 Mean 19,2418 12,2791 Std. Deviation 34,43615 21,73686 Std. Error Mean 3,55182 2,49339

Fe

Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference Low er Upper -2,00635 -1,60792 15,93180 15,53336

F Fe Equal variances assumed Equal variances not assumed 8,758

Sig. ,004

t 1,533 1,604

df 168 159,281

Sig. (2-tailed) ,127 ,111

Mean Difference 6,96272 6,96272

Std. Error Difference 4,54318 4,33963

para el anlisis de varianza se tiene y la prueba correspondiente es:


Tes t of Hom ogene ity of V ariance s Fe Levene Statistic 8,758 df 1 1 df 2 168 Sig. ,004

CONCLUSIONES
a) Con el correcto uso de las bases de datos se pueden tomar decisiones correctas en tiempos oportunos. b) La correcta utilizacin del software estadstico enlazada a las bases de datos de las organizaciones contribuyen al xito de la empresa. c) La aplicacin de la minera de datos en las empresas ase que la mejore sus procesos productivos en tiempo reales.

BIBLIOGRAFIA
Jos Hernndez Orallo Laboratorio de investigacin con Clementine Noviembre del 2002. Rufino Moya Calderon Estadstica descriptiva Primera Edicion 1991. Mximo Villn Bjar Hidrologa Estadstica junio del 2001.

You might also like