Professional Documents
Culture Documents
FACULTAD DE CIENCIAS ESCUELA DE ESTADISTICA E INFORMATICA DATA MART Y LOS SOFTWARE ESTADSTICOS AUTORES: MAGUIA PALMA, Misael E. RODRGUEZ ORELLANA, Hugo HUARAC CANQUI, Frank Y. ASESOR: Ing. FLORES CHACN, Erik G. HUARAZ PERU. 2007
MINERIA DE DATOS
Def. Descubrimiento de Conocimiento a partir de Bases de Datos (KDD, del ingls Knowledge Discovery from Databases). proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y en ltima instancia comprensibles a partir de los datos. (Fayyad et al. 1996) Objetivos: Conocer las caractersticas especiales de la extraccin automtica de conocimiento de bases de datos. Entender el proceso de extraccin de conocimiento, sus fases y sus aplicaciones. Conocer las tcnicas ms apropiadas y su adaptacin a estos problemas, especialmente clasificacin y agrupamiento. Saber utilizar un paquete de minera de datos para resolver problemas sencillos de extraccin de conocimiento.
Ejemplo: Para ello trataremos con el data Mart DMCALIDADAGUA. Proporcionado por el Ing. Erick FLORES CHACN. Para ello realizaremos los siguientes pasos: Conexin de orgenes de datos (ODBC) para ello nos dirigimos a: Inicio -> panel de control -> Rendimiento y mantenimiento -> Herramientas administrativas -> orgenes de datos (ODBC), mostrndose la siguiente ventana:
Luego seleccionamos en el administrador de orgenes de datos ODBC la pestaa DSN de sistema como muestra en la siguiente figura:
Con estas 2 herramientas realizaremos los anlisis correspondientes de la informacin, para ello organizaremos la informacin en el Spss 15 ya que en esta versin nos ayuda a organizar mejor la informacin almacenada en Bases de Datos, no obviando. Las relaciones que se tiene (trabaja con toda la base de datos). Mientras que solo el Spss Clementine solo trabaja con una solo tabla y etiquetndola respectivamente. PROCEDIMIENTOS: 1. Cargamos el Spss 15 en nuestro ordenador:
2. Luego seleccionamos Crear una nueva consulta mediante el Asistente de base de datos. Y le damos aceptar.
4. Luego Seleccionamos ya arrastramos las tablas: dbo.Dim_Tiempo, dbo.Dim_Estacion, dbo.Dim_Ubigeo, dbo.TH_CalidadAgua. De izquierda a derecha. Le damos siguiente.
5. Luego si el procedimiento est bien hecho me nos mostrara las tablas relacionas tal como se muestra la imagen. Presionamos siguiente.
6. Luego siguiente -> siguiente -> Introducimos el criterio de consulta y Finalizar, listos para minerisar ahora ya podemos nosotros empezar a realizar los anlisis correspondientes.
7. Una vez con la base de datos en el Spss 15 podemos importarla des de el clementine de la siguiente manera: Origenes ->import. Spss -> Definir archivo -> Establecer -> Aceptar. Y preparado para el anlisis.
EXPLOTACIN DE LA INFORMACIN
Una vez terminado los procedimientos anteriores, solo queda explotar la informacin. Para tal motivo utilizaremos el Software estadstico:
Para esto necesitamos realizar el paso 7 de lo explicado anteriormente. Luego queda mostrar en el clementine los datos.
Seguidamente realizaremos los reportes de estadsticas descriptivas para algunas de las variables en estudio.
Como podemos observar existen 170 observaciones recolectadas para los minerales de FE y MN. Mientras que 171 para el CU.
Para este caso utilizaremos la base de datos guardada anteriormente. Nos ubicamos en Analizar -> tablas ->Tablas personalizadas.. -> definimos como queremos que se nos muestre la informacin deseada. Aceptar, y
Distrito
CARA Z CATA C HUA RA Z INDEPENDENCIA JA NGA S MA CA TE MA RCA RA OLLEROS PA LLA SCA RECUA Y SANTA TICA PA MPA
Y As podemos nosotros seguir realizando el anlisis correspondiente para determinar la presencia de los dems minerales por diferentes tipos Lo que nos lleva a preguntarnos que si el promedio de FE , MN CU en el ao 2003 es igual al de 2004. Para ello realizamos el anlisis de normalidad de los 2 grupos de 2003 y del 2004. Para el 2003:
One -Sam ple Kolm ogorov-Sm ir nov Tes t Fe N Normal Parameters a,b Mos t Ex treme Dif f erences Kolmogorov-Smirnov Z Asy mp. Sig. (2-tailed) a. Test dis tribution is Normal. b. Calc ulated f rom data. Mean Std. Deviation Abs olute Positive Negative 94 19,2418 34,43615 ,300 ,300 -,288 2,907 ,000 Mn 94 ,4497 ,72326 ,267 ,241 -,267 2,589 ,000 Cu 95 ,0502 ,06331 ,237 ,237 -,214 2,312 ,000
Para el 2004:
One -Sam ple Kolm ogorov-Sm ir nov Tes t Fe N Normal Parameters a,b Mos t Ex treme Dif f erences Kolmogorov-Smirnov Z Asy mp. Sig. (2-tailed) a. Test dis tribution is Normal. b. Calc ulated f rom data. Mean Std. Deviation Abs olute Positive Negative 76 12,2791 21,73686 ,293 ,288 -,293 2,551 ,000 Mn 76 ,5949 ,74575 ,258 ,258 -,232 2,252 ,000 Cu 76 ,0509 ,08150 ,345 ,345 -,266 3,008 ,000
Fe
Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference Low er Upper -2,00635 -1,60792 15,93180 15,53336
Sig. ,004
t 1,533 1,604
df 168 159,281
CONCLUSIONES
a) Con el correcto uso de las bases de datos se pueden tomar decisiones correctas en tiempos oportunos. b) La correcta utilizacin del software estadstico enlazada a las bases de datos de las organizaciones contribuyen al xito de la empresa. c) La aplicacin de la minera de datos en las empresas ase que la mejore sus procesos productivos en tiempo reales.
BIBLIOGRAFIA
Jos Hernndez Orallo Laboratorio de investigacin con Clementine Noviembre del 2002. Rufino Moya Calderon Estadstica descriptiva Primera Edicion 1991. Mximo Villn Bjar Hidrologa Estadstica junio del 2001.