You are on page 1of 48

ANALISIS DESCRIPTIVO DE BASE DE DATOS

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS Ingeniera de Produccin Estadstica Inferencial

BASE DE DATOS VIVIENDA

Carmona Garca Ingrid Cdigo: 20121377005 Mendivelso Garca Viviana Cdigo: 20121377025 Pinzn Bobadilla Alejandra Cdigo: 20121377029

1 DE OCTUBRE DE 2012 BOGOTA D.C

TABLA DE CONTENIDO Introduccin 1. Conceptos Estadsticos 1.1 Distribucin Binomial 1.1.1 Definicin 1.1.2 Propiedades____ 1.1.3 Ecuacin 1.2 Distribucin Normal 1.2.1 Definicin 2. Descripcin del Sistema. 2.1 Excel___ 2.1.1 Caractersticas 2.1.2 Plantilla en Excel 2.1.3 Filtros 2.1.3.1 Autofiltros 2.1.3.1 Filtro Avanzado 2.1.4 Cuadros de Anlisis de Datos 2.2 R 2.2.1 Caractersticas 3. Base de Datos_____________ 3.1 Excel 3.1.1 Estadstica Descriptiva ____ __ 3.1.2 Anlisis de la Varianza 3.1.3 Datos Ordenados____ 3.1.4 Histogramas _________________ 3.2 R_______________ 3.2.2 Histogramas_____ 3.2.3 Boxplot______ 3.2.4 Medidas de variabilidad 4. Anlisis de Datos ______ 5. Infografa _____ 03 04 13 13 13 _____ 13 _____ 14 14 16 16 _____ 17 18 18 18 19 19 19 19 20 20 20 __________ 21 21 __________ 22 23 23 24 25 26 27

INTRODUCCION En la vida cotidiana se presentan situaciones a las cuales debemos poner alguna solucin. La estadstica provee los medios para tomar decisiones basadas en datos; en donde posibilita transformar los datos en conocimientos, haciendo a un lado las opiniones personales, sobre una base de evidencia sistemtica. El anlisis estadstico se usa para recopilar, resumir e investigar datos con el fin de obtener informacin til para la toma de decisiones en prcticamente todos los campos en que nos vemos implicados. La estadstica inferencial es necesaria cuando queremos hacer alguna afirmacin Sobre ms elementos de los que vamos a medir. La estadstica hace que ese salto de la parte al todo se haga de una manera controlada. Aunque nunca nos ofrecer seguridad absoluta, s nos ofrecer una respuesta probabilstica. Con la base de datos remodelaciones de vivienda, aplicaremos todos los conceptos estadsticos posibles, para llegar a un anlisis especifico de la relacin que hay, entre el precio de la remodelacin de una vivienda segn el rea en metros cuadrados. Para el anlisis estadstico, nos apoyaremos en los programas de Excel y R, facilitando as la obtencin de resultados para llegar a plantear el anlisis estadstico. OBJETIVO GENERAL Proporcionar mediante las herramientas estadsticas, que nos permitirn plantear, resolver e interpretar problemas estadsticos reales (base de datos remodelaciones de viviendas) y familiarizndonos con el anlisis estadstico computacional, atreves del uso estadstico del software (Excel, R). OBJETIVOS ESPECIFICOS Recopilar, capturar y ordenar los datos obtenidos del muestreo de la base de datos. Identificar los mtodos descriptivos que se ajusten, al anlisis de la base de datos base de datos vivienda. Aplicar cada uno de los mtodos identificados para el anlisis de la base de datos seleccionada. Analizar datos obtenidos de manera descriptiva y formular una interpretacin de los resultados. Comprobar que el anlisis estadstico realizado a los datos base vivienda mediante los programas R y Excel sea el ms ptimo.

1. CONCEPTOS ESTADISTICOS ESTADISTICA Conjunto de tcnicas que se emplean para la recoleccin, organizacin, anlisis e interpretacin de datos. Los datos pueden ser cuantitativos, con valores expresados numricamente, o cualitativos, en cuyo caso se tabulan las caractersticas de las observaciones. La estadstica sirve en administracin y economa para tomar mejores decisiones a partir de la comprensin de las fuentes de variacin y de la deteccin de patrones y relaciones en datos econmicos y administrativos.

ESTADISTICA DESCRIPTIVA En su funcin bsica en reducir datos propone una serie de indicadores que permiten tener una precepcin rpida de lo que ocurre en un fenmeno.

La estadstica descriptiva comprende las tcnicas que se emplean para resumir y describir datos numricos. Estos mtodos pueden ser grficos o implicar anlisis computacional.

ESTADISTICA INFERENCIAL La estadstica inferencial comprende las tcnicas con las que, con base nicamente en una muestra sometida a observacin, se toman decisiones sobre una poblacin o proceso estadsticos. Dado que estas decisiones se toman en condiciones de incertidumbre, suponen el uso de conceptos de probabilidad. Mientras que a las caractersticas medidas de una muestra se les llama estadsticas mustrales, a las caractersticas medidas de una poblacin estadstica, o universo, se les llama parmetros de la poblacin. El procedimiento para la medicin de las caractersticas de todos los miembros de una poblacin definida se llama censo. Cuando la inferencia estadstica se usa en el control de procesos, al muestreo, le interesa en particular el descubrimiento y control de las fuentes de variacin en la calidad de la produccin.

44

MEDIDA DE TENDENCIA CENTRAL Son indicadores estadsticos que muestran hacia que valor (o valores) se agrupan los datos.

MEDIA ARITMETICA ( o X) Es el valor resultante que se obtiene al dividir la sumatoria de un conjunto de datos sobre el nmero total de datos. Solo es aplicable para el tratamiento de datos cuantitativos. Equivale al clculo del promedio simple de un conjunto de datos. Para diferenciar datos muestrales de datos poblacionales, la media aritmtica se representa con un smbolo para cada uno de ellos: si trabajamos con la poblacin, este indicador ser ; en el caso de que estemos trabajando con una muestra, el smbolo ser X.

PROMEDIO Permite calcular la media aritmtica (o promedio simple) de un conjunto de datos.

MEDIANA (ME) Valor que divide una serie de datos en dos partes iguales. La cantidad de datos que queda por debajo y por arriba de la mediana son iguales.

La definicin de geomtrica se refiere al punto que divide en dos partes a un Segmento. Por ejemplo, la mediana del segmento AB es el punto C.

MODA (MO)

44

Indica el valor que ms se repite, o la clase que posee mayor frecuencia. En el caso de que dos valores presenten la misma frecuencia, decimos que existe un conjunto de datos bimodal. Para ms de dos modas se habla de un conjunto de datos multimodal.

POBLACIN La poblacin es un agregado de unidades individuales, compuesto de personas o cosas que se hallan en una situacin determinada. Las unidades individuales se llaman unidades elementales. Definir una poblacin es determinar sus unidades elementales de acuerdo con el inters que se tiene respecto a alguna caracterstica de aqulla.

Tanto la definicin de una poblacin como la caracterstica por observar de sus unidades elementales dependen de la naturaleza del problema.

MUESTRA Una muestra es una parte de la poblacin. Es importante hacer notar que para hacer una investigacin mediante el anlisis de una muestra, sta tiene que ser, necesariamente, representativa. La representatividad de la muestra implica que cada unidad de la poblacin debe tener igual probabilidad de ser seleccionada. En estas condiciones, se dice que la muestra es aleatoria. La obtencin de una muestra representativa es uno de los aspectos ms importantes de la teora estadstica. Incluye preguntas como, qu tan grande debe ser la muestra?, qu tipo de datos deben ser recolectados?, cmo se recogern stos? Estas preguntas sern contestadas ms adelante. (El nmero de unidades elementales de una muestra se denota con la letra n).

MEDIADA DE VARIABILIDAD Son intervalos que indican la dispersin de los datos en la escala de medicin. Responden la pregunta: Dnde estn diseminadas las puntuaciones o los valores obtenidos?

44

Las medidas de variabilidad ms utilizadas son: amplitud (rango), desviacin estndar y varianza.

RANGO Es la diferencia entre la puntuacin menor, e indica el nmero de unidades en la escala de medicin que se necesitan para incluir los valores mximo y mnimo.

VARIANZA Est relacionada con el tamao de la diferencia entre cada puntuacin y la media aritmtica de la distribucin a que pertenece.

Es la desviacin estndar elevada al cuadrado y se simboliza s y un 2 como potencia.

Es un concepto estadstico muy importante, ya que muchas de las pruebas cuantitativas se fundamentan en l. Sin embargo, con fines descriptivos se utiliza preferentemente la desviacin estndar.

DESVIACION ESTANDAR Es el promedio de desviacin de las puntuaciones con respecto a la media. Esta medida se expresa en las unidades originales de medicin de la distribucin.

44

Cuanto mayor sea la dispersin de los datos alrededor de la media, mayor ser la desviacin estndar. Se simboliza con s o mediante la abreviatura DE.

DISPERCION La dispersin se refiere a la extensin de los datos, es decir al grado en que las observaciones se distribuyen(o se separan).

SESGO (SKEWNESS) Las curvas que representan un conjunto de datos pueden ser simtricas o sesgadas. Las curvas simtricas tienen una forma tal que una lnea vertical que pase por el punto ms alto de la curva, divide al rea de sta en dos partes iguales. Si los valores se concentran en un extremo se dice sesgada. Una curva tiene sesgo positivo cuando los valores van disminuyendo lentamente hacia el extremo derecho de la escala y sesgo negativo encaso contrario.

44

CURTOSIS Nos da una idea de la agudeza (o lo plano) de la distribucin de frecuencias. Una curva normal (es el patrn con el que se compara la curtosis de otras curvas) tiene curtosis 0. Esta curva se llama mesocrtica. Si la curtosis es mayor que 0, la curva es ms empinada que la anterior y se denomina leptocrtica (Lepto, del griego, "empinado" o "estrecho"). Si la curtosis es menor que 0, es relativamente plana y se denomina platicrtica ("plano", "ancho").

PERCENTIL Un percentil aporta informacin acerca de la dispersin de los datos en el intervalo que va del menor al mayor valor de los datos. En los conjuntos de datos que no tienen muchos valores repetidos, el percentil p divide los datos en dos partes. Cerca del p porciento de las observaciones tienen valores menores que el percentil p y aproximadamente (100-p) por ciento de las observaciones tienen valores mayores o iguales que este valor.

El percentil p es un valor tal que por lo menos p por ciento de las observaciones son menores o iguales que este valor y por lo menos (100-p) por ciento de las restantes son mayores o iguales que ese valor.

44

CUARTILES Un cuartil es dividir los datos en cuatro partes, as cada una contiene el 25% de los datos. A los puntos de divisin se los llama cuartil:

Q1= primer cuartil o percentil 25 Q2= segundo cuartil o percentil 50 Q1= tercer cuartil o percentil 75

DIAGRAMA DE CAJAS Un diagrama de caja es un resumen grfico de los datos con base en el resumen de cinco nmeros.

HISTOGRAMAS Representacin grfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En

44

el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente sealando las marcas de clase, es decir, la mitad del intervalo en el que estn agrupados los datos. Se utilizan para variables continuas o para variables discretas, con un gran nmero de datos, y que se han agrupado en clases. Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (nonumricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores.

ASIMETRA Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media aritmtica). La asimetra presenta tres estados diferentes, cada uno de los cuales define de forma concisa como estn distribuidos los datos respecto al eje de asimetra. Se dice que la asimetra es positiva cuando la mayora de los datos se encuentran por encima del valor de la media aritmtica, la curva es Simtrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetra negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la media.

44

DIAGRAMA DE TALLOS Y HOJAS Dado un conjunto de datos formado por observaciones, las cuales pueden ser representadas mediante y donde cada tiene por lo menos dos dgitos. Una forma rpida de obtener una representacin visual del conjunto de datos es construir un diagrama de tallos y hojas. Este diagrama es usado cuando hay un nmero no muy pequeo de datos. Los siguientes son los pasos para construir un diagrama de tallos y hojas: 1. Seleccionar uno o ms dgitos inciales para los valores de tallo. El dgito(s) final(es) se convierte (n) en hojas. Para facilitar la determinacin de la forma de la distribucin de los datos se necesitan al menos 5 tallos. 2. Hacer una lista de valores de tallo en una columna vertical. 3. Registrar las hojas por cada observacin junto al valor correspondiente del tallo. 4. Indicar las unidades para tallos y hojas en algn lugar del diagrama. Los diagramas de tallos y hojas nos dan una idea de la localizacin de los datos y de la forma de la distribucin. Esta tcnica funciona bien para los conjuntos de datos que no tienen una dispersin muy grande.

DIAGRAMA DE CAJAS (BOX PLOT) Diagrama de caja se empleado de manera satisfactoria para describir varias de las ms destacadas caractersticas de un conjunto de datos. Estas caractersticas incluyen: centro, dispersin, naturaleza y magnitud de cualquier desviacin de la simetra e identificacin de "puntos inusuales"; es decir, observaciones que estn desafortunadamente lejos del cuerpo principal de los datos. Debido a que incluso un solo punto inusual puede afectar de manera drstica el valor de algunas medidas numricas (como la media y la desviacin

44

estndar), un diagrama de bloque est basado en medidas que son "resistentes" a la presencia de unos cuantos puntos inusuales, la mediana y los cuartiles. Un diagrama de bloque se puede construir mediante la siguiente secuencia de pasos: 1. Dibujar y marcar un eje de medida horizontal. 2. Construir un rectngulo cuyo borde izquierdo est arriba del primer cuartil y cuyo borde derecho esta arriba del tercer cuartil . 3. Dibujar un segmento de recta vertical dentro del bloque o caja arriba de la mediana. 4. Prolongar rectas desde cada extremo del bloque o de la caja hasta las observaciones ms lejanas que esten todava a menos de 1.5 veces el rango intercuartlico de los bordes correspondientes. 5. Dibujar un circulo vacio para identificar cada observacin que caiga entre 1.5 y 3.0 veces el rango intercuartlico a partir del borde del rectngulo; stos se llaman puntos inusuales suaves. 6. Dibujar un circulo relleno para identificar cada observacin que caiga a ms de del borde ms cercano; stos se llaman puntos inusuales extremos.

44

1.1. DISTRIBUCION BINOMIAL 1.1.1. Definicin:

44

Cuando se dispone de una expresin matemtica, es factible calcular la probabilidad de ocurrencia exacta correspondiente a cualquier resultado especfico para la variable aleatoria. La distribucin de probabilidad binomial es uno de los modelos matemticos (expresin matemtica para representar una variable) que se utiliza cuando la variable aleatoria discreta es el nmero de xitos en una muestra compuesta por n observaciones.

1.1.2. Propiedades La muestra se compone de un nmero fijo de observaciones n Cada observacin se clasifica en una de dos categoras, mutuamente excluyentes (los eventos no pueden ocurrir de manera simultnea. Ejemplo: Una persona no puede ser de ambos sexos) y colectivamente exhaustivos (uno de los eventos debe ocurrir. Ejemplo: Al lanzar una moneda, si no ocurre cruz, entonces ocurre cara). A estas categoras se las denomina xito y fracaso. La probabilidad de que una observacin se clasifique como xito, p, es constante de una observacin o otra. De la misma forma, la probabilidad de que una observacin se clasifique como fracaso, 1-p, es constante en todas las observaciones. La variable aleatoria binomial tiene un rango de 0 a n

1.1.3. Ecuacin: PX=n! X!n-X!pX1-pn-X Donde: PX=Probabilidad de X xitos, dadas y n = Nmero de observaciones p = Probabilidad de xitos 1-p = Probabilidad de fracasos X = Nmero de xitos en la muestra (= 0, 1, 2, 3, 4,) Media de la distribucin binomial:

44

La media de la distribucin binomial es igual a la multiplicacin del tamao de la muestra por la probabilidad de xito.

1.2. DISTRIBUCION NORMAL La distribucin normal es una de esas reglas Quin dira que una curva exponencial, simtrica, y con forma rara podra describir (siempre aproximadamente) casos tan variados como caracteres morfolgicos, sicolgicos, de consumo y distribuciones de probabilidades? Las medidas experimentales conllevan cierta variabilidad, de modo que no se puede sacar ninguna conclusin con absoluta certeza. Sin embargo, la estadstica proporciona medios para aceptar conclusiones que tienen una alta probabilidad de ser correctas y de rechazar las conclusiones falsas. Si se repite una experiencia un gran nmero de veces, y los errores son puramente aleatorios (es decir al azar), los resultados tienden a agruparse simtricamente en torno a un valor medio. Cuantas ms veces se repita la experiencia ms se acercan los resultados a una curva ideal llamada distribucin gaussiana o normal. En general, no se realizan tantas medidas de una experiencia en el laboratorio. Por lo general se suele repetir una experiencia en el laboratorio unas pocas veces, y recurriendo a la estadstica se puede estimar a partir de una pequea cantidad de datos, los parmetros que posee una serie grande. La distribucin de probabilidad normal ocupa un lugar importante en la estadstica porque casi se ajusta a las distribuciones de frecuencia reales observadas en muchos fenmenos, incluyendo caractersticas humanas (pesos, altura, IQ, etc.) y resultados de procesos fsicos (dimensiones y rendimientos).

1.2.1. Definicin Para definir la distribucin normal de probabilidad en una frmula es necesario conocer dos parmetros: La media (m): es la suma de datos dividido la cantidad de datos. La desviacin estndar (s): informa sobre la variacin de los datos respecto de la media. Luego, la definicin de la distribucin normal es: Se dice que la variable X se distribuye de forma normal con parmetros m y s si":

44

La distribucin normal fue reconocida por primera vez por el francs Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elabor desarrollos ms profundos y formul la ecuacin de la curva; de ah que tambin se la conozca, ms comnmente, como la "Campana de Gauss". Si graficamos la ecuacin anterior, obtendremos la curva conocida como campana de Gauss.

Si nos fijamos en las caractersticas de la curva, veremos que es simtrica, con un vrtice, y que en los dos extremos se extienden indefinidamente, acercndose a 0 (la mayor parte de las poblaciones reales no se extienden indefinidamente a ambos lados, por eso la distribucin gaussiana es una aproximacin).

2. DESCRIPCION DEL SISTEMA En nuestro trabajo de anlisis estadstico a la base de datos Vivienda, realizaremos una descripcin tanto en Excel como en R; esto con el fin de minimizar errores, ya que Excel es una herramienta conocida por nosotras y R es un sistema que estamos

44

empezamos a trabajar, por lo cual a continuacin describimos los dos software utilizados: 2.1. EXCEL Excel es uno de los productos estrellas de Microsoft Office. Excel, no es ms que una hoja de clculo, la cual contiene aproximadamente 65.000 lneas, 256 hojas por carpeta y 256 columnas. Lo que realiza esta hoja de clculo, o sea Excel, son ejercicios aritmticos. Como por ejemplo, balances, clculos de calificaciones escolares o universitarias y todo aquello similar a estos procedimientos. Esta hoja de clculo, se desarrollo originalmente para los Macintosh. Por lo que al momento en que Bill Gates se separa de IBM, traslada aquel producto a lo que se convertira Microsoft Windows. La primera hoja de clculo de Microsoft se llam Multiplan, con la cual se quera competir contra Lotus. Esto ocurri en el ao 1982. Posteriormente en 1985, nace Excel. Tambin para competir contra Lotus. Eso s, no hay que olvidar, como comentamos anteriormente, que Excel fue originalmente diseado, para trabajar con la grfica de Macintosh. Recin para 1990, las ventas de Excel, lograron superar las de Lotus, en todo el globo. La gracia de Excel, fue haber sido, el primer tipo de software, con el cual se podan realizar clculos independientes por cada celda. Antiguamente, cuando se calculaba en las otras hojas de clculo, estas realizaban el calculo completo o mejor dicho, recalculaban todo de manera constante. Por lo mismo, el aspecto interesante de una hoja electrnica de clculo actual, como Excel, est en que los nmeros o frmulas, que se han escrito en una de las celdas, dispuestas para ello, depende para el resultado final, de otros nmeros inscritos en otra celda, por lo que si los nmeros se alteran, estos, tanto en la celda alterada como en las otras, podrn ser percibidos por el cambio, de manera prcticamente instantnea. Lo cual hacia que el trabajo en ellas, fuera bastante lento. Ahora, desde 1993, el tipo de escritura de Excel, es el VBA, el cual otorga funcionalidades bastante anchas, con respecto a la grfica, y las versiones ms nuevas van a ir incluyendo nuevas funcionalidades y avances. Excel es un programa de computadora desarrollado por la empresa Microsoft. A este tipo de programa se lo conoce como Hoja de Clculo porque sirve para que

44

una

persona

realice

clculos

matemticos

cmodamente.

El rea de trabajo en Excel es una figura en la pantalla que, aunque se la llama hoja, se trata de una tabla con muchas filas y columnas que al cruzarse forman una gran cantidad de celdas. Los que saben usar Excel le asignan a las celdas datos o frmulas matemticas. A estas ltimas se les indica cules son las celdas de las que deben obtener los datos necesarios para calcular sus resultados. Excel facilita notablemente el trabajo de los contadores, fsicos, matemticos, y de todo aquel que necesite hacer varias veces los mismos clculos. Cada hoja puede ser guardada y vuelta a utilizar cada vez que se lo necesite. El programa tambin ofrece la posibilidad de hacer grficos automticamente, en los que se puede observar cmo se comporta una variable numrica con respecto a otra. En conclusin, Excel es una herramienta de gran utilidad para quienes quieran trabajar con funciones y frmulas matemticas, o simplemente almacenar datos numricos y graficar su evolucin. 2.1.1. Caractersticas: Hojas de clculo de gran dimensin, filas y columnas que forman celdas de trabajo. Agrupacin de varias hojas de clculo en un libro. Excel esta compuesto por libros, un libro es el archivo en que se trabaja y donde se almacenan los datos. Cada libro puede contener aproximadamente 250 hojas o carpetas. Cada hoja contiene aproximadamente 65.000 lneas y 256 columnas ordenadas numrica y alfabticamente respectivamente. Actualizacin automtica de los resultados obtenidos en la hoja, al modificar los datos de los cuales depende un resultado. Gran capacidad de presentacin y manejo de los datos introducidos. Realizacin de distintos tipos de grficos a partir de los datos introducidos en la hoja de clculo, con la posibilidad de insertarlos en la misma hoja de clculo o en hojas aparte, pudiendo presentar ambas informaciones juntas o separadas. Trabajar con la informacin de una base de datos introducida en la hoja de clculo mediante operaciones que seran propias de un Gestor de Base de Datos como Access. 2.1.2. Plantilla en Excel

44

Una plantilla Excel es un documento pre formateado para su uso; desarrollado en una hoja de clculos Microsoft Excel. Las plantillas organizan el contenido y clculos del documento, permitiendo que se puedan personalizar y guardar. Una plantilla Excel agiliza el trabajo de reproduccin de documentos similares o idnticos, son utilizadas para llevar un control detallado de presupuestos, gastos, comisiones sobre ventas, Flujos de caja, inventarios, provisiones, etc. permitiendo obtener resmenes de informacin desde diferentes puntos de inters. Una plantilla Excel puede contener frmulas, macros, grficos, cabeceras, etc.

2.1.3. Filtros Los filtros Excel facilitan la bsqueda de un subconjunto de datos dentro de un rango para poder trabajar con el mismo. Este subconjunto de datos o rango filtrado muestra las filas que cumplen el criterio que se especifique para una columna. Al utilizar un filtro este no reorganiza el resultado mostrado, pero s permite aplicar formato, representar en grficos e imprimir dicho rango. El filtrado oculta temporalmente las filas que no se desean mostrar. Excel proporciona dos formas de filtrar celdas de datos: Autofiltro. Filtro avanzado. 2.1.3.1. Autofiltro Ayuda a administrar fcilmente hojas de clculo de gran tamao, que requieran de filtros con criterios simples.

2.1.3.2.

Filtro Avanzado

Utilizado para realizar filtros con criterios ms complejos. Se diferencia del Autofiltro al tener que escribir los criterios segn los cuales desea filtrar los datos en un rango de criterios independiente situado sobre el rango.

44

2.1.4. Cuadros de Anlisis de Datos El funcionamiento de Anlisis de datos es interactivo. Siempre debe rellenar el campo (o campos) indicado como Rango de Entrada con (el rango de) los datos que se van a analizar. Los resultados se escriben por defecto en una hoja nueva. Si se desea obtenerlos en la misma hoja debe seleccionar la opcin y el del Rango de salida con la coordenada superior izquierda de la zona en donde desea que se muestren los resultados. El resto de los campos puede o no seleccionarse segn el tipo de anlisis que desee efectuar.

2.2. R R es un conjunto integrado de programas para manipulacin de datos, clculo y grficos. 2.2.1. Caractersticas Almacenamiento y manipulacin efectiva de datos. Operadores para clculo sobre variables indexadas (Arrays), en particular matrices. Amplia, coherente e integrada coleccin de herramientas para anlisis de datos. Posibilidades graficas para anlisis de datos, que funcionan directamente sobre pantalla impresora. Lenguaje de programacin bien desarrollado, simple y efectivo, que incluye condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas. (Debe destacarse que muchas de las funciones suministradas con el sistema estn escritas en el lenguaje R). El termino \entorno" lo caracteriza como un sistema completamente diseado y coherente, antes que como una agregacin incremental de herramientas muy especificas e inflexibles, como ocurre frecuentemente con otros programas de anlisis de datos. R es en gran parte un vehculo para el desarrollo de nuevos mtodos de anlisis interactivo de datos. Como tal es muy dinmico y las diferentes versiones no siempre

44

son totalmente compatibles con las anteriores. Algunos usuarios prefieren los cambios debido a los nuevos mtodos y tecnologa que los acompaan, a otros sin embargo les molesta ya que algn cdigo anterior deja de funcionar. Aunque R puede entenderse como un lenguaje de programacin, los programas escritos en R deben considerarse esencialmente efmeros. http://virtual.udistrital.edu.co/tecnologica/file.php/6/R-intro-1.1.0-espanol.1.pdf

3. BASE DE DATOS En el presente proyecto se van a trabajar los siguientes datos que se muestran a continuacin:
Base de la oferta de vivienda

44

NOMBRE DE LA BASE NUMERO DE REGISTROS: VARIABLE DEPENDIENTE: VARIABLE INDEPENDIENTE

nueva en Bogot 2005 169 datos Precio (en Miles) rea (Metros cuadrados)

El supuesto es que el PRECIO de la vivienda depende del rea construida que el apartamento o casa tiene, sin embargo la base posee otra serie de variables que pueden explicar la VARIABLE DEPENDIENTE entre ellas el nmero de habitantes.

3.1. ANALISIS E INTERPRETACION DE DATOS Inicialmente los datos de las variables de rea y precio sern sometidas al test de normalidad de shapiro wilk, para determinar la normalidad de los datos para poder a cabo el anlisis estadstico.

44

3.1.1. Test de normalidad Shapiro Wilk Variable rea

Variable precio

ANALISIS Las variables de rea y precio no tienen un comportamiento normal puesto que el valor resultante en el test de shapiro wilk (W), esta alejado de 1, con valores para la variable rea W= 0.7562, y para la variable precio W= 0.6161, lo cual muestra estadsticamente la existencia de datos atpicos que deben ser analizados a traves del diagrama box-plot para lograr la normalidad de los datos.

BOX- PLOT

44

ANALISIS En la variable rea se encuentran 10 datos atpicos que causan la no normalidad de los datos ya que presentan valores muy alejados del promedio el cual es de 76.21, y por este motivo, no se tendrn en cuenta en el anlisis estadstico.

44

En la variable precio se encuentran 6 datos atpicos q generan la no normalidad de los datos ya que presentan valores muy alejados del promedio, el cual es de 93848, y pr este motivo, no se tendrn en cuenta en el anlisis estadstico. Ahora procedemos a efectuar nuevamente el test de normalidad para determinar la normalidad de los datos. Variable Area

Variable Precio

Anlisis Cada una de las variables tiene una distribucin normal de los datos puesto que los valores de W, son muy prximos a 1.

3.1.2 Anlisis descriptivo

44

Las siguientes son las estadsticas descriptivas de las variables implicadas inicialmente, PRECIO y AREA. VARIABLE PRECIO MTC (Medida de tendencia Central)

Histograma de frecuencia

frecuencia

0 0

10

GRAFICOS

20

30

PRECIO

44

50

100

150

Density

PRECIO

0.000

0.002

0.004

0.006

0.008

0.010

N = 157 Bandwidth = 11.95

44

50

100

150

200

ANALISIS La variable PRECIO presenta un promedio de 77032.52; y con un valor de la mediana de 72 lo cual nos demuestra que el 50% de los datos muestreados tienen valores menores a 72 y el 50% restante de los datos tienen valores mayores a 72. Adems los datos que tienen mayor frecuencia estn entre 40 y 60 millones de pesos. La variable PRECIO presenta un coeficiente asimtrico positivo con un valor de g1= 0,6402, esto muestra una tendencia a tener sesgo positivo, debido a que la mayora de los datos estn mas concentrados a valores inferiores de la media 77032.52. MV (Medidas de Variabilidad)

44

B oxplot

50

100

150

ANALISIS PR ECIO La variable PRECIO (millones), tiene un grado de dispersin de los datos en relacin a la media de S= 36507,01, y un coeficiente de curtosis de 0,3057108 definida como mesocurtica, puesto que los datos tienen una concentracin normal en relacin al valor de la media. Segn el diagrama Blox-plot: las extensiones F1 y F3 respectivamente son 19000 y 173000. Por lo tanto el rango intercuartlico est entre 483330 y 101000. Donde la mayor variabilidad est entre Q2 y Q3. VARIABLE AREA MTC (Medida de tendencia Central)

44

GRAFICOS HISTOGRAMA DE FRECUENCIA

Density

AREA

0.000 20

0.005

0.010

0.015

0.020

N = 157 Bandwidth = 5.619

44

40

60

80

100

120

140

ANALISIS La variable AREA presenta un promedio de 69,74522; y con un valor de la mediana de 68 lo cual nos demuestra que el 50% de los datos muestreados tienen valores menores a 68 y el 50% restante de los datos tienen valores mayores a 72. Adems los datos que tienen mayor frecuencia estn entre 60 y 70 metros cuadrados. La variable AREA presenta un coeficiente asimtrico positivo con un valor de g1= 0,613034, esto muestra una tendencia a tener sesgo positivo, debido a que la mayora de los datos estn mas concentrados a valores inferiores de la media 69,74522. MV (Medidas de Variabilidad)

44

B xp t o lo

4 0

6 0

8 0 A E RA ANALISIS

1 00

12 0

La variable AREA (metros cuadrados), tiene un grado de dispersin de los datos en relacin a la media de S= 17.79438, y un coeficiente de curtosis de 0,07294035 definida como mesocurtica, puesto que los datos tienen una concentracin normal en relacin al valor de la media. Segn el diagrama Blox-plot: las extensiones F1 y F3 respectivamente son 34 y 114. Por lo tanto el rango intercuartlico est entre 57 y 80. donde la variabilidad se encuentra parcial entre Q1, Q2 y Q3. El diagrama nos muestra 2 datos atpicos (120, 117) los cuales no se tendrn en cuenta, ya que por factores en la medicin pueden ser errneos y perjudican el estudio estadstico DISTRIBUCION NORMAL

El AREA en metros cuadrados de una vivienda se distribuye en forma normal con una media y una desviacin estndar de:

44

Normal Distribution: Mean=69.74522, Standard deviation=17.79438

Density

0.000

0.005

0.010

0.015

0.020

20

40

60 x

80

100

120

Para tener parmetros que permitan tener un criterio de seleccin de acuerdo con la disponibilidad de vivienda segn el rea, se plantea las siguientes preguntas: Cul es la probabilidad de que un vivienda tenga un rea menor de 85 metros cuadrados: a) Menos de 85 metros cuadrados P(X<85) para X= N(69,74522,1 7,79438)

Rta: La probabilidad de encontrar una vivienda que tenga un rea menor de 85 metros cuadrados es de 71.77915%.

44

b) Cual es la probabilidad de hallar una vivienda con un rea entre 50 y 60 metros cuadrados P(50<X<60) para X= N(69,74522,1 7,79438)

Rta: La probabilidad de encontrar una vivienda que tenga un rea entre 50 y 60 metros cuadrados es de 15.8385%. c) Si se tiene un intervalo de confianza al 90% para el area promedio de las viviendas, si suponemos que las dimensiones de area se distribuye aproximadamente normal

DISTRIBUCION BINOMIAL En las viviendas construidas encontramos que la probabilidad de que el rea real no se cumpla con la mostrada a los compradores es de 0,04. Teniendo en cuenta que los conjuntos son de aproximadamente 650 apartamentos, cul es la probabilidad de que en un conjunto residencial 20 viviendas no cumplan con el rea ofrecida a los compradores?

Rta: la probabilidad de encontrar 20 viviendas con un rea que no se cumple a la ofrecida a los clientes en un conjunto residencial de 650 apartamentos es de 13.35741%.

44

Binomial Distribution: Binomial trials=650, Probability of success=0.04


0.08 Probability Mass 0.00 10 0.02 0.04 0.06

15

20

25

30

35

40

45

Number of Successes

2da ENTREGA CONTINUACION INTERVALOS DE CONFIANZA PARA DISTRIBUCIONES MUESTRALES VARIABLE AREA

Segn el estudio estadstico realizado a la empresa GAS evolution jeans LTDA., se tiene conocimiento que el promedio de la variable AREA, es de 69.74522, con una desviacin estndar de 17.79438. Se tomo una muestra de 55 viviendas y se someten a prueba. Generar un intervalo de confianza del 95% para el promedio de la variable AREA.

44

IC= 65.0424

74.4480

R/= Se tiene el 95% de seguridad que el promedio del area de una vivienda en un conjunto de la constructora esta entre 65.0424 y 74.4480 metros cuadrados. VARIABLE PRECIO

Segn el estudio estadstico realizado a la constructora., se tiene conocimiento que el promedio de la variable precio, es de 77032.52, con una desviacin estndar de 36507.01. Se tomo una muestra de 72 viviendas y se someten a prueba. Generar un intervalo de confianza del 95% para el promedio de la variable PRECIO.

IC =

IC = 68599.83

85465.209

R/= Se tiene el 95% de seguridad que el promedio del precio de una vivienda en un conjunto de la constructora esta entre 68599000.83 y 85465000.209 de pesos.

ESTIMACION DE LA DIFERENCIA ENTRE LAS MEDIAS DE DOS POBLACIONES: Muestras pareadas La constructora . Selecciono dos grupos del rea de pintura y acabado para determinar la habilidad que tenan para efectuar esta operacin y las someti a medicin de tiempo (horas), los datos obtenidos aparecen en la siguiente tabla.

Vivienda

grupo 1

grupo 2

1 2 3

38 42 36

41 39 42

44

4 5 6 7 8 9 10

32 45 38 40 39 41 35

35 41 39 43 37 40 36

Se desea un intervalo de confianza del 95% para la diferencia en el tiempo promedio de los dos grupos. Cul grupo es el mejor?

44

Ho= No hay diferencia entre los dos grupos Ha= Hay diferencia entre los dos grupos

Se valida la hiptesis nula, puesto que con un nivel de confianza del 95% no hay diferencia significativa entre los dos grupos del rea de pintura y terminado. El intervalo de la diferencia de las medias entre los dos grupos es (-2.963414, 1.563414) . Lo que demuestra una eficiencia similar entre los grupos que desempaan la actividad de pintura y terminado.

PRUEBA DE HIPTESIS VARIABLE AREA

El rea comercial de la constructora desea conocer el rea de las viviendas construidas en los ltimos proyectos, con el fin de estimar la capacidad que han tenido para aprovechar los terrenos, y poder determinar la viabilidad de un nuevo proyecto. Si el rea de las viviendas es igual a 60 metros cuadrados, la constructora se puede arriesgar a licitar el proyecto puesto que cuenta con la capacidad y recursos necesarios para llevarlo a cabo, de lo contrario debe enfocarse en otros proyectos que le generen mayor confiabilidad de xito. Ho: Ha: = 60 metros cuadrados 60 metros cuadrados

44

RTA: Como el valor p-value=1.505 e -10 es menor que =0.05, nivel de significacin, rechazamos la hiptesis nula. De lo anterior, existe una evidencia estadstica que acepta la hiptesis alternativa Ha puesto que el promedio de 60 metros cuadrados se encuentra fuera de IC = (66.94003, 72.55042).

VARIABLE PRECIO

El rea de ventas de la constructora desea conocer el precio promedio de las viviendas construidas en los ltimos proyectos, con el fin de estimar si sus precios pueden ser competitivos para un proyecto que se llevara a cabo en la ciudadela la felicidad, y poder determinar si pueden atacar a la competencia con precios o hay que evaluar otras estrategias. Si el precio de las viviendas es igual a 80.000.000 de pesos, la constructora es competitiva en razn del precio y puede tener un mayor valor agregado con respecto a la competencia, de lo contrario habra que evaluar otras posibilidades que puedan enfrentar las fortalezas y ventajas que ofrece la competencia. Ho: Ha: = $80.000.000 $80.000.000

44

Existe evidencia estadstica con un 95% de confianza que acepta la hiptesis nula Ho = $80.000.000 ya que esta se encuentra dentro de la media del intervalo de confianza IC = ( 71277.37, 82787.67) = 5%, as el departamento de ventas puede establecer un precio competitivo que le va generar ventaja frente a la competencia en el proyecto de la felicidad.

3ra ENTREGA FINAL REGRESION LINEAL Para saber la relacin entre el rea de vivienda construida con el precio por metro cuadrado podemos encontrar: La variable independiente es el rea construida, debido a que esta solo depende de las dimesiones que se ha construido.

44

La variable dependiente es precio del terreno que depende de que tan grande es el tamao del terreno, por lo que tenemos:

nos define: La ordenada en el origen (- 25530.5) y a la pendiente (1470.5) de la recta de regresin, que sera por tanto de la forma: PRECIO = 42.83 + 0.0003494 AREA

Tambin se muestran el coeficiente de determinacin R2 = 0.5138. Coeficiente de correlacin R = 0.7167

44

DIAGRAMA DE DISPERSION

PRECIO

50000 40

100000

60

80 AREA

100

120

El comportamiento entre la variable independiente rea construida y la variable dependiente precio, tienen un relacin lineal directa puesto que estadsticamente hablando tiene un coeficiente de correlacin de r= 0.7167, lo cual indica este comportamiento. Esto quiere decir que a mayor rea, mayor ser el precio, puesto que las variables tienen cambios proporcionales de crecimiento.

44

Si suponemos que nuestra Ho = tiene un comportamiento lineal, podemos afirmar que se aprueba la hiptesis nula debido al coeficiente de correlacin obtenido.

DIFERENCIA DE PROPORCIONES La constructora COLPATRIA Considero ciertos cambios en el proceso de impermeabilizacin de las viviendas que son susceptibles a la humedad. Se tomaron muestras de viviendas afectadas con humedad con el impermeabilizante actual y del nuevo para determinar si se tiene mejora. Se encuentra que en un conjunto de 2000 viviendas 50 presentaron humedad con el impermeabilizante actual, y 5 de 2000 del procedimiento nuevo tambin lo son. Se desea hallar un intervalo de confianza del 92% para determinar la diferencia real del efecto del impermeabilizante en las viviendas. Ho = no hay diferencia significativa entre las dos muestras Ha = Alguna de las dos muestras tiene menor nmero de defectuosos P1 = 50/2000 = 0.025 P2 = 5/2000 = 0.0025 n1 = 2000 n2 = 2000 q1 = 1 p1 = 0.975 q2 = 1 p2 = 0.9975

IC = 0.01606741

0.028932679

RTA= Estadsticamente hablando se tiene un nivel de confianza del 92% que existen diferencias significativas entre los dos procesos, de aqu se rechaza la hiptesis nula planteada, y se acepta la hiptesis alternativa, ya que la proporcin de viviendas defectuosas por humedad son menores con el nuevo impermeabilizante, lo cual le permite definir a la constructora la adquisicin de este producto para sus proyectos de vivienda, ya que es mas efectivo y genera una mayor confiabilidad que el anterior..

44

DISTRIBUCION F (fisher) La constructora COLPATRIA. En el ltimo mes ha presentado problemas con los impermeabilizantes los cuales son suministrados por dos proveedores, y se cree que la variabilidad en la concentracin de los qumicos que lo componen puede diferir entre las dos compaas. Se tomaron dos muestras de 10 lotes impermeabilizantes de cada uno de los proveedores y se observan en la siguiente tabla:
proveedo r1 kg/bulto 38 35 43 48 60 55 63 47 62 31 proveedo r2 Kg/bulto 41 42 37 43 37 40 40 44 40 38

proveed proveed or 1 or 2 kg/bulto Kg/bulto 133.0666 5.733333 varianza 67 33

La constructora desea evaluar cual es el proveedor que presenta una mayorr confiabilidad debido a la variabilidad en su proceso, para ello se establece un intervalo de confianza del 95% para determinar cual proveedor es mas confiable. Ho : Ha : F(0.025,9,9) = 4.026

44

IC = 5.76485

93.440705

F Distribution: Numerator degrees=9, Denominator degrees=9

Density

0.0 0

0.2

0.4

0.6

6 x

10

12

Se tiene evidencia estadstica con un nivel de confianza del 95% que se acepta la hiptesis alternativa puesto que las varianzas poblacionales son diferentes y debido a que los valores del intervalo (5.76485; 93.440705) son mayores a 1, la varianza del proveedor 1 es mayor que la varianza del proveedor 2, lo cual le indica a la constructora que el impermeabilizante que le genera mayor confiabilidad por su estabilidad en el proceso y baja variabilidad es con el proveedor 2, y por esta razn se hace necesario establecer la compra de este producto con el proveedor 2 nicamente ya que se generan menores riesgos de viviendas defectuosas por humedad.

CONCLUSIONES

El paquete de R es una gran herramienta estadstica para poder analizar datos estadsticamente con una gran facilidad y rapidez para el manejo de la informacin, el cual nos

44

permite tomar decisiones asertivas en los procesos desarrollados en el contexto empresarial e industrial. Todos los procesos industriales y organizacionales tienes variables que deben ser controladas y estudiadas para poder conocer su comportamiento durante la lnea de tiempo del proceso, y poder asegurar la calidad de los mismos y para ello la estadstica descriptiva e inferencial nos permite obtener un conocimiento matemtico para tomar decisiones y mejorar continuamente los procesos. Lograr la calidad total en toda la organizacin no se logra sino se controlan las variables inherentes a los proceso, por esto se debe implementar el estudio estadstico para argumentar las acciones correctiva y preventivas basadas en hechos, y poder tomar la decisin correcta que nos conlleve al xito.

4. INFOGRAFIA

1. http://www.spssfree.com/spss/analisis3.html

44

2. http://es.wikipedia.org/wiki/Histogram 3. http://www.virtual.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_113_13.ht ml 4. http://www.monografias.com/trabajos85/distribucion-binomial/distribucionbinomial.shtml 5. http://www.google.com.co/imgresq=concepto+de+distribucion+normal&um=1&hl =es&sa=N&biw=1024&bih=499&tbm=isch&tbnid= 6. http://www.misrespuestas.com/que-es-excel.html 7. http://www.cavsi.com/preguntasrespuestas/que-es-una-plantilla-excel/

44

You might also like