You are on page 1of 179

Anlisis Estadsticos de Datos

ETAD01

Esteban Vera Campos


Ing. Civil en Automatizacin
Encuadre de Asignatura
Electricidad Aplicada I
Antecedentes Docentes

1 Vas de Comunicacin
> esteban.vera13@inacapmail.cl

2 Ttulos Profesionales
Ingeniero Civil en Automatizacin
Licenciado en ciencias de la Ingeniera
Tcnico Mecnica Industrial
Antecedentes Asignatura

1 Perfil de Egreso
El egresado de la carrera de Ingeniera en Automatizacin y Control Industrial de la
Universidad Tecnolgica de Chile INACAP:

Est capacitado para disear, implementar, aplicar tecnologa, operar, y planificar proyectos de
automatizacin en diferentes empresas, con el propsito de innovar y verificar los cambios de
equipamiento y su actualizacin, en el mbito de la mantencin, administracin, instrumentacin y
control industrial. Adems, coordinar actividades con otras reas, proponer soluciones a procesos
productivos y aplicar normas de proteccin del medio ambiente, de acuerdo a los principios de
liderazgo, resolucin de problemas, pensamiento creativo, trabajo en equipo, uso de las TIC y tica,
tanto en empresas del sector productivo como de servicios.
Antecedentes Asignatura

2 Descripcin de la asignatura

Estadstica es una asignatura lectiva del rea formativa de Disciplinas Bsicas, del rea del
conocimiento de Ciencias Bsicas: Estadstica lnea curricular de estadstica. Estadstica
busca entregar a los estudiantes conocimientos y herramientas para que adquieran
capacidades de recoger, organizar, describir y presentar conjuntos de datos estadsticos
unidimensionales o bidimensionales que le permitan caracterizar un fenmeno de inters.
Adems, desarrollar tcnicas y habilidades que le permitan aplicar procedimientos
estadsticos para el clculo de probabilidades en situaciones reales
3 Competencias del perfil de egreso asociada

Identificar problemas propios de su mbito personal y acadmico, analizando las


variables que lo componen para una mayor comprensin de ellos, aplicar
variables establecidas para la resolucin de problemas en contextos
estructurados que pueden ser personales o del mbito acadmico y utilizar una
secuencia lgica de pensamiento explicitando el proceso realizado para la
identificacin del problema y el mtodo para su solucin, reconociendo sus
fortalezas y debilidades en este proceso.
4 Competencias genrica

Resolucin de problemas Resuelve problemas, utilizando una secuencia de aprendizajes, en


situaciones que involucran un nmero limitado de variables.
5 Unidades.

o Anlisis de datos univariados: 18 Hrs.

o Anlisis de datos bivariados: 20 Hrs.

o Distribucin de probabilidad normal: 26 Hrs.

Evaluaciones: 11 horas
6 Metodologa.

Clase expositiva
Demostraciones
Solucin de ejercicios y problemas
7 Evaluaciones.
8 Bibliografa
Unidad 1

Anlisis de datos univariados


Variables
Estadsticas

Variable Variable
Cualitativa Cuantitativa
Variable cualitativa

Las variables cualitativas se refieren a caractersticas o cualidades que no


pueden ser medidas con nmeros. Podemos distinguir dos tipos:
Variable cualitativa nominal

Una variable cualitativa nominal presenta modalidades no numricas que no admiten un criterio de
orden. Por ejemplo:

Variable cualitativa ordinal o variable cuasi cuantitativa

Una variable cualitativa ordinal presenta modalidades no numricas, en las que existe un orden. Por
ejemplo:
Puesto conseguido en una prueba deportiva: 1, 2, 3

La nota en un examen: suspenso, aprobado, notable, sobresaliente.

Medallas de una prueba deportiva: oro, plata, bronce.


Variable cuantitativa

Una variable cuantitativa es la que se expresa mediante un nmero, por tanto se


pueden realizar operaciones aritmticas con ella. Podemos distinguir dos tipos:

Variable discreta

Una variable discreta es aquella que solo puede tomar un nmero finito de valores entre dos valores
cualesquiera de una caracterstica.

El nmero de hermanos de 5 amigos: 2, 1, 0, 1, 3.

Variable continua

Una variable continua es aquella que puede tomar un nmero infinito de valores entre dos valores
cualesquiera de una caracterstica.

La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.

En la prctica medimos la altura con dos decimales, pero tambin se podra dar con tres
decimales.
Etapas de la Estadstica descriptiva

Recopilacin Clasificacin Presentacin Descripcin

Encuesta Alcance Diagramas Media


Cuestionarios Rango Histogramas Mediana
Censo Intervalo Ojiva Moda
Muestreo Tabla de
frecuencia
Recopilacin

Definiciones

Poblacin: Es el conjunto universal

Muestra: Subconjunto de la poblacin

Individuo: Elemento que aporta informacin


Clasificacin

Definiciones

Tamao de la muestra(n): Numero de datos que componen la muestra.

Alcance (A): Intervalo entre valor menor y el mayor : [Valor Min, Valor Max]

Rango (R): Tambin se llama recorrido o amplitud total. Es la diferencia entre el valor mayor y
el menor de los datos.

Nmero de intervalo de clase ( ): Cantidad de intervalos que se dividir la muestra, se


calcula: = 1 + 3,3 log

Ancho del intervalo(i):Se obtiene dividiendo el Rango para el nmero de intervalos



=

Presentacin

Definiciones
Tabla de frecuencias: La distribucin de frecuencias agrupadas o tabla con datos
agrupados se emplea si las variables toman un nmero grande de valores o la
variable es continua.
Los tipos de frecuencia pueden ser:

Frecuencia Absoluta (f).- Es el nmero de veces que se repite el valor de cada


variable. La suma de frecuencias absolutas es siempre al total de datos observados.
Frecuencia Relativa (fr).- Indica la proporcin con que se repite un valor. Es el
cociente entre la frecuencia absoluta y el nmero total de datos. La suma de las
frecuencias relativas es siempre 1.

=

Frecuencia Acumulada (fa).- Indica el nmero de valores que son menores o iguales
que el valor dado. Es la suma de la frecuencia absoluta primera con la segunda,
este valor con la tercera, y as sucesivamente.
Frecuencia Porcentual (f%).- Llamada tambin frecuencia relativa porcentual. Se
obtiene multiplicando la frecuencia relativa por 100. La suma de las frecuencias
porcentuales es siempre 100%. Se calcula as:
% = 100
Frecuencia Relativa Acumulada (fra).- Es la suma de la frecuencia relativa primera
con la segunda, este valor con la tercera, y as sucesivamente.

Frecuencia Relativa Acumulada Porcentual (fra%).- Indica el nmero de valores que


son menores o iguales que el valor dado. Se obtiene multiplicando la frecuencia
relativa acumulada por 100. Se calcula as:
% = 100
Marca de Clase: Es el punto medio de cada clase o intervalo, se calcula as:
+
=
2
Ejercicio

Desarrolle una tabla de frecuencias para la siguiente muestra de las edades de un


grupo de personas.

2, 3, 5, 6,10, 12, 12, 14, 16, 16, 16, 18, 21, 22, 23, 24, 25, 27, 29, 31
Diagrama de barras

Un diagrama de barras se utiliza para de presentar datos cualitativos o datos


cuantitativos de tipo discreto.

Se representan sobre unos ejes de coordenadas, en el eje de abscisas se colocan los


valores de la variable, y sobre el eje de ordenadas las frecuencias absolutas o relativas
o acumuladas.

Los datos se representan mediante barras de una altura proporcional a la frecuencia.


Ejemplo:

Un estudio hecho al conjunto de los 20 alumnos de una clase para


determinar su grupo sanguneo ha dado el siguiente resultado:

Grupo sanguneo fi
A 6
B 4
AB 1
0 9
20
Diagrama de barras
Polgono de frecuencia

Un polgono de frecuencias se forma uniendo los extremos de las barras


mediante segmentos.

Tambin se puede realizar trazando los puntos que representan las frecuencias
y unindolos mediante segmentos.
Ejemplo

Las temperaturas en un da de otoo de una ciudad han sufrido las


siguientes variaciones:

Hora Temperatura
6 7
9 12
12 14
15 11
18 12
21 10
24 8
Polgono de frecuencia
Ejercicio

Las notas de un grupo de 20 alumnos es el siguiente:


0, 0, 1, 1, 1, 2, 3, 3, 4, 5, 6, 6, 6, 7, 7, 8, 8, 8, 8, 9

Realice el diagrama de barras y el polgono de frecuencia correspondiente.


Diagrama de sectores

Un diagrama de sectores se puede utilizar para todo tipo de variables, pero se usa
frecuentemente para las variables cualitativas.

Los datos se representan en un crculo, de modo que el ngulo de cada sector es


proporcional a la frecuencia absoluta correspondiente.

360
=

El diagrama circular se construye con la ayuda de un transportador de ngulos.


Ejemplo

En una clase de 30 alumnos, 12 juegan a baloncesto, 3 practican la natacin, 9


juegan al ftbol y el resto no practica ningn deporte.

Alumnos ngulo
Baloncesto 12 144
Natacin 3 36
Ftbol 9 108
Sin
6 72
deporte
Total 30 360
Ejercicios

En una clase de 24 alumnos se hace una encuesta preguntando a qu dedican su


tiempo de ocio. Las respuestas se reflejan en el siguiente diagrama de sectores.
Completa la siguiente tabla:

Hobby Alumnos Grados


Televisin 150
Lectura 75
Deporte 90
Otros 45
Total 360
En un instituto se ha realizado una encuesta a los alumnos para saber cules son los libros
que ms les gusta leer, y as poder comprar nuevos libros para la biblioteca. Los resultados
son los que se muestran en el siguiente diagrama de sectores. Completa la siguiente tabla
y, despus, contesta a las preguntas que se te plantean

Tipo de libro Alumnos Grados


Poesa 3

Terror 24

Aventuras 30

Misterio 21

Teatro 12

Total
A cuntos estudiantes se les ha realizado la encuesta?

Cuntos alumnos prefieren los libros de terror?

Qu libros son los que ms gustan?


Histograma

Un histograma es una representacin grfica de una variable en forma de barras.

Se utilizan para variables continuas o para variables discretas, con un gran nmero de
datos, y que se han agrupado en clases.

En el eje abscisas se construyen unos rectngulos que tienen por base la amplitud del
intervalo, y por altura, la frecuencia absoluta de cada intervalo.

La superficie de cada barra es proporcional a la frecuencia de los valores representados.


Ejemplo

El peso de 65 personas adultas viene dado por la siguiente tabla:

Xi fi Fi
[50, 60) 55 8 8
[60, 70) 65 10 18
[70, 80) 75 16 34
[80, 90) 85 14 48
[90, 100) 95 10 58
[100, 110) 105 5 63
[110, 120) 115 2 65
65
Histograma
Histograma de frecuencia Acumulada

Ojiva
Parmetro Estadsticos

Un parmetro estadstico es un nmero que se obtiene a partir de los datos de una


distribucin estadstica.

Los parmetros estadsticos sirven para sintetizar la informacin dada por una tabla o
por una grfica.

Tipos de parmetros estadsticos

Hay tres tipos parmetros estadsticos:

De centralizacin.

De posicin

De dispersin.
Medidas de centralizacin

Nos indican en torno a qu valor (centro) se distribuyen los datos.

La medidas de centralizacin son:

Media aritmtica

La media es el valor promedio de la distribucin.

Mediana

La mediana es la puntacin de la escala que separa la mitad superior de la distribucin y la inferior,


es decir divide la serie de datos en dos partes iguales.

Moda

La moda es el valor que ms se repite en una distribucin.


Medidas de posicin

Las medidas de posicin dividen un conjunto de datos en grupos con el mismo nmero de
individuos.
Para calcular las medidas de posicin es necesario que los datos estn ordenados de menor a
mayor.

La medidas de posicin son:

Cuartiles
Los cuartiles dividen la serie de datos en cuatro partes iguales.

Deciles
Los deciles dividen la serie de datos en diez partes iguales.

Percentiles
Los percentiles dividen la serie de datos en cien partes iguales.
Medidas de dispersin

Las medidas de dispersin nos informan sobre cuanto se alejan del centro los valores de
la distribucin.

Las medidas de dispersin son:


Rango o recorrido
El rango es la diferencia entre el mayor y el menor de los datos de una distribucin
estadstica.

Desviacin media
La desviacin media es la media aritmtica de los valores absolutos de las desviaciones
respecto a la media.

Varianza
La varianza es la media aritmtica del cuadrado de las desviaciones respecto a la media.

Desviacin tpica
La desviacin tpica es la raz cuadrada de la varianza.
Moda

La moda es el valor que tiene mayor frecuencia absoluta.

Se representa por Mo.

Se puede hallar la moda para variables cualitativas y cuantitativas.

Hallar la moda de la distribucin:

2, 3, 3, 4, 4, 4, 5, 5

Mo= 4
Casos especiales.

A)
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9

Cul es la moda?

b)
2, 2, 3, 3, 6, 6, 9, 9

Cul es la moda?

c)
0, 1, 3, 3, 5, 5, 7, 8
Cul es la moda?
Clculo de la moda para datos agrupados

1 Todos los intervalos tienen la misma amplitud.

Li es el lmite inferior de la clase modal.

fi es la frecuencia absoluta de la clase modal.

fi-1 es la frecuencia absoluta inmediatamente


inferior a la clase modal.

fi+1 es la frecuencia absoluta inmediatamente


posterior a la clase modal.

ai es la amplitud de la clase.
Ejemplo.

Calcular la moda de una distribucin estadstica que viene dada por la


siguiente tabla:

fi
[60, 63) 5
[63, 66) 18
[66, 69) 42
[69, 72) 27
[72, 75) 8
100
Mediana

Es el valor que ocupa el lugar central de todos los datos cuando stos estn
ordenados de menor a mayor.

La mediana se representa por Me.

La mediana se puede hallar slo para variables cuantitativas.


Clculo de la mediana

1. Ordenamos los datos de menor a mayor.

2. Si la serie tiene un nmero impar de medidas la mediana es la puntuacin central de la


misma.

2, 3, 4, 4, 5, 5, 5, 6, 6 Me = 5

3. Si la serie tiene un nmero par de puntuaciones la mediana es la media entre las dos
puntuaciones centrales.

7, 8, 9, 10, 11, 12 Me = 9.5


Clculo de la mediana para datos agrupados

La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta


la mitad de la suma de las frecuencias absolutas.

Es decir tenemos que buscar el intervalo en el que se encuentre

Donde N es el tamao de la muestra


Formula para el calculo de la mediana

Li es el lmite inferior de la clase donde se encuentra la mediana.

es la semisuma de las frecuencias absolutas.

Fi-1 es la frecuencia acumulada anterior a la clase mediana.

ai es la amplitud de la clase.

La mediana es independiente de las amplitudes de los intervalos.


Ejemplo

Calcular la mediana de una distribucin estadstica que viene dada


por la siguiente tabla:

fi Fi
[60, 63) 5 5
[63, 66) 18 23
[66, 69) 42 65
[69, 72) 27 92
[72, 75) 8 100
100
Media aritmtica

La media aritmtica es el valor obtenido al sumar todos los datos y dividir el


resultado entre el nmero total de datos.

es el smbolo de la media aritmtica.


Ejemplo

Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg.
Hallar el peso medio.
Media aritmtica para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la


expresin de la media es:

Donde:
Xn: es la marca de clase
fn: es la frecuencia absoluta
Ejercicio de media aritmtica

En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que


muestra la tabla. Calcula la puntuacin media.

xi fi xi fi
[10, 20) 15 1 15
[20, 30) 25 8 200
[30,40) 35 10 350
[40, 50) 45 9 405
[50, 60 55 8 440
[60,70) 65 4 260
[70, 80) 75 2 150
42 1 820
Medidas de posicin
Cuartiles

Los cuartiles son los tres valores de la variable que dividen a un conjunto de
datos ordenados en cuatro partes iguales.

Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.

Q2 coincide con la mediana.


Clculo de los cuartiles

1. Ordenamos los datos de menor a mayor.

2. Buscamos el lugar que ocupa cada cuartil mediante la


expresin
( + 1)
=
4

Nmero impar de datos

2, 5, 3, 6, 7, 4, 9
Nmero par de datos

2, 5, 3, 4, 6, 7, 1, 9

1, 2, 3, 4, 5, 6, 7, 9

Q1=2,25
( + 1)
Q2= 4,5 =
Q3=6,25 4
Clculo de los cuartiles para datos agrupados

En primer lugar buscamos la clase donde se encuentra

en la tabla de las frecuencias acumuladas.

Li es el lmite inferior de la clase donde se encuentra el cuartil.

N es la suma de las frecuencias absolutas.

Fi-1 es la frecuencia acumulada anterior a la clase del cuartil.

ai es la amplitud de la clase.
Ejercicio de cuartiles

Calcular los cuartiles de la distribucin de la tabla:

fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Clculo del primer cuartil
Para la divisin en deciles y percentiles el tratamiento de los datos es el mismo,
solo basta con cambiar ciertos aspectos de la formula

Deciles

Percentiles
Desviacin media
Desviacin respecto a la media
La desviacin respecto a la media es la diferencia en valor absoluto
entre cada valor de la variable estadstica y la media aritmtica.

Di = |x -
|

Desviacin media

La desviacin media es la media aritmtica de los valores absolutos de las


desviaciones respecto a la media.

La desviacin media se representa por


Desviacin media
Ejemplo

Calcular la desviacin media de la distribucin:

9, 3, 8, 8, 9, 8, 9, 18

Paso 1: Media

Paso 2 :Desviacin media


Desviacin media para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la


expresin de la desviacin media es:
Ejemplo

Calcular la desviacin media de la distribucin:

xi fi xi fi |x -
| |x -
| fi
[10, 15) 12.5 3
[15, 20) 17.5 5
[20, 25) 22.5 7
[25, 30) 27.5 4
[30, 35) 32.5 2
N=21
Paso 1 Media

Paso 2 Desviacin en cada clase |xi -


|

Paso 3 Multiplicar cada desviacin por su respectiva frecuencia absoluta

|xi -
|*fi

Paso 4 determinar desviacin media


Varianza

La varianza es la media aritmtica del cuadrado de las desviaciones respecto a


la media de una distribucin estadstica.

La varianza se representa por: 2


Varianza para datos agrupados
Calcular la varianza de la distribucin:

9, 3, 8, 8, 9, 8, 9, 18
Calcular la varianza de la distribucin de la tabla:

fi
xi
[10, 20) 15
[20, 30) 25
[30,40) 35
[40, 50) 45
[50, 60 55
[60,70) 65
[70, 80) 75
Desviacin tpica o estndar

La desviacin tpica es la raz cuadrada de la varianza.

Es decir, la raz cuadrada de la media de los cuadrados de las


puntuaciones de desviacin.

La desviacin tpica se representa por


Desviacin tpica para datos agrupados
Calcular la desviacin tpica de la distribucin:

9, 3, 8, 8, 9, 8, 9, 18
Calcular la desviacin tpica de la distribucin
de la tabla:

xi fi
[10, 20) 15 4
[20, 30) 25 2
[30,40) 35 12
[40, 50) 45 10
[50, 60) 55 4
[60,70) 65 6
[70, 80) 75 3
Las temperaturas mximas en una ciudad durante el mes de junio fueron:

28 C, 29 C, 28 C, 30 C, 30 C, 29 C, 30 C, 31 C, 29 C, 29 C, 30 C, 31 C, 31 C, 31 C,
32 C, 33 C, 34 C, 34 C, 35 C, 31 C, 31 C, 32 C, 32 C, 33 C, 33 C, 31 C, 32 C, 32 C,
33 C, 33 C, 34 C.

Calcular:
Moda
Media
Mediana
Desviacin media
Varianza
Desviacin tpica
De la siguiente distribucin.

fi
[10, 15) 3
[15, 20) 5
[20, 25) 7
[25, 30) 4
[30, 35) 2

Calcular:
Moda
Media
Mediana
Desviacin media
Varianza
Desviacin tpica
Ejercicio tipo certamen

En un centro comercial, se consult la edad a todas las personas que


entraban entre las 12:00 h y 12:30 h. Los resultados obtenidos fueron los
siguientes

Se pide:
Construir tabla de distribucin de frecuencias, para datos agrupados en intervalos.
Realizar el Histograma correspondiente
Calcular: Moda, Mediana, Media, Desviacin media, varianza y desviacin tpica
Unidad 2

Anlisis de datos Bivariados


Descripcin entre variables cualitativas

Como ya sabemos la metodologa estadstica depende del tipo de


variable(s) que estemos analizando.

Realizaremos el estudio entre 2 variables cualitativas


Recuerde que las variables cualitativas son variables cuyas observaciones son cualidades o
categoras.
Algunas variables son cualitativas por naturaleza, tal como sexo, religin u ocupacin, otras
se convierten en categricas despus de que, a partir de una variable cuantitativa,
clasificamos las respuestas en categoras. Por ejemplo, medimos el peso de recin nacidos
en kilos y luego los clasificamos como "bajo peso" a los que nacen con menos de 2,5 kilos,
"normal a los que nacen entre 2,5 y 4,5 kilos y "sobrepeso" a los que nacen con ms de 4,5
kilos.
Tablas de contingencia o tablas de doble entrada.

Definicin: Una tabla de contingencia es una tabla donde los individuos de una
muestra se clasifican en funcin de dos variables cualitativas.

El trmino tabla de contingencia se refiere a que las tablas


construidas se usan para contrastar una asociacin o relacin entre
dos variables
Ejemplo.

Existir relacin entre el estado nutricional y el rendimiento acadmico de


estudiantes de enseanza bsica? Se midi el estado nutricional de 1000 nios de
enseanza bsica, el que fue clasificado como "malo", "regular", "bueno". El
rendimiento acadmico fue clasificado como bajo el promedio, promedio o
sobre el promedio.
Qu informacin podemos obtener de la tabla?

1. La distribucin marginal de cada variable:

La distribucin marginal del Estado Nutricional es:


Calcule la distribucin marginal del rendimiento acadmico.

Qu porcentaje de los nios de enseanza bsica


tienen:
a) un rendimiento acadmico sobre el promedio?
b) en el promedio?
c) bajo el promedio?
Definiciones:

La distribucin marginal de la variable fila se encuentra calculando los porcentajes


de cada fila en el gran total (tamao de la muestra).

La distribucin marginal de la variable columna se encuentra calculando el


porcentaje de cada columna en el gran total.
Qu otra informacin podemos obtener de la tabla?

La asociacin entre dos variables cualitativas se presenta calculando


algunos de los porcentajes
en la forma de distribucin condicional.
Definiciones:

La distribucin condicional de la variable fila, dada la variable columna,


se encuentra expresando los nmeros como porcentajes del total de la
columna.

La distribucin condicional de la variable columna, dada la variable fila,


se encuentra expresando los nmeros como porcentajes del total de la
fila.
La distribucin condicional de una variable dada otra variable:
Ejemplo.

Degustando cervezas

El Famoso Pub elabora y distribuye cervezas de tres tipos: suave, regular y negra. Para
investigar la relacin entre gnero y preferencia de cerveza selecciona una muestra de 450
bebedores de cerveza. Despus de probar los tres tipos de cerveza se les pregunt su
preferencia y se resumi la informacin en la siguiente tabla:
a) Describa brevemente qu representa el valor 30 en la tabla.
b) Entregue la distribucin condicional de la preferencia de cerveza dado el sexo.

c) Basado en sus clculos en (b) debera el "Famoso Pub" iniciar una campaa con todas sus
cervezas o debera diferenciar la promocin entre hombres y mujeres.
Perfil cardiovascular
En el ao 2005 un grupo de investigadores de la U. de Talca, realizan una
encuesta sobre perfil cardiovascular en la ciudad de Talca1. Se tiene una muestra
de personas entre 18 y 74 aos. Una de las preguntas de inters fue investigar si:
Existe asociacin entre el hbito de fumar y la edad?
Definiciones formales

Supongamos que se toma una muestra de tamao n de una poblacin


y que se desea estudiar, dos caractersticas de un mismo objeto .

Sean estas caractersticas X e Y. Siguiendo los procedimientos


habituales, la Muestra se divide en:

r clases Ai para la variable X


s clases Bj para la variables Y
Existirn elementos que pertenecern simultneamente a AiBj . Los
datos los podemos ordenar en una tabla o matriz llamada Tabla de
Contingencia

Tabla de contingencia de frecuencias absolutas


Tabla de contingencia de frecuencias relativas
nij = Frecuencia Absoluta de la clase conjunta AiBj .
(Valor observado en la celda (i,j) de la Tabla de Contingencia)

Frecuencia Relativa conjunta de la clase conjunta


= correspondiente a la interseccin de Ai y Bj .

La suma de todas las frecuencias relativas ser igual a 1


Nomenclatura
Frecuencias Marginales

Dado el experimento anterior, cuando slo interesa conocer la frecuencia de


ocurrencia de cada una de las variables por separado se habla de Frecuencia
Marginal de la variable X o Y

Frecuencia (relativa) marginal de la variable X, Conjunto de valores


pertenecientes a la clase Ai, considerndola independientemente de la clase
Bj

Frecuencia (relativa) marginal de la variable Y, Conjunto de valores


pertenecientes a la clase Bj, considerndola independientemente de la clase Ai
MEDIDAS DE RELACIN ENTRE VARIABLES CUANTITATIVAS

La covarianza se representa por sxy o xy.

Mide la relacin lineal entre dos variables y se expresa mediante la


siguiente frmula:
Propiedades:

Sxy es un valor que vara entre - y +

Si Sxy es positivo, entonces la correlacin es directa (a mayor valor de X, mayor valor


de Y) y, por tanto, la recta de regresin es ascendente.

Si Sxy es negativo, entonces la correlacin es inversa (a mayor valor de X, menor


valor de Y) y, por tanto, la recta de regresin es descendente.

Si Sxy es cero, entonces no hay correlacin entre X e Y.


La covarianza presenta como inconveniente, el hecho de que su valor depende
de la escala elegida para los ejes.
Es decir, la covarianza variar si expresamos la altura en metros o en
centmetros. Tambin variar si el dinero lo expresamos en euros o en dlares
Ejercicio

Las notas de 12 alumnos de una clase en Matemticas y Fsica son las


siguientes:

Hallar la covarianza de la distribucin.


Despus de tabular los datos hallamos las medias
aritmticas:
Los valores de dos variables X e Y se distribuyen segn la tabla siguiente:

Hallar la covarianza de la distribucin.


En primer lugar convertimos la tabla de doble entrada en tabla simple y
calculamos las medias aritmticas.
Correlacin

La correlacin trata de establecer la relacin o dependencia que existe


entre las dos variables que intervienen en una distribucin bidimensional.

Es decir, determinar si los cambios en una de las variables influyen en los


cambios de la otra. En caso de que suceda, diremos que las variables estn
correlacionadas o que hay correlacin entre ellas.
Tipos de correlacin

1 Correlacin directa

La correlacin directa se da cuando al aumentar una de las variables la


otra aumenta.

La recta correspondiente a la nube de puntos de la distribucin es una


recta creciente.
2 Correlacin inversa

La correlacin inversa se da cuando al aumentar una de las variables la


otra disminuye.

La recta correspondiente a la nube de puntos de la distribucin es una


recta decreciente.
3 Correlacin nula

La correlacin nula se da cuando no hay dependencia de ningn tipo entre las


variables.

En este caso se dice que las variables son incorreladas y la nube de puntos
tiene una forma redondeada.
Grado de correlacin

El grado de correlacin indica la proximidad que hay entre los puntos de


la nube de puntos. Se pueden dar tres tipos:

1. Correlacin fuerte

La correlacin ser fuerte cuanto ms cerca estn los puntos de la


recta.
2. Correlacin dbil

La correlacin ser dbil cuanto ms separados estn los puntos de la


recta.
3. Correlacin nula
Coeficiente de correlacin lineal o Coeficiente de correlacin de Pearson (rxy)

El coeficiente de correlacin lineal es el cociente entre la covarianza y el producto de las


desviaciones tpicas de ambas variables.

El coeficiente de correlacin lineal se expresa mediante la letra r.


Propiedades

1. El coeficiente de correlacin no vara al hacerlo la escala de medicin.

Es decir, si expresamos la altura en metros o en centmetros el coeficiente de correlacin


no vara.
2. El signo del coeficiente de correlacin es el mismo que el de la covarianza.

Si la covarianza es positiva, la correlacin es directa.

Si la covarianza es negativa, la correlacin es inversa.

Si la covarianza es nula, no existe correlacin.


3. El coeficiente de correlacin lineal es un nmero real comprendido entre 1 y 1.

1 r 1

4. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es


fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1.

5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es


fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1.
6. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es
dbil.
7. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente.
Entre ambas variables hay dependencia funcional.
Ejemplo
Hallar el coeficiente de correlacin de la distribucin
e interpretarlo.
1 Hallamos las medias aritmticas.

2 Calculamos la covarianza.

3 Calculamos las desviaciones tpicas.


4 Aplicamos la frmula del coeficiente de correlacin lineal.

Al ser el coeficiente de correlacin positivo, la correlacin es directa.

Como coeficiente de correlacin est muy prximo a 1 la correlacin es muy fuerte.


Calcule el coeficiente de correlacin de :

Convertimos la tabla de doble entrada en tabla simple.


P1
P2

P3

P4

P5
P6
Conclusin

Al ser el coeficiente de correlacin negativo, la correlacin es inversa.

Como coeficiente de correlacin est muy prximo a 0 la correlacin es muy


dbil.
Determinar coeficiente de correlacin
Grficos de dispersin

Grafico de puntos que relaciona la variable X e Y

Y en las Ordenandos
X en las abscisas
Desarrollas grafica de dispersin de la siguiente tabla.
Modelos de regresin lineal simple

Una vez que hemos obtenido el diagrama de dispersin y despus de observar


una posible relacin lineal entre las dos variables, el paso siguiente sera encontrar
la ecuacin de la recta que mejor se ajuste a la nube de puntos.

La recta de regresin pasa por el punto llamado centro de gravedad.


Una recta queda bien determinada si el valor de su pendiente (b) y de
la ordenada en el origen (a) son conocidas. De esta manera la
ecuacin de la recta viene dada por:

Y = a + bx

A partir de la frmula anterior definimos para cada observacin (xi, yi) el error
o residuo como la distancia vertical entre el punto (xi, yi) y la recta, es decir:

yi (a +
bxi)
Recta de regresin de Y sobre X

La recta de regresin de Y sobre X se utiliza para estimar los valores de la Y


a partir de los de la X.

La pendiente de la recta es el cociente entre la covarianza y la varianza de


la variable X.
Recta de regresin de X sobre Y

La recta de regresin de X sobre Y se utiliza para estimar los valores de la X a


partir de los de la Y.

La pendiente de la recta es el cociente entre la covarianza y la varianza de


la variable Y.
Si la correlacin es nula, r = 0, las rectas de regresin son perpendiculares entre s, y
sus ecuaciones son:
Ejercicio propuesto
Cinco nios de 2, 3, 5, 7 y 8 aos de edad pesan, respectivamente, 14, 20, 32,
42 y 44 kilos.

Hallar la ecuacin de la recta de regresin de la edad sobre el peso

Cul sera el peso aproximado de un nio de seis aos?


Unidad 3

Probabilidades
Probabilidad

La probabilidad de un suceso es un nmero, comprendido entre 0 y 1, que indica las


posibilidades que tiene de verificarse cuando se realiza un experimento aleatorio.

Experimentos deterministas

Son los experimentos de los que podemos predecir el resultado antes de que se
realicen.
Experimentos aleatorios

Son aquellos en los que no se puede predecir el resultado, ya que ste depende del azar.

Ejemplos
Teora de probabilidades

La teora de probabilidades se ocupa de asignar un cierto nmero a cada posible resultado


que pueda ocurrir en un experimento aleatorio, con el fin de cuantificar dichos resultados y
saber si un suceso es ms probable que otro. Con este fin, introduciremos algunas
definiciones:
Suceso Es cada uno de los resultados posibles de una
experiencia aleatoria.

Espacio muestral Es el conjunto de todos los posibles resultados de una


experiencia aleatoria, lo representaremos por E (o bien por la
letra griega ).

Suceso aleatorio Suceso aleatorio es cualquier subconjunto del espacio


muestral.
Un ejemplo completo

Una bolsa contiene bolas blancas y negras. Se extraen sucesivamente tres bolas.
Calcular:

El espacio muestral.

El suceso A = {extraer tres bolas del mismo color}.

El suceso B = {extraer al menos una bola blanca}.

El suceso C = {extraer una sola bola negra}.


Tipos de sucesos

Suceso elemental Suceso elemental es cada uno de los elementos que


forman parte del espacio muestral.

Ejemplo

Tirando un dado un suceso elemental es sacar 5.

Suceso compuesto Suceso compuesto es cualquier subconjunto del


espacio muestral.

Ejemplo

Tirando un dado un suceso sera que saliera par, otro, obtener


mltiplo de 3.
Suceso seguro Suceso seguro, E, est formado por todos los posibles resultados (es decir,
por el espacio muestral)

Ejemplo

Tirando un dado obtener una puntuacin que sea menor que 7.

Suceso imposible Suceso imposible, es el que no tiene ningn elemento.

Ejemplo

Tirando un dado obtener una puntuacin igual a 7.


Sucesos compatibles Dos sucesos, A y B, son compatibles cuando tienen algn suceso
elemental comn.

Ejemplo
Si A es sacar puntuacin par al tirar un dado y B es obtener mltiplo de 3, A y B son
compatibles porque el 6 es un suceso elemental comn.

Sucesos incompatibles Dos sucesos, A y B, son incompatibles cuando no tienen ningn


elemento en comn.
Ejemplo
Si A es sacar puntuacin par al tirar un dado y B es obtener mltiplo de 5, A y B son
incompatibles.
Sucesos independientes Dos sucesos, A y B, son independientes cuando la probabilidad de que
suceda A no se ve afectada porque haya sucedido o no B.
Ejemplo

Al lanzar dos dados los resultados son independientes.

Sucesos dependientes Dos sucesos, A y B, son dependientes cuando la probabilidad de que


suceda A se ve afectada porque haya sucedido o no B.

Ejemplo

Extraer dos cartas de una baraja, sin reposicin, son sucesos dependientes.
Suceso contrario El suceso contrario a A es otro suceso que se realiza cuando no se
realiza A. Se denota por

Ejemplo

Son sucesos contrarios sacar par e impar al lanzar un dado.


Unin de sucesos

La unin de sucesos, A B, es el suceso formado por todos los elementos de A y de B.

Es decir, el suceso A B se verifica cuando ocurre uno de los dos, A o B, o ambos.

A B se lee como "A o B"


Ejemplo

Consideramos el experimento que consiste en lanzar un dado, si A = "sacar par" y B = "sacar


mltiplo de 3". Calcular

A = {2, 4, 6}

B = {3, 6}

= {2, 3, 4, 6}
Interseccin de sucesos

La interseccin de sucesos, , es el suceso formado por todos los elementos que son,

a la vez, de A y B.

Es decir, el suceso se verifica cuando ocurren simultneamente A y B.

se lee como "A y B".


Ejemplo

Consideramos el experimento que consiste en lanzar un dado, si A = "sacar


par" y B = "sacar mltiplo de 3". Calcular

A = {2, 4, 6}

B = {3, 6}

= {6}
Diferencia de sucesos

La diferencia de sucesos, A B, es el suceso formado por todos los elementos de A que no


son de B

Es decir, la diferencia de los sucesos A y B se verifica cuando lo hace A y no B.

A B se lee como "A menos B".


Ejemplo

Consideramos el experimento que consiste en lanzar un dado, si A = "sacar par" y B = "sacar


mltiplo de 3". Calcular A B.

A = {2, 4, 6}

B = {3, 6}

A B = {2, 4}
Sucesos contrarios

El suceso = E - A se llama suceso contrario o complementario de A.

Es decir, se verifica siempre y cuando no se verifique A.

Consideramos el experimento que consiste en lanzar un dado, si A = "sacar par". Calcular

A = {2, 4, 6}
= {1, 3, 5}
Propiedades de la probabilidad

1.La probabilidad es positiva y menor o igual que 1.

2. La probabilidad del suceso seguro es 1.

3.Si A y B son incompatibles, es decir = entonces:


4. La suma de las probabilidades de un suceso y su contrario vale 1, por tanto la
probabilidad del suceso contrario es:

5. Probabilidad del suceso imposible es cero.

6. La probabilidad de la unin de dos sucesos es la suma de sus probabilidades


restndole la probabilidad de su interseccin.
Ejemplo.

La probabilidad de sacar par, al tirar un dado, es:

P(par) = P(2) + P(4) + P(6)


Ley de Laplace

Regla de Laplace

Si realizamos un experimento aleatorio en el que hay n sucesos elementales, todos


igualmente probables, equiprobables, entonces si A es un suceso, la probabilidad de que
ocurra el suceso A es:
Ejemplos

1.- Hallar la probabilidad de que al lanzar dos monedas al aire salgan dos
caras.

Casos posibles: {cc, cx, xc, xx}.

Casos favorables: 1.
2.- En una baraja de 40 cartas, hallar la P (as) y P (copas).

3.-Calcular la probabilidad de que al echar un dado al aire, salga:

a) Un nmero par.

b) Un mltiplo de tres.

c) Mayor que 4.
Distribucin de probabilidad

Una distribucin de probabilidad es una tabla en la cual se representan los resultados de un


experimento (elementos de un espacio muestral) con sus correspondientes probabilidades

Toda distribucin de probabilidad es generada por una variable aleatoria x, la que puede
ser de dos tipos:
1. Variable aleatoria discreta (x). Se le denomina variable porque puede tomar
diferentes valores, aleatoria, porque el valor tomado es totalmente al azar y discreta
porque solo puede tomar valores enteros y un nmero finito de ellos.
Ejemplos:
X-> Variable que nos define el nmero de burbujas por envase de vidrio que son generadas
en un proceso dado.
X->0, 1, 2, 3, 4, 5, etc, etc. burbujas por envase
X->Variable que nos define el nmero de productos defectuosos en un lote de 25
productos.
X->0, 1, 2, 3,....,25 productos defectuosos en el lote

X->Variable que nos define el nmero de alumnos aprobados en la materia de probabilidad


en un grupo de 40 alumnos.
X->0, 1, 2, 3, 4, 5,....,40 alumnos aprobados en probabilidad
2. Variable aleatoria continua (x). Se le denomina variable porque puede tomar
diferentes valores, aleatoria, porque los valores que toma son totalmente al azar y
continua porque puede tomar tanto valores enteros como fraccionarios y un nmero
infinito de ellos.

Ejemplos:

X->Variable que nos define el dimetro de un engrane en pulgadas


X->5.0, 4.99, 4.98, 5.0, 5.01, 5.0, 4.96

X->Variable que nos define la longitud de un cable o circuito utilizado en un arns de


auto
X->20.5 cm, 20.1, 20.0, 19.8, 20,6, 20.0, 20.0

X->Variable que nos define la concentracin en gramos de plata de algunas muestras de


mineral
X->14.8gramos, 12.0, 10.0, 42.3, 15.0, 18.4, 19.0, 21.0, 20.8
Distribucin Normal

En estadstica y probabilidad se llama distribucin normal, distribucin de Gauss o


distribucin gaussiana, a una de las distribuciones de probabilidad de variable
continua que con ms frecuencia aparece aproximada en fenmenos reales
Caractersticas de la distribucin normal

La media aritmtica, la mediana y la moda de la distribucin son iguales y estn


localizadas en la cima. De esta forma, la mitad del rea bajo la curva se encuentra por
arriba de este punto central, y la otra mitad por abajo.

La distribucin de probabilidad normal es simtrica con respecto a su media.

La curva normal decrece uniformemente en ambas direcciones a partir del valor


central. Es asinttica, esto significa que la curva se acerca cada vez ms al eje x, pero
en realidad nunca llega a tocarlo. Esto es, los puntos extremos de la curva se extienden
indefinidamente en ambas direcciones.
La distribucin de probabilidad normal estndar

La distribucin normal estndar es una distribucin normal con media cero y


desviacin estndar de 1.

Tambin es llamada distribucin z.

Un valor z es la distancia entre un valor seleccionado llamado x, y la media de la


poblacin , dividida entre la desviacin estndar, . La frmula es:

Z = (x )/
Ejemplo 1

El salario inicial de los primeros dos meses de los recin graduados de MBA siguen la
distribucin normal con una media de $2,000 y una desviacin estndar de $200.
Cul es el valor z para un salario de $2,200?

Z = (x )/s = (2,200 2,000)/200 = 1.00

Un valor z de 1 indica que el valor de $2,200 es una desviacin estndar


arriba de la media de $2,000.
Tabla de distribucin normal
Ejercicio usando tabla de distribucin normal

El tiempo promedio que los estudiantes demoran en llegar a la universidad es de 35


minutos con una desviacin estndar de 10 minutos

=35 = 10

a) Qu porcentaje de los estudiantes llega entre 35 y 50 minutos?


b) Qu porcentaje de los estudiantes llega entre 18 y 41 minutos?
c) Qu porcentaje de los estudiantes llega en mas de 28 minutos?
d) Qu porcentaje de los estudiantes llega en mas de 42.5 minutos
1.1) La tasa de rendimiento anual de ciertas acciones se distribuye aproximadamente
Normal. Desde el 1945, la bolsa de valores Standard & Poors 500 tiene un rendimiento
anual promedio de 12 % con una desviacin estndar de 16.5 %. Se toma esta distribucin
Normal para el rendimiento anual por largos periodos. En que proporcin de aos el mercado
baja?

1.2) Que porciento de aos tendra un rendimiento anual entre un 12 % y 50 %?


2) Un estudio antropolgico de una tribu del centro de frica ha constatado que la
longitud del dedo corazn de los adultos sigue una ley normal de media 60 mm y
varianza 9 mm. Si hay 800 adultos en esa tribu, determina cuntos tienen el dedo
corazn:

a) Mayor o igual de 62 mm

b) Menor o igual de 57 mm.

c) Entre 60 y 66 mm.
3) El peso terico de la tableta de cierto medicamento es de 234 mg. Si suponemos que los
pesos de la tabletas tienen una desviacin tpica de 10 mg por tableta y que se distribuyen
normalmente.

a) Cul ser el tanto por ciento de tabletas con peso menor o igual a 210 mg?

b) Cul ser el tanto por ciento de tabletas con peso superior o igual a 240 mg?
Ejercicios propuestos
1) Se sabe que el dinero que se gastan al ao los estudiantes de determinada universidad en
libros de texto sigue una distribucin normal de media 38.000 pesos y desviacin tpica 5.000
pesos.

a) Cul es la probabilidad de que un estudiante elegido aleatoriamente gaste menos de


40.000 pesos en libros de texto al ao?

b) Cul es la probabilidad de que un estudiante elegido aleatoriamente gaste ms de


36.000 pesos en libros de texto al ao?

c) Dibujar un grfico que ilustre que las probabilidades en los apartados (a) y (b) son iguales.

d) Cul es la probabilidad de que un estudiante elegido aleatoriamente gaste entre 30.000


y 40.000 pesos en libros de texto al ao?

.
2) La vida til de un neumtico de determinada marca sigue una distribucin normal con
media 35.000 kilmetros y desviacin tpica 4.000 kilmetros.

a) Qu proporcin de estos neumticos tiene un tiempo de vida superior a 38.000


kilmetros?

b) Qu proporcin de estos neumticos tiene un tiempo de vida inferior a 32.000


kilmetros?

c) Qu proporcin de estos neumticos tiene un tiempo de vida entre 32.000 y 38.000


kilmetros?

d) Dibujar un grfico con la funcin de densidad de los tiempos de vida, ilustrando

(i) Por qu las respuestas de las preguntas (a) y (b) son iguales
(ii) Por qu las respuestas de las preguntas (a), (b) y (c) suman uno.
Distribucin muestral

El estudio de determinadas caractersticas de una poblacin se efecta a travs de diversas


muestras que pueden extraerse de ella.

El muestreo puede hacerse con o sin reposicin, y la poblacin de partida puede ser infinita
o finita. Una poblacin finita en la que se efecta muestreo con reposicin puede
considerarse infinita tericamente. Tambin, a efectos prcticos, una poblacin muy grande
puede considerarse como infinita. En todo nuestro estudio vamos a limitarnos a una
poblacin de partida infinita o a muestreo con reposicin.
Consideremos todas las posibles muestras de tamao n en una poblacin. Para cada
muestra podemos calcular un estadstico (media, desviacin tpica, proporcin,...) que
variar de una a otra. As obtenemos una distribucin del estadstico que se llama distribucin
muestral.

Las dos medidas fundamentales de esta distribucin son la media y la desviacin tpica,
tambin denominada error tpico.

Hay que hacer notar que si el tamao de la muestra es lo suficientemente grande las
distribuciones muestrales son normales y en esto se basarn todos los resultados que
alcancemos.
DISTRIBUCIN MUESTRAL DE MEDIAS

Cada muestra de tamao n que podemos extraer de una poblacin proporciona una
media. Si consideramos cada una de estas medias como valores de una variable aleatoria
podemos estudiar su distribucin que llamaremos distribucin muestral de medias.

Si tenemos una poblacin normal N(m,s) y extraemos de ella muestras de tamao n,


la distribucin muestral de medias sigue tambin una distribucin normal
Ejemplo.

1) Las notas de cierto examen se distribuyen segn una normal de media 5,8 y
desviacin tpica 2,4. Hallar la probabilidad de que la media de una muestra tomada
al azar de 16 estudiantes est comprendida entre 5 y 7

La poblacin es N(5,8;2,4), con n=16 la distribucin muestral de


medias se distribuye N(5,8;0,6)
Ejercicio

1) La duracin de las bombillas producidas por un cierto fabricante tiene una media de
mil doscientas horas y una desviacin tpica de cuatrocientas horas.
La poblacin sigue una distribucin normal. Supongamos que t has comprado nueve
bombillas, que pueden ser consideradas como una muestra aleatoria de la produccin
del fabricante.
a) Cul es la media de la media muestral de la duracin de estas bombillas?
b) Cul es la varianza de la media muestral?
c) Cul es el error estndar de la media muestral?
d) Cul es la probabilidad de que el tiempo medio de duracin de tus bombillas
sea de menos de mil cincuenta horas?

You might also like