Professional Documents
Culture Documents
Estel, Nicaragua
UNIVERSIDAD NACIONAL DE INGENIERA
30
20
10
0
13
20
27
34
41
R23 n (k +1)
k
12
2
X=
nk ( k +1 ) j=1
/03/2010
48
55
62
69
76
UNI Norte
Tabla de contenido
Captulo 1. Estadstica Descriptiva............................................................................4
1.1 Introduccin. Tipos de Variables..............................................................................4
1.2 Anlisis de datos, Tablas de Distribucin de frecuencias y Tablas de Contingencia
.......................................................................................................................................7
1.3 Grficos..................................................................................................................17
1.4 Medidas de Tendencia Central.............................................................................23
Media Aritmtica.......................................................................................................24
La Mediana...............................................................................................................25
La Moda....................................................................................................................26
Otras medidas de tendencia central........................................................................28
La Media Geomtrica...............................................................................................28
La Media Cuadrtica................................................................................................28
Cuartiles, Deciles y Percentiles................................................................................28
1.5 Medidas de Dispersin o de Variabilidad..............................................................30
El Rango...................................................................................................................30
El Desvo Estndar...................................................................................................30
La Varianza...............................................................................................................32
El Coeficiente de variacin.......................................................................................32
1.6 Otras medidas tiles en Estadstica Descriptiva..................................................33
La Asimetra o Sesgo...............................................................................................33
La Curtosis...............................................................................................................35
1.7 Muestras y Poblacin.............................................................................................36
Muestreo Aleatorio Simple.......................................................................................37
Muestreo Estratificado..............................................................................................39
Muestreo por Conglomerados..................................................................................40
Muestreo Sistemtico...............................................................................................41
Captulo 2. Teora Elemental de Probabilidades.....................................................42
2.1 Introduccin a las Probabilidades..........................................................................42
Estadstica Bsica para Ingenieros
UNI Norte
UNI Norte
abstraer datos. Una definicin que describe la estadstica de manera utilitaria es la que
dice que es: un conjunto de tcnicas para describir grupos de datos y para tomar
decisiones en ausencia de una informacin completa. La estadstica a diferencia de la
matemtica no genera resultados exactos, los resultados siempre tienen asociada un
grado de incertidumbre o error. La estadstica trata de lograr una aproximacin de la
Estadstica Bsica para Ingenieros
UNI Norte
realidad, la cual es siempre mucho ms compleja y rica que el modelo que podemos
abstraer. Si bien esta ciencia es ideal para describir procesos cuantitativos, tiene serios
problemas para explicar el porqu cualitativo de las cosas
En general podemos hablar de dos tipos de estadsticas, las
Tipos
Tipos de
de
Variable
Variable
s
s
Cualitativ
Cualitativ
as
as
Nominal
Nominal
es
es
Ordinale
Ordinale
s
s
Cuantitati
Cuantitati
vas
vas
Continu
Continu
as
as
Discreta
Discreta
s
s
UNI Norte
ordenamiento de datos en fila y columnas donde cada fila es un individuo, una parcela,
una muestra, una unidad experimental o una encuesta determinada y cada columna:
una variable. Los programas Access, Excel, Infostat y SPSS ordenan los datos en
forma de matriz. Por ejemplo en una encuesta (cuestionario) cada pregunta que se
tiene, genera al menos, una variable generalmente discreta. Hay casos donde una
UNI Norte
pregunta puede generar muchas variables de tipo dicotmico, SI- NO, que se suele
codificar como 1= SI y 0= NO.
Ejercicio 1.1: Construya variables relacionadas con su carrera, 5 nominales, 5
ordinales, 5 continuas y 5 ordinales.
Ejercicio 1.2 Clasifique las siguientes variables.
Peso de un estudiante.
Color de ojos.
Temperatura semanal.
Tipo de techo.
Dimetro de un tornillo
Creacin de
la matriz de
datos
Definicin de
anlisis a
realizar
Ejecucin de
anlisis en
computadora
Interpretaci
n de
resultados
Luis Mara Dicovskiy Riobo
UNI Norte
Una primera tarea luego de construir una tabla o matriz de datos, es explorarlos
buscando informacin atpica o anormal y corregir los casos que la informacin atpica
se deba a una mala digitacin o error en la recoleccin de datos.
Lo siguiente para observar el comportamiento de los datos es realizar una distribucin
frecuencias en forma de tabla y grficos. Para esto, los datos se agrupan en clases o
categoras y para grupo se calcula las frecuencias absolutas y relativas.
En este momento es importante poder definir el tipo de escala de medicin usada,
sucesin de medidas que permite organizar datos o para agrupar los datos, en este
sentido se pueden reconocer diferentes escalas:
Las Escalas Ordinales, son discontinuas y se usan donde hay un orden jerrquico
de un conjunto de objetos o eventos con respecto a algn atributo especfico, por
ejemplo ordenar los ingresos en tres niveles: alto =1, medio = 2 y bajo = 3.
UNI Norte
Las Escala de Razn Constante, tienen todas las propiedades de las Escalas de
intervalos ms un cero absoluto, por ejemplo las medidas de tiempo, peso y
distancia, el valor 0 representa ausencia del valor.
Un caso especial de escala ordinal es la escala de Likert, esta escala es muy usada en
las ciencias sociales y se usa para medir actitudes, Una actitud es una predisposicin
aprendida par responder consistentemente de una manera favorable o desfavorable
ante un objeto de sus smbolos. As las personas tenemos actitudes hacia muy
diversos objetos o smbolos, por ejemplo: actitudes hacia la poltica econmica, un
profesor, la ley, nosotros, etc. Las actitudes estn relacionadas con el comportamiento
que mantenemos. Estas mediciones de actitudes deben interpretarse como sntomas
y no como hechos. Esta escala es bipolar porque mide tanto el grado positivo como
negativo de cada enunciado y consiste en un conjunto de tem presentado en forma de
afirmaciones o juicios ante los cuales se pide reaccin a los sujetos en estudio en una
escala de 5 puntos, cada punto tiene un valor numrico. Un ejemplo de cmo calificar
con afirmaciones positivas es Le gusta cmo se imparte la clase de estadstica?:
1- Muy en desacuerdo, 2- En desacuerdo, 3- Ni de acuerdo, ni en desacuerdo,
4- De acuerdo, 5-Muy de acuerdo.
Estar de acuerdo con la idea presentada significa un puntaje mayor.
Ejercicio 1.3: entre los participantes de la clases tomar
datos de 15 variables al
menos por ejemplo: Edad, Sexo, Procedencia, etc. Y luego ordnelos en forma de
matriz de datos, recodifique la informacin cualitativa en numrica.
Estadstica Bsica para Ingenieros
UNI Norte
las
realiza un
10
UNI Norte
Para crear una base de datos hay que recordar que se est obteniendo una matriz de
datos donde en la primera fila se tiene el nombre abreviado de la variable y en el resto
de las filas los datos para cada
Sexo
Edad
Ingresos
Comunidad
semanales C$
1
1
31
1,394
2
1
35
1,311
3
1
43
1,300
4
1
28
1,304
5
2
45
1,310
6
2
36
1,443
7
2
21
1,536
8
2
32
1,823
Esta matriz se codifica as: la variable Sexo: 1= varn, 2 =
Labor
realizada
2
3
4
2
2
3
3
1
1
3
2
2
2
3
1
3
mujer. Para la variable
discuta las posibles respuestas, diga si las preguntas estn bien formuladas, sugiera si
alguna de ellas est de ms y que preguntas propone para completar la informacin.
Hoja de Encuesta
Nmero de ficha___________
Fecha: ______________________________________________________
Primer Apellido_______________ Segundo Apellido___________________________
Estadstica Bsica para Ingenieros
11
UNI Norte
Nombres:________________________ Ao____________
Direccin: _____________________________________________________
Estado Civil: _____ Nmero de personas que habitan la vivienda________________
Nivel de estudio de ellos ______________Edad de cada una de ellos________
Profesin: _____________________________________________________
Ejercicio 1.5:
Defina variables para caracterizar a los estudiantes del curso con el objetivo de
determinar posibles causas que tengan influencia en el rendimiento acadmico
del grupo.
12
UNI Norte
13
UNI Norte
menor), con un valor que debe variar entre 5 y 20. Hay que utilizar ms clases cuando
se tiene ms datos disponibles, si el nmero de clases es muy grande es posible tener
muchas clases vacas, si es demasiado pequeo podran quedar ocultas caractersticas
importantes de los datos al agruparlos. Se tendra que determinar el nmero de clases
a partir de la cantidad de datos presente y de su uniformidad, en general con menos de
treinta datos se usa una TDF con 5 clases, para tener un criterio sobre el nmero de
clases en funcin del nmero de datos ver la tabla siguiente .
Tabla para determinar el nmero de clases de una TDF
Nmero datos
30-50
51-100
101-250
+250
Nmero de clases
5-7
6-10
7-12
10-20
El valor central de una clase se llama marca de clase, este valor se usa para construir
los grficos de polgonos de frecuencia. Veamos un ejemplo de cmo se construye una
Tabla de Distribucin de Frecuencias. Es importante resaltar que con las variables
nominales no se construyen intervalos, lmites marcas de clase, esto no tiene sentido
con este tipo de variable.
Ejemplo con Datos de ingresos de 24 familias. Variable: Ingresos semanales en C$
por familia, n = 24 datos.
1,450
1,480
1,425
1,304
Secuencia de actividades
1,443
1,355
1,360
1,260
1,536
1,350
1,430
1,328
1,394
1,430
1,450
1,304
1,623
1,520
1,680
1,360
1,650
1,550
1,540
1,600
Se calcula el Rango de los datos, valor mayor menos valor menor: 1680- 1,260 =
420 C$.
Ancho de clase: El rango se divide en cuatro, 420/4= 105 C$, se ajusta a 100 C$ y
semiabiertos,
Luego se cuentan las frecuencias por clase, esto es la Frecuencia Absoluta
14
UNI Norte
Clase
Lmite
Lim. Superior
Marca de
Frecuencia
Frecuencia
Frecuencia
Inferior
Menor a
clase
Absoluta
Relativa
Acumulada
Igual a
1
2
3
4
5
1,200
1,300
1,400
1,500
1,600
<1,300
<1,400
<1,500
<1,600
<1,700
1,250
1,350
1,450
1,550
1,650
Total
Ejemplo de grfico construido con estos datos
1
8
7
4
4
24
Texto..
0.04
0.33
0.29
0.17
0.17
1.00
1
9
16
20
24
0.35
frecuencia relativa
0.28
0.21
0.14
0.07
0.00
1100
1200
1300
1400
1500
1600
1700
1800
C$
15
UNI Norte
una de
En columnas: Beca
En columnas: Beca
Sexo No
Si
Total
Sexo No
Si
Total
Mujer 10
17
Mujer 0.59
0.41
1.00
Varn 7
14
Varn 0.50
0.50
1.00
Total 17
14
31
Total 0.55
0.45
1.00
16
UNI Norte
Ejercicio 1.6 Realizar una tabla de frecuencias con una variable discreta (contable) y
una variable continua (medible) de la matriz generada con los datos obtenidos en
clase. Con dos variables cualitativas construye una tabla de contingencia.
1.3 Grficos
Los grficos nos permiten presentar la informacin que dan los datos de manera
rpida, resumida y fcil de entender. Los grficos se pueden clasificar de mltiples
maneras pero en ste texto los consideraremos como: univariados, bivariados y
multivariados, segn el nmero de variables involucradas.
Grficos univariados, Ejemplo de edad de una muestra de personas, datos presentados
en forma de Histograma de frecuencias. En este grfico las barras se encuentran
unidas, no habiendo espacio entre las barras. Para su construccin primero se tiene
que hacer una tabla de distribucin de frecuencias, TDF, donde se precisen los lmites
reales de frecuencia, que se usan para construir las barras. El centro de cada barra es
la marca de clase, esta medida se usa para construir polgonos.
40
Frecuencia de personas
30
20
10
0
0
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Edad
17
UNI Norte
598 personas de origen rural. Este Grfico creado con frecuencias y porcentajes,
permite resaltar segmentos de clases determinadas.
otros
19%
primaria
45%
ninguno
15%
secundaria
21%
18
UNI Norte
75.5
75.2
75.0
74.5
74.0
Nota Promedio
73.5
73.5
73.0
73.0
72.5
72.5
72.0
Matematica
Contabilidad
Programacin
Algebra
Asignatura
19
UNI Norte
30
20
10
0
13
20
27
34
41
48
55
62
69
76
120
100
98
eficiente la informacin de
80
hasta 6 o 7 variables. Es
ideal
60
para
usar
con
escala
43
Likert o variables
dicotmica, SI y NO.
30
20
19
0
Escuela Cercana
Agua Potable
Electricidad
Telfono
Asistencia Mdica
20
UNI Norte
50
46
40
contingencia de frecuencias
41
30
independencia.
23
20
Porcentaje
19
Sexo
13
10
9
varn
mujer
primaria
secundaria
universitario
solo lee
Nivel educativo
simplifica
diseo.
Se
el
puede
construir
frecuencias
con
o
porcentajes
21
UNI Norte
Un
Grfico
permite
ver
rpidamente lo que dicen los datos
Ejercicio 1.7. Realizar un grfico de barras y un grfico de Pastel a partir de los datos
recolectados en clase.
xi
1
xn
Siendo x un valor de una medicin de la variable en estudio e i un ndice que vara
de 1 a n .El nmero de datos de la muestra se identifica con la letra n.
22
UNI Norte
Media Aritmtica
La media aritmtica o simplemente media de un conjunto de mediciones es la medida
de tendencia central ms usada y conocida. Esta medida se simboliza como x (x con
raya) cuando representa la media muestral y como (letra griega minscula) para
representar la media poblacional. x o es la suma de todos los valores de la
muestra o poblacin divididos por el nmero de casos. En el caso de la media muestral
esta es igual a: x (x1 + x2 + x3 ++ xn)/ n donde n es el nmero de datos de la
muestra y x el valor numrico del dato. La frmula simplificada de la media es:
n
x
x =
, donde
xf
x =
Media Aritmtica
x
x =
Muestral
x
=
Poblacional
23
UNI Norte
Variable Nota = xi
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
10
1
xi
Valor de xi
62
68
92
88
55
79
89
92
67
69
761.
10
1
xi
La Mediana
La segunda medida de tendencia central es la mediana. La mediana m de un
conjunto de mediciones x1, x2, x3,...., xn es el valor de x que se encuentra en el punto
medio o centro cuando se ordenan los valores de menor a mayor.
Si las mediciones de un conjunto de datos se ordenan de menor a mayor valor y n es
impar, la mediana corresponder a la medicin con el orden (n + 1) / 2. Si el nmero
de mediciones es par, n = par, la mediana se escoge como el valor de x a la mitad de
las dos mediciones centrales, es decir como el valor central entre la medicin con
rango n/2 y la que tiene rango (n/2) + 1.
Reglas para calcular la mediana
Ordenar las mediciones de menor a mayor
24
UNI Norte
Datos ordenados
1
2
3
4
5
6
7
8
9
10
Valor de xi
55
62
67
68
69
79
88
89
92
92
La Moda
La moda es la medida de tendencia central ms fcil de calcular y tambin es la ms
sujeta a fluctuaciones cuando cambian unos pocos valores de la distribucin. Por esta
razn la moda se suele usar para una evaluacin rpida de la tendencia central. La
moda se define como el valor ms frecuente de una distribucin. En una tabla de
frecuencias, la frecuencia mayor es la que contiene a la moda. Esta medida se usa ms
y tiene ms sentido cuando se describen datos nominales, de hecho es la nica
medida de tendencia central que funciona con este tipo de escala.
25
UNI Norte
26
UNI Norte
x g n x1 x2 x3..xn
Una ventaja de su uso es que considera todos los valores de la distribucin y es menos
sensible que la media aritmtica a los valores extremos, sin embargo es de clculo
complicado y si un valor vale 0 se anula.
La Media Cuadrtica.
Se construye a partir de suma de los cuadrados de un conjunto de valores. Su forma de
xc
clculo es
xc
4 2 52 4 2 6 2
4.81
4
27
UNI Norte
anmalos de la distribucin.
Diagrama de caja, variable: cantidad de carne consumida por ao.
18.7
Kg
14.9
11.2
Mediana
7.5
3.7
28
UNI Norte
El Rango.
El Rango, Recorrido o Amplitud de un conjunto de mediciones, es la diferencia entre el
valor mayor y el valor menor, indica el nmero necesario y mnimo de unidades, en la
escala de medicin, para incluir los valores mnimo y mximo. Es la medida de
dispersin ms fcil de calcular, pero tambin es la menos estable al estar fuertemente
influenciada por valores extremos atpicos.
Cuanto ms grande es el rango, mayor ser la dispersin de los datos de una
distribucin. Es adecuada para medir la variacin de pequeos conjuntos de datos.
El Desvo Estndar.
El Desvo Estndar es la medida de dispersin ms ampliamente usada y es la ms
estable ya que depende de todos los valores de la distribucin. Es la media de
Estadstica Bsica para Ingenieros
29
UNI Norte
desviacin de los valores con respecto a la media, aunque una definicin completa
sera: la raz cuadrada de la suma de las desviaciones alrededor de la media, elevadas
al cuadrado y divididas entre el nmero de casos menos uno en el caso de S.
( (
N
x i ) /N
( (
n
S=
x ix )2 /(n1)
30
UNI Norte
S=
( )
x
x 2
n1
S=
(x i x )2 f i
i=1
n1
((55 76.1) 2 (62 76.1) 2 (67 76.1) 2 (68 76.1) 2 (69 76.1) 2 (79 76.1) 2
(88 76.1) 2 (89 76.1) 2 (92 76.1) 2 (92 76.1) 2 ) / 9
S=
= 13.6
Se sugiere hacer estos clculos usando una calculadora cientfica en funcin
estadstica.
La Varianza.
La varianza es el desvo estndar elevado al cuadrado y se simboliza con S 2 cuando
es muestral, o 2 cuando es poblacional. Este es una medida que se usa en muchas
pruebas de Hiptesis estadsticas, por ejemplo el Anlisis de Varianza, ANDEVA que
se basa en la descomposicin y relacin de las varianzas de las causas de variacin de
31
UNI Norte
los datos. Pero para fines descriptivos se prefiere usar el desvo estndar en vez de la
varianza, que suele ser un valor mayor y difcil de interpretar.
El Coeficiente de variacin
El coeficiente de variacin, CV, es un cociente entre el desvo estndar y la media de
los datos, expresado en porcentaje,
S
100 . Este
X
( )
CV =
coeficiente permite
32
UNI Norte
La Asimetra o Sesgo.
La Asimetra es una medida necesaria para conocer cunto se parece nuestra
distribucin a la distribucin terica de una curva normal, curva con forma de
campana,
Sesgo=
3( x Moda)
S
3( x Me )
S
33
UNI Norte
frecuencia relativa
0.34
Asimetria 0.93
0.25
0.17
0.08
0.00
15
22
28
34
41
47
54
60
Cereal
La Curtosis.
La curtosis es una medida que indica o mide lo plano o puntiaguda que es una curva
de distribucin. Cuando esta es cero, curtosis = 0, significa que se trata de una curva
Normal. Si es positiva, quiere decir que la curva o distribucin o polgono es ms
puntiaguda o levantada que la curva normal (curva leptocrtica). Si es negativa quiere
decir que es ms plana (curva mesocrtica).
n
( xi x )4
Curtosis =
i=1
n
S4
34
UNI Norte
Definicin:
Las medidas calculadas a partir de la poblacin, Ej. y se llaman
PARMETROS
Las medidas calculadas a partir de las muestras, Ej. x S se llaman
ESTADSTICOS
Ejercicio 1.8:
Tomando como fuente de datos las variables continuas recolectadas a partir de los
datos que generen los estudiantes en clase deben construir:
distribucin de frecuencias.
espacios:
Ejercicio 1.9:
Se tiene los datos de 30 aos de precipitaciones de San Ramn, Matagalpa. Calcule
los datos promedios y el coeficiente de variacin
de los 30 aos
y de forma
quinquenal (cada 5 aos). Haga una tabla de los valores mximos y mnimos
quinquenales. Comente si observa alguna tendencia de variacin de lluvias.
Datos de precipitaciones, San Ramn Matagalpa
Ao
1970
1971
1972
1973
1974
mm
1793
1610
1126
1647
1344
Ao
mm
1980
2373
1981
1854
1982
1470
1983
1185
1984
1522
Ao
mm
1990
1583
1991
1302
1992
1651
1993
2250
1994
1361
Luis Mara Dicovskiy Riobo
35
UNI Norte
1975
1976
1977
1978
1979
1820
974
1248
1530
1164
1985
1986
1987
1988
1989
1154
1383
1335
2266
1038
1995
1996
1997
1998
1999
2072
1869
1499
2980
2175
36
UNI Norte
El muestreo aleatorio simple debe utilizarse cuando los elementos de la poblacin son
homogneo respecto a las caractersticas a estudiar, es decir a priori no conocemos
que elementos de la poblacin tendrn valores altos de ella. El primer problema al
aplicar esta forma de muestreo, es calcular el n, nmero de de elementos de la
muestra.
Clculo de n por ecuacin predeterminada: Cuando la fraccin n / N a priori se
determina que ser
aproximada es el siguiente:
n=
Npq
( N 1 ) D+ pq
Donde:
Si bien este modelo es bastante terico es un mtodo muy usado para aproximar un
valor de n entrevistados, cuando se realiza investigacin social para determinar el
tamao de muestra de un lote de piezas donde lo que se evala es si stas estn
defectuosas o no, muestreo por atributos.
Clculo de n Grficamente: Se sabe que a ms grande la muestra mejor sta
estima la media de la poblacin, sin embargo hay un momento que la media que se
calcula a partir de la muestra casi no cambia, aunque sta aumente de tamao, en ese
momento el tamao de la muestra comienza a ser ptimo.
37
UNI Norte
68
82
88
65
79
89
92
67
69
75
79
71
78
75
x1
x2
x3
x4
x5
x6
x7
x8
x9
x1
x1
x1
x1
x1
x1
77
77
77
77
77
77
72
70
74
77
75
76
78
79
78
79
nota
77
75
72
70
p1
p2
p3
p4
p5
p6
p7
p8
p9
promedio
p10
p11
p12
p13
p14
p15
% de piezas de la
muestra
60-300
301-1000
Estadstica Bsica para Ingenieros
10
5
Luis Mara Dicovskiy Riobo
38
UNI Norte
1001-5000
+ 5000
2
1
Muestreo Estratificado
Se denomina muestra estratificada aqul en que los elementos de la poblacin se
dividen en clases o estratos. La muestra se toma asignando un nmero o cuota de
miembros a cada estrato y escogiendo los elementos por muestreo aleatorio simple
dentro del estrato.
Cuando dispongamos de informacin sobre la poblacin conviene tenerla en cuenta al
seleccionar la muestra. Un ejemplo clsico son las encuestas de opinin, donde los
elementos (personas) son heterogneas en algunas variables como: sexo, edad,
profesin, etc. Interesa en estos casos que la muestra tenga una composicin anloga
a la poblacin, lo que se consigue mediante una muestra estratificada. En concreto si
existen k estratos de tamao N1...Nk y tales que N = N1 + N2 +....+ Nk se tomar una
muestra n que garantice una presencia adecuada de cada estrato n i.
Una forma sencilla para dividir el tamao total de la muestra n entre los estratos de
ni es por el Mtodo de Asignacin Proporcional, el cual toma en cuenta el tamao
relativo del estrato de la poblacin, por ejemplo si en la poblacin hay un 55 % de
mujeres y un 45 % de hombres, mantendremos esta proporcin en la muestra. En
general se har de la manera ni= n Ni/N.
39
UNI Norte
Muestreo Sistemtico
Cuando los elementos de la poblacin estn en una lista o un censo, se puede utilizar
el muestreo sistemtico. Supongamos que tenemos una poblacin de tamao N y se
desea una muestra de tamao n y sea K un valor entero ms prximo a la relacin
n/N. La muestra sistemtica se toma eligiendo al azar, con nmeros aleatorios, un
elemento entre los primeros K elementos y se denomina n 1. El muestreo se realiza
seleccionando los elementos (n 1 + K); (n1 + 2 K), etc. a intervalos fijos de K hasta
completar la muestra. Si el orden de los elementos en la lista es al azar, este
40
UNI Norte
41
UNI Norte
Construir ejemplos del uso del teorema de Bayes al describir situaciones de nuestro
entorno profesional.
los
mismos.
Esta
ciencia
comenz
Sin
42
UNI Norte
43
UNI Norte
P ( A )=lim
n
n( A)
n
0 P(A) 1
Tiene dos reglas bsicas que la estructuran: la regla del producto y la regla de la
suma.
44
UNI Norte
P( A B) ,
Regla de la Suma.
Para que dos eventos A y B se puedan sumar directamente, estos deben ser
incompatibles, esto quiere decir que los eventos A y B no pueden ocurrir al mismo,
tiempo
45
UNI Norte
Ejemplo, si se arroja dos veces una moneda al aire, la probabilidad que salga una vez
escudo y el otro nmero sin importar el orden, es la probabilidad de los eventos
escudo, nmero y nmero, escudo. Debido a que son cuatro los eventos posibles
= 0.25,
de
46
UNI Norte
Si p (B) 0
La condicin que P (B) > 0, esto es necesario para una buena definicin de
probabilidad condicional. Es de notar que si A y B son sucesos independientes, la P
(A\B) es igual a la P(A), es otro enfoque de mirar independencia. Cmo regla general
se enuncia que:
Dos eventos A y B son independientes si y slo si: P (A\B) = P (A) y P (B\A) = P (B)
que es lo mismo:
A
De lo anterior se deduce que:
P ( A B ) =P
= P(A) x P (B)
Ejemplo: Se conoce que los estudiantes de la UNI tienen las siguientes preferencias
en el consumo de gaseosas:
Consumo de Gaseosas
por semana
No consume
1-5 veces
Ms de 5 veces
Total
Varones
Mujeres
30
50
20
100
10
25
15
50
Total
40
75
35
150
se selecciona al azar un
estudiante varn Cul es la probabilidad que ese que ese joven halla consumido ms
Estadstica Bsica para Ingenieros
47
UNI Norte
P(C+5 S v )
P( S v )
Varn
20
30
56
106
Mujer
20
30
44
94
Cul es la probabilidad que un estudiante, sin importar el sexo, sea del aula B?
Cul es la probabilidad que un estudiante que pasa por el corredor sea del aula A, si
el estudiante es mujer?
2.5
En un aula hay 6 estudiantes realizando un examen, dos son mujeres y cuatro son
varones. Cul es la probabilidad que finalice una mujer de segunda dado que el
primero en finalizar fue un hombre?
Si la solucin es:
P
Explicar cmo se construyeron los valores 8/30 y 4/6?
48
UNI Norte
A1 A2 ... An = y Ai Aj = i j
A1
A2
An
Y si el conjunto de sucesos Ai que forman una particin del espacio muestral y sucede
que p (Ai) 0 Ai. Entonces si ocurre un suceso B dentro del mismo espacio muestral
y se cumple que:
P ( B ) =P ( B A1 ) + P ( B A 2 ) +..+ P ( B A n)
A1
A2
B
An
49
UNI Norte
B {A
.
P( i)
P ( B ) =P ( 1 ) P ( A 1 ) + P ( 2 ) P ( A2 ) +..+ P ( n ) P ( A n )= P ( i ) P( Ai )
i=1
Ai
B{A
B{A
P
Ejemplo con los datos de preferencias de consumo de gaseosas de los estudiantes de
la UNI se puede construir el siguiente diagrama de Bayes:
Estadstica Bsica para Ingenieros
50
UNI Norte
P= 0.27
P= 0.50
P= 0.23
Varn
Mujer
P= 0.25
No Consume
P= 0.33
P= 0.43
Mujer
1-5 Gaseosas
+ 5 Gaseosas
Resolviendo por Bayes, la probabilidad que una mujer no consuma gaseosas es:
NoC
P(NoC )
P
P
NoC
P
Ejercicio resuelto usando el teorema de Bayes:
Tres mquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del total de
las piezas producidas en una fbrica. Los porcentajes de produccin defectuosa de
estas mquinas son del 3%, 4% y 5%.
51
UNI Norte
Prob.
Mquina
Prob.
Tipo de
produccin
0.45
0.30
0.03
0.97
0.04
52
UNI Norte
0.25
0.96
0.05
0.095
D)
D)
P(A)P
P ( B) P
P
0.3(0.04)
12
= =0.316
(
)
(
)
0.45 0.03 + 0.3 0.04 +0.25( 0.05) 38
c. Calculamos P(A\D) y P(C\D), comparndolas con el valor de P(B\D) ya
calculado. Aplicando el teorema de Bayes, obtenemos:
53
UNI Norte
P
La mquina con mayor probabilidad de haber producido la pieza defectuosa es la A, sin
embargo las tres mquinas tienen probabilidades semejantes de producir piezas
defectuosas
Ejercicio 2.6 El reporte meteorolgico ha anunciado tres posibilidades para el da de
maana: que llueva: probabilidad del 50%, que salga el sol: probabilidad del 30% y
que est nublado: probabilidad del 20%.
Segn estos posibles estados meteorolgicos y datos histricos de comportamiento
vehicular, la posibilidad de que ocurra un accidente es la siguiente: si llueve:
probabilidad de accidente del 20%, si sale el sol: probabilidad de accidente del 10% y si
est nublado: probabilidad de accidente del 5%.
Si se sabe que ocurri un accidente,
Cul es la probabilidad de que haya llovido?
Cul es la probabilidad de que haya salido el sol?
Cul es la probabilidad de que haya estado nublado?
Ejercicio 2.7 Cierto artculo es manufacturado por tres fbricas: F1, F2 y F3. Se sabe
que la primera produce el doble de artculos que la segunda y que sta (F2) y la tercera
producen el mismo nmero de artculos (durante un perodo de tiempo especificado, el
mismo para las tres). Se sabe tambin que el 1.5% de los artculos producidos por las
dos primeras fbricas es defectuoso, mientras que en la tercera los es el 3.5%.
Se colocan juntos todos los artculos producidos por las tres fbricas y se escoge uno
al azar.
Cul es la Probabilidad de que un artculo sea Defectuoso?
Cul Fbrica tiene la mayor probabilidad de haber producido el artculo Defectuosos?
54
UNI Norte
m!
n ! ( mn ) !
C10,4
10!
10.9.8.7.6.5.4.3.2.1
210
4!(10 4)! (4.3.2.1)(6.5.4.3.2.1)
55
UNI Norte
m!
( mn ) !
P10,4
10!
10.9.8.7.6.5.4.3.2.1
5,040
(10 4)!
6.5.4.3.2.1
56
UNI Norte
57
UNI Norte
58
UNI Norte
Debido a que estas distribuciones tratan sobre expectativas de que algo suceda,
resultan ser modelos tiles para hacer inferencias y para tomar decisiones en
condiciones de incertidumbre.
Las distribuciones de probabilidad son idealizaciones de los polgonos de frecuencias.
En el caso de una variable estadstica continua consideramos el histograma de
frecuencias relativas, y se puede comprobar que al aumentar el nmero de datos y el
nmero de clases el histograma tiende a estabilizarse llegando a convertirse su perfil
en la grfica de una funcin.
Una distribucin de frecuencias son las frecuencias observadas de todos los resultados
de un experimento que se presentaron cuando ya se efectu el experimento, es
emprica. Mientras que una distribucin de probabilidad es un listado de las
probabilidades de todos los posibles resultados que podran obtenerse si el
experimento se va a llevar a cabo, es terica.
Las distribuciones de probabilidad pueden basarse en consideraciones tericas o en
una estimacin subjetiva de la posibilidad. Se pueden basar tambin en la experiencia.
Las distribuciones de probabilidad se clasifican como continuas y discretas. En la
distribucin de probabilidad discreta la variable aleatoria, la que toma los posibles
resultados del experimento, slo toma un nmero limitado de valores, por ejemplo que
un ladrillo tomado sea defectuoso o no. En una distribucin de probabilidad
continua, la variable que se est considerando puede tomar cualquier valor dentro de
un intervalo dado, por ejemplo los ladrillos de una poblacin que pesen entre 1,5-1,6
Kg. Las distribuciones discretas se asemejan a las distribuciones continuas, cuando
stas tienen muchos resultados posibles, todos muy cercanos entre s.
59
UNI Norte
numerable, que se puede contar, tenemos una variable aleatoria discreta. En el otro
extremo, si el experimento puede tomar cualquier valor dentro de un intervalo dado,
entonces se trata de una variable aleatoria continua, generalmente son aquellas
variables que se miden se pesan. Las variables aleatorias definidas sobre espacios
muestrales discretos se llaman variables aleatorias discretas y las definidas sobre
espacios muestrales continuos se llaman continuas.
Se puede pensar en una variable aleatoria como un valor o una magnitud que cambia
de una presentacin a otra, sin seguir una secuencia predecible. Los valores de una
variable aleatoria son los valores numricos correspondientes a cada posible resultado
de un experimento aleatorio.
Una variable aleatoria asocia un nmero o ms generalmente una caracterstica a todo
resultado posible del experimento. Por ejemplo, si consideramos el experimento que
consiste en realizar mediciones de la concentracin de un producto en una solucin,
nos interesa la variable aleatoria X= valor medido de la concentracin de azcar en
una salsa. Otro ejemplo de variable aleatoria asociada a un proceso de fabricacin, al
experimento de escoger un elemento producido, y considerar la variable aleatoria X=
duracin de vida de un monitor de una computadora hasta el fallo. Ambas variables
anteriores son continuas. Un ejemplo de variable aleatoria discreta es el nmero de
nmero de televisores fallados por lote de produccin mensual.
La distribucin de probabilidad de una variable aleatoria proporciona una probabilidad
para cada valor posible, y estas probabilidades en su totalidad deben sumar uno.
Funcin de densidad de probabilidad: Es la funcin que mide la concentracin de
la probabilidad alrededor de los valores de una variable aleatoria. A cada valor de una
variable aleatoria discreta o a un intervalo de una variable aleatoria continua, le
corresponde una probabilidad asociada.
Ejemplo: Va a nacer tres bebes. Representamos varn por v y nia por .
60
UNI Norte
Sucesos
px
{}
1/16
{v, v, v, v}
4/16
6/16
4/16
{vvvv}
1/16
61
UNI Norte
Probabilidad
0.39
0.31
0.22
0.13
0.05
Nro Nios
Sin
embargo
para las variables continuas la probabilidad de que una variable tome cualquier valor
concreto es 0, por lo tanto la fx slo permite calcular la probabilidad para un intervalo
del tipo (a<X<b), mediante el rea bajo la curva de la fx.
Para las variables aleatorias de inters hay tablas, y programas de computacionales,
donde buscar esos valores.
Distribucin acumulativa o funcin de distribucin. Funcin que acumula
probabilidades asociadas a una variable aleatoria. Su notacin es F(x) = p (X x).
Para el ejemplo anterior, F (X) es:
fx
Fx
1/16
1/16
4/16
5/16
6/16
11/16
4/16
15/16
62
UNI Norte
1/16
16/16
f ( x)dx
x E ( x) xf ( x)
xf ( x)dx
x E ( x)
Caso discreto
Caso continuo
63
UNI Norte
x E h( x ) h( x ) f ( x )
Caso discreto
h( x) f ( x) dx
x E h( x )
Caso continuo
Ejemplo con una variable discreta: Se tira un dado y se define como variable aleatoria
el nmero que sale Cul es su media?
La variable X puede tomar los valores 1, 2,..., 6 y para todos ellos f(x) = 1/6. En
consecuencia la media es
6
1
1
1
x = xf ( x )=1 +2 + +6 =3.5
6
6
6
x=1
h(x)
90
90
450
64
UNI Norte
1
1
1
x = h ( x ) f ( x )=90 + 90 + 450 +0+ 0+0=105
6
6
6
x=1
65
UNI Norte
3
=0.866
4
x =
x =
Ejercicio 3.1: En los casino el juego de ruleta mesa tiene 38 nmeros, esto incluye el
nmero 0 y doble 00. Si usted apuesta una moneda a un nmero y gana, el casino le
paga 36 monedas. Este es un juego justo? Justificar la respuesta.
1
2 . Si E(x) es la media (o la esperanza matemtica) y
a
es el
1
2
a
66
UNI Norte
Ejercicio 3.2 Una industria produce ventanas cuya ancho tiene una media de 250 cm
y una desviacin estndar de 1.80 cm Construya un intervalo donde se encuentre al
menos el 8/9 de los datos?
Para una variable x con media y desviacin estndar que est normalmente
distribuida, escribimos: x es N (, ).
La funcin de densidad de la distribucin normal es:
2
1
f (x) =
e
2
(x)
2
2
67
UNI Norte
20
Frecuencia
10
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
El intervalo
%.
Z i=
x i
68
UNI Norte
Luego con una tabla normal tipificada es fcil determinar probabilidades por intervalos
para diferentes valores de la variable x. Esta distribucin funciona relativamente bien
para hacer probabilidades cuando se tiene ms de 30 datos, y estos tienen una
distribucin en forma de campana. A continuacin se observa un grfico de una
distribucin normal tipificada (0,1) donde est sombreado un intervalo de
1.96
desvi estndar.
Funcin de densidad distribucin normal tipificada
0.40
Normal(0,1): p(evento)=0.9500
Densidad
0.30
0.20
0.10
0.00
-3.00
-2.00
-1.00
0.00
1.00
2.00
3.00
Variable
( 2821)
=2.1875
3.2
tipificada que resulta como 0.5 - 0.4854 (el valor de tabla) = 0.014. Este problema se
puede resolver grficamente usando el programa INFOSTAT, con el mdulo
aplicaciones didcticas.
69
UNI Norte
Funcin de densidad
Normal(21,10.24): p(evento)=0.0144
0.13
Densidad
0.09
0.06
0.03
0.00
5.00
13.00
21.00
Variable
29.00
37.00
70
UNI Norte
71
UNI Norte
n=100
n=10
Densidad
0.30
n=1
0.20
0.10
0.00
-5.00
-2.50
0.00
2.50
5.00
Variable
Se observa que a ms datos, la campana es ms alta, con valores menos dispersos y
semejante a una curva Normal.
Ejemplo Se sabe que la media histrica de edad de los estudiantes de una universidad
es de 21 aos. Cul es la probabilidad que un grupo de 30 estudiantes tenga un
promedio de edad mayor a 22 aos? En este grupo se calcul S, desvo estndar, y
este era de 5 aos La forma de clculo del estadstico es
En este caso
t=
2221
5 / 29
t=
x
S / n1
72
UNI Norte
Funcin de densidad
T Student(29): p(evento)=0.1805
0.40
Densidad
0.30
0.20
0.10
0.00
-5.18
-2.59
0.00
Variable
2.59
5.18
Ejercicio 3.9 Histricamente se venden postes con un dimetro de 25cm, y con una
varianza de 64 cm. Si el comprador rechaza un lote si este tiene un promedio de
dimetro menor a 24 cm. Cul es la probabilidad de rechazar un lote de 100 postes?
Resolver con el mdulo didctico de INFOSTAT.
2n=z 21 + z 2n
73
UNI Norte
D ensidad
0.18
0.12
0.06
0.00
0.00
3.81
7.62
11.44
15.25
Variable
74
UNI Norte
Hiptesis nula, las medias de los tratamientos pertenecen a una mismo media
H 0 : x 1 , x 2 x n
poblacional
H 0 : x 1 , x 2 x n
D e n sid a d
0.5
0.3
0.2
0.0
0.00
4.14
8.29
12.43
16.57
Variable
3. 7 La distribucin Binomial
Se usa con variables discretas, es decir cuyos valores son contables. Este modelo se
aplica a poblaciones finitas de las que tomamos elementos al azar con
reemplazamiento y tambin a poblaciones conceptualmente infinitas, como son piezas
que generara una mquina, siempre que el proceso generador sea estable (proporcin
de pieza defectuosas constante a largo plazo) y sin memoria (el resultado en cada
momento es independiente de lo previamente ocurrido).
Un experimento Binomial tiene las siguientes caractersticas:
75
UNI Norte
P (x) =
Siendo
(nx)
(nx) p q
x
nx
siendo x = 0, 1, ..., n
n!
(nx)= x ! ( nx
)!
76
UNI Norte
N ( np, npq )
A evento varn
Por lo tanto:
P (5 varones) =
12
5
12 5
0 .5 0 .5
77
UNI Norte
12
Donde
P (5 varones) =
= 792
792(0.5 5 )0.5 7
Ejemplo. Existe una empresa que produce vasos, y se sabe que histricamente el 2 %
de estos salen fallados. Por otro lado existe un comprador que tolera el 2 % de fallos, si
el valor es mayor rechaza el lote completo que quiere comprar. Se decide tomar una
muestra de 100 vasos, Cul es la probabilidad de que el comprador acepte el lote?
P ( x 2 ) =P ( x=0 ) + P ( x =1 )+ P ( x=2 ) =0.67
( )
P ( x=1 )=( 100 ) 0.02 0.98 =0.27
1
P ( x=1 )=(100 ) 0.02 0.98 =0.27
2
99
98
Ejercicio 3.10 El Ministerio del Trabajo reporta que 20% de la fuerza de trabajo en un
pueblo est desempleada. De una muestra de 14 trabajadores, calcule las siguientes
probabilidades con la frmula de la distribucin binomial (n=14, p=0.2): Resuelva:
1. Tres estn desempleados: P(x=3)=.250
2. Al menos un trabajador est desempleado:
P(x 1) = 1 - P(x=0) =1 - .044 = .956
3. A lo ms dos trabajadores estn desempleados:
P(x 2)=.044 +.154 +.250 =.448
Ejercicio 3.11 Si el 20% de las piezas producidas por una mquina son defectuosas,
cul es la probabilidad de que entre cuatro piezas elegidas al azar, a lo sumo 2 sean
defectuosas?
78
UNI Norte
x
x!
79
UNI Norte
Ejemplo: Se est haciendo un estudio para ampliar una terminal de taxis y se sabe que
en las horas de la tarde de 6-10 PM el nmero medio de llegadas es 4.0 personas por
hora.
Cul es la probabilidad de 4 llegadas en una hora?
P (4) = (44) (e-4) / 4!= 0.1954.
Ejercicio 3.13 La produccin de computadoras trae asociada una probabilidad de
defecto del 1.5%, si se toma un lote o muestra de 100 computadoras, obtener la
probabilidad de que existan 4 computadoras con defectos.
Ejercicio 3.14 Se calcula que en la ciudad el 20% de las personas tienen aficin a
mirar TV de noche,
80
UNI Norte
S, n). Un
que se suele pedir a los estimadores es que no tengan sesgo, lo que significa que el
valor esperado, esperanza del estimador, es igual al parmetro a estimar, esta
propiedad la tiene la media aritmtica y la varianza.
La estimacin por intervalos consiste en la obtencin de un intervalo dentro del cual
estar el valor del parmetro estimado, con una cierta probabilidad. Un uso de la
81
UNI Norte
, de
muestras.
El intervalo de confianza de con un 95 de confianza, IC
95 %,
es el ms usado y para
IC 95 % de = x 1.96 ( s / n )
95 %
El grfico de IC
95 %
, S y n.
con una variable continua. En este grfico se observan las medias de cada grupo con
sus intervalos de confianza al 95 %, estos en forma de dos rayas. Veamos un ejemplo
de este tipo.
82
UNI Norte
48
47
I de C al 9 5% de la Edad
46
45
44
43
42
Ho mbre
Mujer
Sexo
83
UNI Norte
H0 rechazada
H0 no rechazada
H0 cierta
H0 falsa
Error tipo I ()
Decisin correcta
HA cierta
Decisin correcta
Error tipo II ( )
El concepto es que
generalmente es mejor ser conservador, no captar el cambio sino estoy muy seguro
que este es ventajoso.
Los pasos necesarios para realizar un contraste relativo a un parmetro son:
1.
84
UNI Norte
85
UNI Norte
x
S / n
x = 18.5
S=3.6
Se trata de un contraste sobre medias. La hiptesis nula (lo que queremos rechazar)
es: H0: = 18. La hiptesis alternativa es: HA: > 18. Este un contraste lateral derecho.
Fijamos "a priori" el nivel de significacin en = 0,05 y la regin crtica en este ejemplo
t(35)0,05=1,70.
86
UNI Norte
18.518
=0.83
3.6
36
d
Sd
n
Donde
87
UNI Norte
% Mes 6
86
82
80
78
75
82
85
86
86
% Mes 12
79
69
74
70
67
64
76
63
76
La hiptesis nula es H0: 6=12, hiptesis alternativa H A: 6>12. Fijamos "a priori" el
nivel de significacin en = 0,05 y la regin crtica en este ejemplo t (8)0,05=1,86.
88
UNI Norte
x 1x 2
S1
S
+ 2
n11 n 21
Ejemplo. En un ensayo para evaluar la vida til de dos productos. La variable medida
es el tiempo de vida til en aos: producto T, n = 35;
producto P n = 40;
Como no conocemos como son las varianzas entre s, el modelo nos obliga a verificar
si la varianzas son iguales, si fueran distintas es otra la prueba t a realizar. Para ello
se debe plantear primero un contraste de prueba de hiptesis de variancias. Si las
variancias son iguales se sigue con la prueba t que se presenta, sino se debe hacer
otra variante de prueba t de ms difcil clculo.
Hiptesis de Variancias
H0: 2T = 2P, HA: 2T 2P
El estadstico es de contraste es una prueba F= S 2P / S2T = 13.9 / 12.8= 1.09, como el
valor F de tabla es 1.74, en consecuencia aceptamos la H 0 y concluimos que las
varianzas son iguales. Luego se hace la prueba de hiptesis de medias con el
estadstico antes detallado.
t c=
15.13.7
=13.28
13.9
12.8
+
351 401
89
UNI Norte
I
1.00
1.65
II
0.90
1.59
III
1.16
2.00
IV
0.98
1.65
Realizar e Interpretar su prueba de hiptesis. Resolver con una prueba t para dos
grupos que pertenecen a una misma poblacin
90
UNI Norte
Bibliografa Consultada
Cajal, H. U. (sf). Material docente de la Unidad de Bioestadstica Clnica. Recuperado el
15 de Enero de 2009, de http://www.hrc.es/bioest/M_docente.html#tema2
Cebran, M. (2001). Distribuciones continuas. Recuperado el 14 de Julio de 2009, de
Ministerio de Educacin y ciencia:
http://descartes.cnice.mecd.es/Bach_HCS_2/distribuciones_probabilidad/dis_continu
as.htm
CYTA. (s.f.). Gua de Estadsticas. Distribucin de Poisson . Recuperado el 14 de Julio
de 2009, de
http://www.cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/index.htm
Daniel, W. (2006). Bioestadstica. Base para el anlisis de las ciencias de la salud .
Mxico: Limusa.
DATA MINING INSTITUTE . (2001). UNIANOVA - Diseo Completamente Aleatorio.
Recuperado el 17 de Julio de 2009, de http://www.estadistico.com/arts.html?
20011015
Gonzalez, L. (2004). INFOSTAT, Manual del usario. Crdoba: Universidad Nacional de
Crdoba.
Gutirrez, H., & De la Vara, R. (2004). Control estadstico de la calidad y seis sigmas.
Mxico: McGraw Hill.
Kessler, M. (2005). Apuntes de Mtodos estadsticos de la Ingeniera. Recuperado el
14 de Julio de 2009, de http://filemon.upct.es/~mathieu/metodos/teoria/pdftema3.pdf
Lacayo, I. (2002). Anlisis de Variancia con SPSS 8.0. Recuperado el 5 de Diciembre
de 2008, de Universidad Rafael Belloso:
http://www.aibarra.org/Apuntes/Estadistica/00032969.doc
Little T y Hills, J. (1990.). Mtodos estadsticos para la investigacin en la agricultura.
Mxico: Trillas.
Martnez Garza, A. (1988). Diseos experimentales, mtodos y elementos de teora.
Mxico: Trillas.
Mendenhall, W. (2008). Estadstica para administradores. Mxico: Iberoamericana.
Estadstica Bsica para Ingenieros
91
UNI Norte
92