You are on page 1of 25

Escuela de Posgrado

Maestra en Estadstica Aplicada

Mtodos Estadsticos

Mg Sc Jaime Carlos Porras Cerrn

Karl Pearson
(1857-1936)

Captulo I:
Conceptos
Descriptiva
1.
2.
3.
4.

Generales

Estadstica

Conceptos Bsicos en Estadstica.


Definicin de Estadstica.
Divisin de la Estadstica:
Estadstica Descriptiva e Inferencial.
Estadstica Descriptiva.

4.1 Organizacin de datos: Tablas de Frecuencia y grficos.


4.2 Medidas de resumen: de posicin, de variabilidad, de
asimetra, de curtosis.

1. Conceptos Bsicos
Poblacin (N)
Es el conjunto de todos los elementos que se desean analizar y que presentan una
o varias caractersticas en comn.
Ejemplo:
Las familias del distrito de San Borja.

Muestra (n)
Es un subconjunto representativo de elementos provenientes de una poblacin.
Ejemplo:
30 familias del distrito de San Borja.

Unidad elemental
Es cada una de las personas, animales, cosas o entidades que conforman la
poblacin en estudio.
Ejemplo:
Una familia del distrito de San Borja.

Variable (X,Y,Z,..):
Es toda caracterstica que se desea observar, medir o evaluar
de las unidades elementales.
Las variables se pueden clasificar en cuantitativas o
cualitativas.
Nominal
Cualitativa
Ordinal
Variable

Discreta
Cuantitativa
Continua

1. Conceptos Bsicos
Variables Cualitativas
Proporcionan datos que dan como resultado una categora.
Pueden ser de tipo nominal u ordinal.
Nominales

Son aquellas cuyos valores o resultados


presentados en cualquier orden.
Ejemplo:
Color de cabello de una dama.

pueden ser organizados y

Ordinales

Son aquellas cuyos valores o resultados


presentados en un orden definido.
Ejemplo:
Grado de instruccin.

deben ser organizados y

1. Conceptos Bsicos
Variables Cuantitativas
Son aquellas cuyos valores pueden ser expresados en forma numrica.
Pueden ser discretas o continuas.
Discretas
Son aquellas que tienen un nmero finito o infinito numerable de valores
posibles. Por lo geneneral se obtienen mediante conteo.
Ejemplo:
Nmero de accidentes de trnsito al mes en el distrito de San Borja.
Continuas
Son aquellas que tienen una cantidad infinita no numerable de valores
posibles. Por lo genera se pueden obtener mediante instrumentos de
medicin.
Ejemplo:
Peso (en Kg.) de una persona.

1. Conceptos Bsicos
Otra forma de clasificacin de las variables es segn su
escala de medida. De esta manera la clasificacin seria:

Nominal:

Los datos son etiquetas o nombres que se emplean para


definir un atributo del elemento.
Ejemplos: estado civil, profesin, gnero.

Ordinal:

Los datos son etiquetas y adems se pueden ordenar en forma


ascendente o descendente.
Ejemplos: apreciacin de un producto.

Intervalo:

Los datos son numricos, el cero es relativo, es decir, no


indica la ausencia de la caracterstica medida.
Ejemplos: temperatura, fecha de calendario.

Razn:

Los datos son numricos, el cero es absoluto, es decir, indica la


ausencia de caracterstica de la medida.
Ejemplos: peso, estatura, salario.

Observacin
Es el dato registrado producto de la medicin o apreciacin de una
caracterstica en una unidad elemental.
Ejemplo:
El ingreso mensual de la familia Prez es de 6500 soles.
Parmetro (,,,)
Es una medida que resume los datos provenientes de la poblacin.
Es decir es una funcin de todas las observaciones de una poblacin.
Ejemplo:
Luego de realizar un censo a las familias del distrito de San Borja se
obtuvo que el ingreso familiar promedio mensual es 6850.3 soles.
Estadstica
Es una medida que resume los datos provenientes de la muestra.
Ejemplo:
Luego de realizar un muestreo a 30 familias del distrito de San
Borja se obtuvo que el ingreso promedio familiar mensual es
6450.3 soles.

1. Conceptos Bsicos
Representacin usual en la mayora de programas estadsticos

Matriz de datos muestral

Unidad
Elemental

V1

V2 . . . Vp

x11
x
21

xn 1

x12

X1

x22
xn 2

Variables

x1 p
x2 p

xnp
Observacin

Estadstica

Es la ciencia que se ocupa de la creacin,


desarrollo y aplicacin de tcnicas que
permitan hacer un anlisis confiable de una
poblacin.
En trminos generales, se ocupa de la
coleccin, resumen, presentacin anlisis e
interpretacin
de datos y resultados, de
modo tal que pueda evaluarse la confiabilidad
y riesgos asociados a las conclusiones que se
puedan derivar a partir de los datos captados.

Descriptiva

Son tcnicas de recoleccin, caracterizacin,


resumen y presentacin que permiten describir un
conjunto de datos.
Con un anlisis descriptivo se pueden obtener
indicadores (estimaciones puntuales), tablas de
frecuencia (o contingencia) y grficos.
Para realizar el anlisis descriptivo se debe tener en
cuenta el tipo de variable que se esta analizando
(cualitativa o cuantitativa) y la cantidad de variables
que se estn analizando a la vez (univariada,
bivariada o multivariada).

Inferencial

Son tcnicas para estimar parmetros de una


poblacin o tomar decisiones sobre la poblacin
basadas en el resultado de una muestra. Estas
conclusiones pueden tener cierto margen de
error; por eso, se dan con una medida de
confiabilidad o probabilidad.
Comprende la estimacin de intervalos de
confianza y la realizacin de pruebas de
hiptesis para uno o varios parmetros.
Al igual que el Anlisis Descriptivo para realizar
un buen Anlisis Inferencial se debe tener en
cuenta la naturaleza de la variable (si los datos
provienen de alguna distribucin terica), el
tipo de variable y la cantidad de variables
involucradas en el anlisis.

4.1 Organizacin de datos


Datos Cualitativos: Tabla de Frecuencia
Ttulo:
N de
Clase

Categoras de
la variable

fi

hi

pi

Atributo 1

f1

h1

p1

Atributo 2

f2

h2

p2

Atributo k

fk
n

hk

pk

100%

Total
Fuente:

En R se puede realizar con la funcin table

4.1 Organizacin de datos


Datos Cualitativos: Grficos
Alumnos por Facultad

Fuente: Departamento de Ingreso

Fuente: Elaboracin propia

En R con la funcin pie

En R con la funcin barplot

4. Estadstica Descriptiva
4.1 Organizacin de datos
Datos Cualitativos: Grficos

Diagrama de Barras Apiladas

Diagrama de Barras Comparativas

Grafico de barras apiladas


100

Grafico de barras comparativa

400

big
med
small

Femenino

Masculino
Clase

100

20

200

40

60

300

80

SanLuis
SanIsidro
SanBorja

acc

good

unacc

vgood

Clase

En R con la funcin barplot

En R con la funcin barplot

4.1 Organizacin de datos


Datos Cuantitativos (Discretos): Tabla de
Frecuencia
Ttulo:
N de
Clase

Valores de X

fi

hi

pi

x1

f1

h1

p1

x2

f2

h2

p2

xk

fk

hk

pk

Total

100%

Fuente:
En R con la funcin table

4.1 Organizacin de datos


Datos Cuantitativos (Discretos): Grficos
Nmero de pisos por vivienda del distrito de Jess Mara
50

40

30

20

10

4
Numero de pisos

Fuente: Municipalidad de Jess Mara

En R con la funcin plot

4.1 Organizacin de datos


Datos Cuantitativos (Continuos): Tabla de
Frecuencia - Clculos previos

Rango: r= Xmax-Xmin
Nmero de intervalos de clase
k=1+3.32log10(n) (redondeo simple)
Tamao del ancho del intervalo de
clase:
w= r/k (redondeo por exceso) a la
cantidad de decimales de los datos.

4.1 Organizacin de datos


Otras reglas para la construccin de
histogramas:
Regla para la cantidad de intervalos
k=(2n)1/3 Scott (1992)
k=10 log10n Dixon y Kronmal (1965)
k=2n1/2 Velleman (1976)
k=1+3.32log10n Sturges (1926)
Regla para el ancho de los intervalos
w=3.49Sn-1/3 Scott (1979)
w=2RICn-1/3 Freedman y Diaconis (1981)

10

4.1 Organizacin de datos


Datos Cuantitativos (Continuos): Tabla de
Frecuencia
Ttulo:
N
de
Clase

Intervalos
de clase

Marca
de
clase

[LI1-LS1[

X1

[LI2-LS2[

X2

[LI3-LS3[

X3

[LIk-LSk]

Xk

Total

fi

hi

pi

Fi

Hi

Pi

f1
f2
f3

h1
h2
h3

p1
p2
p3

F1

H1

P1 %

F2

H2

P2 %

F3

H3

P3 %

fk
n

hk

pk

Fk

100%

100%

Fuente:

4.1 Organizacin de datos


Datos Cuantitativos (Continuos): Grficos
Salarios de los trabajadores la empresa Sper S.A.

Salarios de los trabajadores la empresa Sper S.A.


Polgono de Frecuencias del pago por impuestos municipales por vivienda
30.00%

25

25.00%

25.00%

20
20.84%

20.00%

15
14.58%

15.00%
14.58%

10

12.50%

10.00%

6.25%
6.25%
5.00%

159.85

189.35

218.85

248.35

277.85

307.35

336.85

Pago de impuestos

0.00%

130.35

159.85

189.35

218.85

248.35

277.85

307.35

336.85

366.35

Fuente: Municipalidad de San Isidro

Fuente: Departamento de RRHH

Fuente: Departamento de RRHH

En R con la funcin hist

11

4.1 Organizacin de datos


Ejemplo:
El jefe de marketing realiz un estudio sobre
opinin que tienen los clientes de un nuevo
supermercado. El cuestionario con el que se
recolect la informacin estaba compuesto por
varias preguntas. Tres de las preguntas del
cuestionario fueron:
Cliente: Masculino _____
Femenino ____
De los siguientes servicios Cul deseara Ud. que
sea implementado prximamente en nuestro
establecimiento?
Cajeros Automticos ____ Servicio 24 horas ____
Crdito ____
Cul es la opinin de la atencin de nuestro
establecimiento?
Muy bueno ___ Bueno ____ Regular ___ Mala ____

4. Estadstica Descriptiva
4.1 Organizacin de datos
N

Gnero

Servicio

Opinin

Gnero

Servicio

Opinin

cajeros

regular

11

24 horas

bueno

cajeros

bueno

12

24 horas

regular

crdito

malo

13

crdito

malo

cajeros

bueno

14

crdito

muy bueno

cajeros

regular

15

24 horas

muy bueno

crdito

regular

16

crdito

muy bueno

cajeros

malo

17

crdito

muy bueno

cajeros

muy bueno

18

cajeros

muy bueno

cajeros

bueno

19

cajeros

regular

10

crdito

muy bueno

20

crdito

bueno

12

Resultados
Cuadro N 1: Nuevo servicio deseado por los clientes
N de
categora

Nuevo servicio
deseado

fi

hi

pi

Cajeros Automticos

0.45

45.0%

Servicio 24 horas

0.15

15.0%

Crdito

0.40

40.0%

Total

20

1.00

100.0%

Fuente: Oficina de Marketing Supermercados Estrella

Grfico N 1: Nuevo servicio deseado por los clientes


% 50.00%
40.00%
30.00%
20.00%
10.00%
0.00%
Cajeros
Automticos

Servicio 24 horas

Crdito
Servicio

Fuente: Oficina de Marketing Supermercados Estrella

Resultados
Cuadro N 2: Calidad de atencin al cliente
N de
categora

Calidad de atencin al
cliente

fi hi

pi

Muy bueno

0.35

35.0%

Bueno

0.25

25.0%

Regular

0.25

25.0%

Malo

0.15

15.0%

Total

20

1.00

100.0%

Fuente: Oficina de Marketing Supermercados Estrella

Grfico N 2: Calidad de atencin al cliente


15%
35%

Muy bueno
Bueno
Regular
Malo

25%
25%

Fuente: Oficina de Marketing Supermercados Estrella

13

4.1 Organizacin de datos


Ejemplo
Un economista es contratado para trabajar
en la Municipalidad de Los Olivos. El jefe de
la Oficina de Rentas le encarga que realice
un estudio sobre impuestos que pagan los
vecinos del distrito.
Para realizar dicha labor el economista
elabora un plan de trabajo dentro del cual
tiene inters en evaluar dos variables:
X1: Nmero de pisos que tiene la vivienda.
X2: Pago de los impuestos del ao 2015.

X1

X2

X1

X2

X1

X2

X1

X2

145.1

13

216.3

25

252.5

37

303.6

151.0

14

225.9

26

257.1

38

305.8

159.0

15

227.1

27

259.2

39

315.4

195.6

16

231.2

28

262.5

40

315.5

196.9

17

234.8

29

265.2

41

317.2

202.6

18

238.4

30

271.0

42

320.2

204.9

19

239.9

31

286.7

43

324.8

206.1

20

241.1

32

288.1

44

331.1

206.5

21

242.9

33

289.1

45

331.7

10

208.0

22

244.0

34

291.0

46

344.6

11

208.0

23

247.7

35

291.9

47

346.7

12

209.3

24

249.5

36

294.5

48

351.1

14

Resultados
Cuadro N1: Nmero de pisos que tiene la vivienda
N
de
clase

Nmero
de pisos

fi

hi

pi

22

0.458

45.8%

18

0.375

37.5%

0.167

16.7%

48

1.000

100.0%

Total

Grfico N 1: Nmero de pisos de la vivienda


%

Fuente: Oficina de Rentas Municipalidad de Los Olivos

50

40

30

20

10

4
Numero de pisos

Fuente: Oficina de Rentas Municipalidad de Los Olivos

La amplitud o rango r es:


r xmax xmin 351.1 145.1 206
El nmero de categoras o intervalos de clase
(por redondeo simple)
k 1 3.3 log10 n 1 3.3 log10 (48) 6.548 7

El tamao del intervalo de clase TIC es:


(redondeo por exceso)
w

r 206

29.429 29.5
k
7

15

Resultados
Cuadro N2: Pago de impuestos municipales del ao 2015
N de
clase

X`i fi

Pago de
impuestos

hi

pi

F i Hi

Pi

[145.1,174.6]

159.85

0.0625

6.25%

0.0625

6.25%

]174.6,204.1]

189.35

0.0625

6.25%

0.1250

12.50%

]204.1,233.6]

218.85

10

0.2084

20.84%

16

0.3334

33.34%

]233.6,263.1]

248.35

12

0.2500

25.00%

28

0.5834

58.34%

]263.1,292.6]

277.85

0.1458

14.58%

35

0.7292

72.92%

]292.6,322.1]

307.35

0.1458

14.58%

42

0.8750

87.50%

]322.1,351.6]

336.85

0.1250

12.50%

48

1.0000

100.00%

48

1.0000

100.00%

Total
Fuente: Oficina de Rentas Municipalidad de Los Olivos

Grfico N 3: Histograma de frecuencias para el pago de impuestos municipales del ao 2015


25

20

15

10

159.85

189.35

218.85

248.35

277.85

307.35

336.85

Pago de impuestos

Fuente: Oficina de Rentas Municipalidad de Los Olivos

Grfico N 4: Histograma de frecuencias para el pago de impuestos


Polgono de Frecuencias del pago por impuestos municipales por vivienda
municipales del ao 2015
30.00%

25.00%

25.00%

20.84%

20.00%

14.58%

15.00%
14.58%

12.50%

10.00%
6.25%
6.25%
5.00%

0.00%

130.35

159.85

189.35

218.85

248.35

277.85

307.35

336.85

366.35

Fuente: Municipalidad de San Isidro

Fuente: Oficina de Rentas Municipalidad de Los Olivos

16

4. Estadstica Descriptiva
4.2 Medidas de resumen

La media aritmtica
N
Media o promedio poblacional
xi

i 1
donde N es el tamao de la poblacin. N
Media o promedio muestral:
donde n es tamao de la muestra.

x
i 1

4. Estadstica Descriptiva
4.2 Medidas de resumen
Caractersticas de la media

Es un estadstico muy conocido y de fcil


comprensin.
La mayor desventaja es que se ve afectada
por valores extremos.
Se calcula para variables medidas en escala
de intervalo o razn.

En R con la funcin mean

17

4. Estadstica Descriptiva
4.2 Medidas de resumen

La mediana es el valor que tiene la


propiedad de dividir un conjunto de
observaciones en dos partes iguales.
50% de datos

50% de datos

Clculo de la mediana muestral


Si n es impar

me x n 1

Si n es par

x n x n
me

1
2

4. Estadstica Descriptiva
4.2 Medidas de resumen

Caractersticas de la mediana
Es el percentil 50 (P50).
No se ve afectada por valores extremos.
Se calcula para variables medidas en
escala ordinal, intervalo o razn.
No olvidar que para su clculo los datos
deben ser previamente ordenados.
En R con la funcin median

18

4. Estadstica Descriptiva
4.2 Medidas de resumen

La moda

La moda de un conjunto de observaciones es


simplemente el valor o atributo que ocurre
con ms frecuencia.
Se calcula para variables medidas en escala
nominal, ordinal, intervalo o razn.

4. Estadstica Descriptiva
4.2 Medidas de resumen
Caractersticas de la moda:

En un conjunto de observaciones no puede existir moda o pueden


existir varias modas.
Ejemplos:
X: Peso de conservas (en gr.) producidas en el mes anterior:
200.3, 199.8, 201.1, 199.3, 200.1, 199.7, 198.9
(no hay moda)
W: El nmero de cras nacidas de un grupo de conejos:
8, 7, 6, 7, 8, 9, 8, 8, 7, 8, 7, 6, 7 (existen 2 modas mo1= 7, mo2=8)
No es afectada por valores extremos.
Se aplica tanto a informacin cuantitativa como para informacin
cualitativa.
Ejemplo:
Y: Raza de vacas.
Brown Swiss, Holstein, Holstein, Holstein, Holstein (la moda es
Holstein)

19

4. Estadstica Descriptiva
4.2 Medidas de resumen

El percentil p es el valor que tiene la propiedad de


que el p% de las observaciones son menores o
iguales que l.
p% de datos

(1-p)% de datos

Percentil p
Deciles y cuartiles son casos especiales.

4. Estadstica Descriptiva
4.2 Medidas de resumen
Ordene los datos de manera ascendente. Calcule
la posicin p del percentil

Pp x n1 x E .d

p
100

p es el percentil
observaciones

es

la

cantidad

de

x E.d x E 0.d x E 1 x E
En R con la funcin quantile, la cual presenta varios
algoritmos.

20

4. Estadstica Descriptiva
4.2 Medidas de resumen

El rango o amplitud de un conjunto de


observaciones es la diferencia entre la
observacin de mayor valor y la
observacin de menor valor.

r xmax xmin
Las desventajas del rango:
Est afectado por valores extremos.
No mide la variabilidad de los datos
intermedios.
En R la funcin range no permite obtener el rango
pero si el mximo y el mnimo

4. Estadstica Descriptiva
4.2 Medidas de resumen

Es la diferencia como la diferencia entre el


percentil 75 y el percentil 25 .
ric P75 P25 Q3 Q1

El rango intercuartlico excluye el 25%


superior y el 25% inferior de las
observaciones, dando un rango del 50% de
las observaciones centrales; a diferencia
del rango o amplitud no se encuentra
afectado por valores extremos.
En R con la funcin IQR

21

4. Estadstica Descriptiva
4.2 Medidas de resumen
La varianza de un conjunto de observaciones est
definida por:
N
N
2
Varianza Poblacional:
xi xi2 N 2
2

N
N

Varianza Muestral:

S
2

i 1

x
i 1

i 1

N
N

n 1

x
i 1

2
i

nx 2

n 1

La varianza da como resultado de que la unidad de


medida sea elevada al cuadrado. Por ejemplo si las
unidades de las observaciones son minutos, la
varianza ser expresada en minutos2.
As mismo, se debe tener presente que la varianza
es un valor numrico que siempre es positivo.
En R con la funcin var se obtiene la varianza muestral.

4. Estadstica Descriptiva
4.2 Medidas de resumen

La deviacin estndar de un conjunto de observaciones


es igual a la raz cuadrada de la varianza.

Des. Est. Poblacional:

x
i 1

Des. Est. Muestral:

2
i

i 1

N2
N

La desviacin estndar, a diferencia de la varianza si se


encuentra en las mismas unidades que las
observaciones y al igual que la variancia su valor
numrico siempre es positivo.
n

x x
i 1

n 1

x
i 1

2
i

nx 2

n 1

En R con la funcin sd permite obtener la desviacin estndar


muestral.

22

4. Estadstica Descriptiva
4.2 Medidas de resumen

Es una medida de dispersin relativa


positiva, es decir no tiene unidades y est
expresado en porcentaje; el coeficiente
de variabilidad est definido como el
cociente entre la desviacin estndar y la
media aritmtica de un conjunto de
observaciones.
Coeficiente de variabilidad poblacional: C.V .

Coeficiente de variabilidad muestral:

c.v.

100%

S
100%
x

4. Estadstica Descriptiva
4.2 Medidas de resumen
El coeficiente de asimetra de Pearson de un
conjunto de observaciones se define como:
3 Me
Si el conjunto de observaciones es la poblacin: As
Si el conjunto de observaciones es una muestra: as 3 x me
S

Observaciones:
Si as=0 entonces la distribucin es simtrica.
Si as<0 entonces la distribucin es asimtrica
negativa.
Si as>0 entonces la distribucin es asimtrica
positiva.

23

4. Estadstica Descriptiva
4.2 Medidas de resumen
La frmula para hallar la simetra en datos sin agrupar
n
es:
3

xi x
3

n
xi x
n
n
i 1
As
s n 1n 2
n 1n 2
s3
i 1

Si n es grande la expresin anterior se simplifica a:

x
n

As

i 1

ns 3

Los criterios para definir si es un conjunto de datos


simtricos o asimtricos son los mismos que para el
coeficiente de asimetra de Pearson.
En R se puede usar la funcin skewness del paquete
fBasics.
Existen otros paquete que permiten obtener el
coeficiente de asimetra como: moments, e107 y psych.

4. Estadstica Descriptiva
4.2 Medidas de resumen

Distribucin Simtrica
Distribucin simtrica
Me Mo simtrica
Para una poblacin: Distribucin
Para una muestra:
x me mo
Distribucion Asimtrica
Positiva
Distribucin
asimtrica
Distribucin asimtrica
Distribucin sesgo
asimtrica
Distribucin asimtrica
a la izquierda
sesgo a la derecha
sesgo a la izquierda
sesgo a la derecha
Para una poblacin: Me Mo
Distribucin simtrica
x me mo
Para una muestra:
Distribucion Asimtrica Negativa
Distribucin asimtrica
Para una poblacin: Me Mo Distribucin asimtrica
sesgo a la izquierda
sesgo a la derecha
x me mo
Para una muestra:
Media= Mediana = Moda
Media= Mediana = Moda

Media

Media
Mediana Moda

Mediana Moda

Moda Mediana Media


Moda Mediana Media

Media= Mediana = Moda

Media

Mediana Moda

Moda Mediana Media

24

4. Estadstica Descriptiva
4.2 Medidas de resumen
La curtosis es el grado de concentracin de un conjunto de
datos, con relacin a la media aritmtica:
Si el conjunto de observaciones es la poblacin:
1
Q3 Q1
K2
D9 D1

Si el conjunto de observaciones es una muestra:

1
q3 q1
2
k
d9 d1

En R se puede usar la funcin kurtosis del paquete fBasics.


Existen otros paquete que permiten obtener la curtosis
como: moments, e107 y psych.

4. Estadstica Descriptiva
4.2 Medidas de resumen

Distribucin Platicrtica
K < 0.25
Distribucin Mesocrtica

K 0.25
Distribucin Leptocrtica
K > 0.25

25

You might also like