You are on page 1of 27

SIMULACIÓN

Ingeniería Sistemas de Información Unidad 2

Captura y Acondicionamiento de Datos

Introducción
En todo modelo y simulación es necesario disponer de información de un sistema real para obtener
los resultados según el objetivo planteado. Cuando un sistema a simular tiene un comportamiento
aleatorio, los datos tendrán una naturaleza probabilística y las variables que se generen a partir de
ellos tendrán la característica de la aleatoriedad. Un modelo y un sistema estocásticos están
vinculados con la aleatoriedad y para su estudio es necesario contar con herramientas de
probabilidad.

Si los datos del sistema real no están actualizados, lo único que se puede simular es el pasado, por lo
tanto los únicos eventos posibles de analizar son los que ya ocurrieron. Lo que sí puede suponerse es
que la forma básica de la distribución se mantendrá, no así los datos mismos.

Generalmente resulta más eficiente usar una distribución de probabilidad teórica en términos de
tiempo de cómputo y de requerimientos de almacenamiento. Es mucho más fácil cambiar los
parámetros de un generador de distribuciones teóricas para realizar pruebas de sensibilidad o
contestar preguntas del tipo: ¿Qué pasaría si...?.

Los datos de entrada del modelo provienen de un muestreo en donde se anotan básicamente los
tiempos y/o las cantidades o entidades observadas. Por ejemplo, una persona en la puerta de un
banco o un supermercado registra los tiempos de arribos de cada uno de los clientes durante un
tiempo fijado de observación. Para asegurar la información repite la observación en la misma longitud
del tiempo fijado. Otra persona en ese mismo tiempo registra los tiempos de atención de los cajeros
y/o de otros empleados en actividad.

Los datos así registrados requieren de un tratamiento posterior para poder utilizarlos en un modelo.
Lo usual es hacer análisis estadísticos para resumir la información en una distribución de probabilidad
conocida o empírica a la cual se ajustan los datos con un nivel de confianza estadísticamente
aceptado. Esa distribución se usará en la simulación para representar los comportamientos del
sistema.

En esta unidad se hará una revisión de conceptos de probabilidad y estadística, de las distribuciones
de probabilidad estándares y de las pruebas de bondad de ajuste para las distribuciones de
probabilidad a las cuales ajustan los datos, que se usarán con posterioridad.

Página 1 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Revisión de conceptos de Probabilidad y Estadística


Definiciones
Eventos independientes: Dos eventos son independientes si la ocurrencia de un evento no afecta la
probabilidad del otro evento.

Variables aleatorias: Son las que forman un conjunto especificado de valores con probabilidad
específica.

X = {x1, x2, x3,.....xn}

Variables aleatorias discretas: La variable aleatoria es un número finito o infinitamente contable.

Ejemplo: X = {número de arribos/semana} = {3, 5, 10,6,...} (Semana 1: 3 arribos; semana 2: 5 arribos; semana 3:
10 arribos, etc.)

Función de distribución de masa p(x): Si la variable aleatoria X es discreta, para cada valor de x en la
región considerada Rx entonces se cumple que

p (xi) = p (X = xi) para i = 1, 2, 3,…., n

Esta ecuación representa la probabilidad de que la variable aleatoria sea x i y se la conoce como
función de distribución de masa. Además se debe cumplir con que:

p (xi) ≥ 0 para todo i



 p( x i )  1
i 1

Función de distribución acumulada P(x): Para el caso de variables aleatorias discretas la función
acumulada cumple con

F ( x)  P( X  x)   p( x )
xi  x
i i  1,2,...n

Ejemplo: Se quiere simular el comportamiento de una caja de un supermercado. Una de las variables que
entrarán en juego será el número de artículos comprados por cada cliente. Esa es una variable discreta porque
se compra un número entero de artículos y estocástica porque el número de artículos comprados por el cliente
es algo netamente aleatorio desde el punto de vista de la caja (la caja no sabe cuándo se comprará el artículo).

Para hacer una simulación de este tipo, es decir, representar la variable “número de artículos comprados” en
función del tiempo, se puede hacer una experiencia en una caja verdadera, tomando un número
suficientemente grande de datos como para que la experiencia sea representativa y construir una tabla como
la siguiente:

Página 2 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

N° de artículos N° de clientes
1 2
2 11
3 5
4 4
5 2
6 1

Si se quiere luego con estos datos simular la conducta de la gente, se tendría que repetir el número de clientes
(25) y distribuir al azar el orden en el que llegan los clientes con los distintos números de artículos, pero
respetando que de cada 25, vengan 2 con un solo artículo; 11 con dos artículos, etc.

Para poder usar los datos de un modo más racional y por lo tanto no limitados por el número de clientes,
conviene calcular la probabilidad de que la variable número de artículo tome los valores 1, 2, 3, 4, 5 o 6.

Se sabe por ejemplo que sobre 25 clientes, “número de artículo” tomó el valor 1, 2 veces, por lo tanto, para
poder extrapolarlo a cualquier número de clientes, se calcula la probabilidad de que aparezca como 2/25 que
es la fracción que representa el número de veces que la variable estocástica toma un valor determinado. Se
puede formar en la tabla una tercera columna con las probabilidades relativas.
N° de artículos N° de clientes Probabilidad pi P(X)
0 0 0 0
1 2 0,08 0,08
2 11 0,44 0,52
3 5 0,2 0,72
4 4 0,16 0,88
5 2 0,08 0,96
6 1 0,04 1

Notar que la  pi = 1 lo que es lógico porque se lo sacó como un “tanto por uno”.

12

10
Cantidad de Clientes

0
1 2 3 4 5 6
Frecuencia Absoluta

Distribución de frecuencia de datos discretos

Página 3 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Se ha representado el comportamiento de la variable N° de artículos comprados pero en ningún momento se


tuvo en cuenta en qué orden aparecían los clientes que se llevaban cada artículo.

Si ahora se quisiera simular la variable N° de artículos debería generar una sucesión de números cuyos valores
estén entre 0 y 6 pero respetando la distribución de probabilidad observada. Como el orden en el que los
clientes compran los distintos artículos es aleatorio ¿cómo se genera entonces la variable? Aplicando algún
método de generación de variables aleatorias (a ver en la unidad 3).

Variables aleatorias continuas: Como la variable puede tomar infinitos valores o la cantidad de datos
es suficiente como para que estén muy próximos, puede pensarse en una función de distribución
continua. Si el espacio de rango R es un intervalo o una colección de intervalos, la variable aleatoria
es una variable continua.

Función densidad de probabilidad f(x): La función de densidad de probabilidad f(x) está definida
como la probabilidad de que x tome valores entre a y b.
b
Dada X en [a, b], Pa  x  b   f ( x )dx f ( x)  0
a

 . f (x ). dx  1
n
Nota: lo que en una variable discreta era: p i  1 ahora es
1 -

Función acumulada de probabilidad F(x): Para el caso de variables aleatorias continuas la función
acumulada cumple con lo siguiente
x
F ( x)   f ( x ).dx


Por su definición F(x) es un número positivo entre cero e infinito. La probabilidad de que la variable
tome valores entre x1 y x2 es: F(x2)-F(x1)

Px1  x  x2  = F(x2)-F(x1) =
x2
x1
f ( x ).dx para x1 ≤ x ≤ x2

Valor esperado o media poblacional: es el número que formaliza la idea de valor medio de un
fenómeno aleatorio. Su expresión es la siguiente:
n 
  E ( x)   pi xi   x f ( x).dx

i 1

La suma se usa para variables discretas y la integral se usa para variables continuas.

Varianza: Es la suma de los cuadrado de la distancia entre x y su media (x -  )2. El valor esperado de
esa cantidad se llama varianza x.

Página 4 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

n 
Var ( x)  E[( x   ) 2 ]   pi ( xi   ) 2   ( xi   ) 2 f ( x).dx

i 1

La suma se usa para variables discretas y la integral se usa para variables continuas. Tradicionalmente
la varianza está determinada como 2 y la raíz cuadrada de la varianza es la desviación estándar .

Página 5 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Recolección de Datos

Introducción
Una vez realizada la formulación del modelo de simulación, es indispensable contar con los datos que
permitirán obtener los resultados esperados. En la recolección de datos, es posible que la facilidad de
obtención de algunos y la dificultad de obtención de otros, influya en el desarrollo del modelo.

Etapas en la recolección de datos


El procedimiento para la recolección de datos tiene las siguientes etapas:
1. Colección de datos del sistema real.
2. Identificación de una distribución de probabilidades para representar los procesos de entrada.
Típicamente consiste en realizar una distribución de frecuencias o histograma de los datos.
3. Elección de una distribución de probabilidades que represente los datos.
4. Elección de parámetros para determinar una instancia específica de la familia de distribuciones.
5. Evaluación de la distribución seleccionada y comprobación de la bondad de ajuste, vía gráfica
(quantil-quantil) y/o estadística (Kolgmorov-Smirnov, o Chi cuadrado u otras pruebas).
6. Repetición del último procedimiento hasta encontrar una función que ajuste a los datos. En
caso de no encontrar una distribución estándar, determinar una función empírica.

Sugerencias para recoger datos


Para realizar la recolección de datos se dan las siguientes sugerencias:
 Un gasto útil de tiempo es la planificación. Se puede hacer una sesión de pre-observación del
sistema y recoger algunos datos. Diseñar formas para este propósito. Probablemente, estas
formas sufran modificaciones antes de recoger los datos. Observar circunstancias no usuales y
pensar cómo tratarlas. Cuando es posible, filmar un video del sistema y observarlo después para
extraer los datos.
 Tratar de analizar los datos cuando se los recoge, de manera de ver si son suficientes o adecuados
para suministrar las distribuciones necesarias para la simulación, asimismo si son útiles. No perder
tiempo con datos superfluos.
 Tratar de combinar conjunto de datos homogéneos. Chequear los datos para homogeneidad en
períodos de tiempos sucesivos y durante el mismo período de tiempo en días sucesivos. Por
ejemplo, chequear datos entre las 14 hs a las 15 hs y entre las 15 y 16 hs. Hacerlo en varios días.
Cuando se chequea la homogeneidad, un test inicial es ver si las medias de las distribuciones son
las mismas. Se puede usar la prueba t de Student para dos muestras.
 Puede ocurrir que la cantidad que interesa no puede observarse completamente. Esto ocurre
cuando el analista está interesado en el tiempo requerido para completar un proceso (por
ejemplo, producir una parte, tratar un paciente, o ver cuándo falla un componente) porque el
proceso comienza antes o termina después del tiempo de observación.
 Para determinar si hay una relación entre dos variables construir un diagrama de dispersión.
 Considerar la posibilidad que una secuencia de observaciones que aparenta ser independiente
tiene una auto correlación. Puede existir entre períodos de tiempo sucesivos o clientes sucesivos.

Página 6 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Por ejemplo el tiempo de servicio de cliente i puede estar relacionado con el tiempo de servicio
del cliente i+1.

Ejemplo
Se realizó la simulación de una empresa de manufactura descripta en el problema integrador. Los
tiempos de arribos de órdenes no fueron homogéneos y la producción de los productos estuvo
definida por los pedidos que se ingresaban (es decir que no se producía si no existía un pedido).

La fábrica funcionó 12 horas por día durante un mes. Las órdenes de los clientes se clasificaron según
la cantidad de producto que demandaban en pequeñas, medianas y grandes. Y los arribos de las
mismas se obtuvieron del sistema existente de ingreso de órdenes, el cual guardaba el horario de
ingreso de las mismas.

La producción de bienes presento algunos inconvenientes, ya que para completar una orden se
necesitaba disponer de stock necesario para realizarla. Esto produjo que en ciertos momentos al
arribo de una orden se disponía del material necesario para producirla, a veces faltaba algún tipo de
pieza y otras veces no se disponía de ninguna pieza para completar la orden. Se disponía de registros
existentes en el ERP de producción con respecto al momento en que se comenzaba a operar la orden,
estos registros comprendían los últimos 2 años.

También el arribo de piezas era aleatorio, y el tipo de pieza que se recibía era aleatorio, lo que
producía que no se pudiera predecir en qué momento se comenzaría a procesar la orden. El arribo de
piezas se obtuvo por medio de los comprobantes de ingreso de piezas del proveedor.

La producción tampoco estuvo exenta de errores, y un porcentaje de los productos tuvieron que ser
reprocesados, mientras que otro porcentaje tuvo que ser directamente desechado. El porcentaje de
fallas se obtuvo de la observación directa de las operaciones.

Las máquinas también presentaron fallas que retrasaron la producción. Estás fallas tuvieron un
tiempo de reparación de varias horas. Los datos de las fallas se extrajeron de los registros de la
empresa de reparaciones, para esto se tomaron datos de los últimos años.

Página 7 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Estimación de Parámetros
Introducción
En general, los datos experimentales observados se tratan de ajustar a una distribución teórica, y
luego usar ésta última en la simulación. Para ver que distribución usar debemos recordar la definición
de media y de desviación estándar de un muestra de tamaño n.

Estimación de la media y de la varianza para datos crudos:


̅

̅

Para datos discretos con K valores y F frecuencias:


̅

̅

Para datos continuos agrupados en K intervalos, cada uno con frecuencia F y punto medio M.


̅

̅

 n: total del tamaño de la muestra = ∑


 k: número de intervalos de clases
 Mi: Punto medio del i-ésimo intervalo de clase
 Fi: Frecuencia observada absoluta en el i-ésimo intervalo de clase.

Página 8 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Identificación de los datos con distribuciones estándares y empíricas


Introducción
Una distribución de frecuencias o histograma es útil para identificar la forma de una distribución. Un
histograma se construye en las siguientes etapas:
1. Dividir el rango de datos en intervalos (generalmente son de igual amplitud, pero pueden ser
distintos).
2. Elegir la escala del eje horizontal según los intervalos seleccionados.
3. Determinar las ocurrencias en los intervalos seleccionados.
4. Elegir la escala del eje vertical de modo que todas las ocurrencias puedan ser graficadas para
cada intervalo.
5. Graficar las frecuencias sobre el eje vertical.

El número de intervalos de clase depende de la cantidad de datos observados y de la dispersión en los


datos. Se sugiere que el número de intervalos de clase sea la raíz cuadrada del tamaño de muestras
trabajado en la práctica.

20 50 15
15 40
30 10
10
20 5
5 10
0 0 0
1 4 7 10 13 16 19 22 25 0 5 10 15 20 25 0 3 6 9 12 15 18 21 24
Selección de distintos intervalos de clases

Si los intervalos son muy anchos, el histograma será muy burdo y no mostrará la forma o tendencia de
los datos. Al contrario, si los intervalos son muy estrechos, el histograma será muy desigual.

El histograma para datos continuos corresponde a la función densidad de probabilidad de una


distribución teórica. Si la función es continua, la función de densidad de probabilidad (probability
density function o pdf) se obtiene mediante la línea que pasa por el punto central de cada intervalo
de clase.

Los histogramas de datos discretos donde hay un gran número de puntos, tendrán una celda de cada
valor en el rango de los datos. Sin embargo, si hay pocos puntos se necesita combinar celdas
adyacentes para eliminar la apariencia desigual del histograma. Si el histograma está asociado con
datos discretos, se verá como una función de masa de probabilidad.

El propósito de un histograma es inferir una función distribución de probabilidad o una distribución


de probabilidad de masa conocida. Hay software estadístico o gráfico, incluso las planillas de cálculo
más difundidas, que hacen el histograma y que ajustan a una distribución determinada.

Página 9 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Otra forma de ver cómo ajustan los datos a una distribución es realizar los gráficos de un histograma
quantil-quantil (q-q). Si estos gráficos tienen una recta con pendiente cercana a 1, entonces la
distribución seleccionada es apropiada. En pocas palabras en estos gráficos la ordenada son los
valores experimentales y la abscisa los valores teóricos generados (con T.I. por ejemplo) mediante la
distribución seleccionada.

Ejemplo de tratamiento de datos discretos


Dado el ejemplo integrador, observamos el arribo de piezas de tipo A al almacén. Esta observación se
realizó en un período de 8 horas, desde las 8 am hasta las 16 p.m., durante 10 días. Los resultados se
muestran en la siguiente tabla:
Arribos por período Frecuencia
0 12
1 10
2 14
3 15
4 13
5 10
6 9
7 6
8 5
9 3

De la tabla anterior podemos obtener el siguiente histograma:

16

14

12

10
Frecuencia

0
0 1 2 3 4 5 6 7 8 9
Período

Ejemplo de tratamiento de datos continuos


Dado el ejemplo integrador, se obtuvieron los datos del funcionamiento de la máquina A entre fallas.
Este tiempo representa el tiempo efectivo de funcionamiento de una máquina antes de romperse

Página 10 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

(fallar) y deber ser reparada. El tiempo está medido con una exactitud de segundos, en este caso se
muestran los datos agrupados en intervalos desde 0 minutos hasta 150 minutos que fue el mayor
tiempo sin falla de la máquina 1.

Tiempo de funcionamiento (sin fallas) en minutos Frecuencia


0 < Xj < 10 0
10 < Xj < 20 1
20 < Xj < 30 0
30 < Xj < 40 1
40 < Xj < 50 1
50 < Xj < 60 2
60 < Xj < 70 0
70 < Xj < 80 1
80 < Xj < 90 1
90 < Xj < 100 0
100 < Xj < 110 5
110 < Xj < 120 10
120 < Xj < 130 12
130 < Xj < 140 20
140 < Xj < 150 18

De la tabla podemos obtener el siguiente histograma:

25

20

15
Frecuencia

10

0
5 15 25 35 45 55 65 75 85 95 105 115 125 135 145
Tiempo de Funcionamiento

Página 11 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Distribuciones de probabilidades discretas estándares


Distribución Uniforme Discreta 0,12
0,1
Límite inferior = m 0,08

p (x)
0,06
Límite superior = n
0,04
Función distribución de masa: 0,02
0
p(x) = 1/(n-m+1) 1 2 3 4 5 6 7 8 9 10
x
Distribución Uniforme Discreta

Función distribución acumulada:

( ) {

Distribución de Poisson
Se usa para modelar el número de eventos que ocurren en un intervalo dado de tiempo. La función de
probabilidad de masa es:

( )

Donde λ es el parámetro de forma que indica


el número promedio de eventos en un
intervalo dado de tiempo.

Parámetros:

Media λ y Desviación Estándar √

Distribuciones de Poisson para distintos λ

Página 12 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

La función de probabilidad acumulada es:

( ) ∑

La función de distribución acumulada no


tiene expresión analítica y debe calcularse
numéricamente.

Distribuciones de Poisson acumuladas para los mismos λ anteriores

La distribución de Poisson se usa para modelar el número de arribos en un intervalo dado, como el
número de requerimientos a un servidor, el número de fallas de un componente por unidad de
tiempo, el número de consultas a una base de datos en un tiempo dado, el número de errores de
tipeo por formulario, etc. Es una distribución particularmente apropiada si los arribos proceden de un
gran número de fuentes independientes, que se llaman procesos de Poisson según la teoría de colas.

Página 13 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Distribuciones de probabilidades continúas estándares


Distribución Uniforme
Parámetros: a y b (límites superior e inferior)

Función densidad de distribución:

( ) {
( )

Función de distribución Uniforme

Función de distribución acumulada:

( ) {

Función de distribución Acumulada Uniforme

Distribución Normal
Es la distribución de probabilidad más usada. Toda suma de un número grande de observaciones
independientes tiene una distribución normal o de Gauss.

La función de distribución es:


( )⁄

( )

Página 14 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Los parámetros son la media μ y la desviación estándar  de x y la función se nombra N (μ,). Cuando
la media μ es 0 y la desviación estándar es 1, la distribución normal se llama normal unidad o
distribución normal estándar, nombrada N(0,1) y muy usada en la modelización estadística. Un 
quantil de la variable normal unidad z se nombra como z . Si una variable aleatoria x tiene una
distribución N(μ,) puede transformarse a una distribución N(0,1) haciendo (x-μ)/ = z, entonces

( ) ( )

El área bajo la curva de la distribución N(0,1) entre z y 0 para varios valores de z se lista normalmente
en tablas.

La popularidad de la distribución normal se debe a que:


 La suma de n variables independientes normal es una variable normal.
 La suma de un gran número de observaciones independientes de cualquier distribución tiende
a una distribución normal. Este resultado, conocido como teorema central del límite, es
verdadero para observaciones de todas las distribuciones. Por esa razón los errores
experimentales se modelan con una distribución normal.

Distribución de Weibull
La fórmula de la función densidad de probabilidad es:
( )
( )
( ) ( )

Ɣ: Parámetro de forma.
: Parámetro de escala.
μ : media.

Si μ=0 y =1 se tiene la distribución estándar


de Weibull:

( ) ( ) ( )

Es un ejemplo de una distribución que tiene un


parámetro de forma. Función de distribución de probabilidad de Weibull

Se observan una distribución exponencial, una distribución sesgada a la derecha, y una distribución
relativamente simétrica. La forma de la distribución de Weibull es relativamente simple, aunque el
parámetro de forma asume una amplia variedad de formas que lo hace muy efectivo en problemas de
confiabilidad..

Página 15 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

La función de distribución acumulada de Weibull es:

( ) ( )

Función de distribución acumulada de Weibull

Distribución Triangular
Se usa cuando no se conocen datos salvo los valores máximos y mínimos de extremos.

Función de distribución de probabilidad:

 2( x  a)
 (b  a)(c  a) , a  x  b

 2(c  x)
f ( x)   , bxc
 ( c  b )( c  a )
0, en cualquier otro punto

La altura del triángulo es 2/(c-a). Función de distribución triangular

La función densidad de probabilidad acumulada es:

0 x  0

 ( x  a)
2
a xb
 (b  a)(c  a)
f ( x)  
1  (c  x)
2
bxc
 (c  b)(c  a)

1 x  c

Función de distribución Acumulada Triangular

Página 16 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Distribución Exponencial
La expresión de la función de distribución exponencial es:

( ) ( )
( )

Los parámetros son la velocidad de arribos 


(media) y la varianza 2 . También se puede
expresar según el tiempo medio de arribos T,
en cuyo caso la media es 1/T y la varianza es
1/T2.
Distribución exponencial

La función distribución de probabilidad acumulada es:

( ) {

La función exponencial está asociada a los


procesos de Poisson. Los tiempos en los que
ocurren procesos de Poisson tienen
distribución exponencial.

Distribución acumulada exponencial

Página 17 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Pruebas de Bondad de Ajuste


Introducción
Las pruebas de bondad de ajuste son una guía para evaluar la idoneidad de una probabilidad como
entrada de un modelo. Estas pruebas se tienen que tomar con cuidado cuando hay pocos y muchos
datos. En el primer caso los test o pruebas de bondad de ajustes detectan sólo grandes diferencias. En
el caso de muchos datos se corre el riesgo de no elegir la distribución más apropiada.

Prueba quantil-quantil
El gráfico quantil-quantil (q-q) es una técnica gráfica para determinar si dos conjuntos de datos
provienen de poblaciones con una distribución común. Un gráfico q-q es un gráfico de los quantiles
del primer conjunto de datos contra los quantiles del segundo conjunto de datos. Por quantil,
queremos decir la fracción (o porcentaje) de puntos por debajo del valor dado. Esto es, el quantil 0,3
(o 30%) es el punto en el cuál el 30 % de los datos caen debajo y el 70 % caen arriba de este valor.

Se dibuja, además, una línea de referencia a 45º. Si los dos conjuntos de datos vienen de una
población con la misma distribución, los puntos deberían caer aproximadamente a lo largo de esta
línea de referencia. Cuanto más grande sea el alejamiento de esta línea de referencia, mayor es la
evidencia para la conclusión de que los dos conjuntos de datos han venido de poblaciones con
diferentes distribuciones.

Las ventajas del gráfico q-q son:


 Los tamaños de muestra no necesitan ser iguales.
 Muchos aspectos de las distribuciones pueden ser testeados simultáneamente: cambios de
ubicación, cambios de escala, cambios en la simetría y la presencia de puntos periféricos.

El gráfico q-q es similar al gráfico de probabilidad. Para un gráfico de probabilidad, los quantiles para
una de las muestras de datos son reemplazados con los quantiles de una distribución teórica.

Gráfico quantil-quantil

Este gráfico q-q muestra que:


 Estas dos tomas de datos no parecen provenir de poblaciones con una distribución común.

Página 18 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

 Los valores de la muestra uno son significativamente mayores que los valores correspondientes
de la muestra dos.
 Las diferencias crecen desde los valores 525 a 625. Luego los valores para las dos muestras se
acercan nuevamente.

El gráfico q-q está formado por:


 Eje vertical: Quantiles estimados para el conjunto de datos 1.
 Eje horizontal: Quantiles estimados para el conjunto de datos 2.

Las unidades de los ejes corresponden a las del conjunto de datos del cual provienen. Esto es, no se
muestra el nivel de quantil actual. Para un punto dado en el gráfico q-q, sabemos que el nivel del
quantil es el mismo en ambos ejes, pero no cual es realmente ese nivel de quantil.

Si los conjuntos de datos tienen el mismo tamaño, el gráfico q-q es esencialmente un gráfico de un
conjunto de datos ordenados 1 contra un conjunto de datos ordenados 2. Si los conjuntos de datos no
son del mismo tamaño, se acomodan los quantiles para corresponder a los valores ordenados del
conjunto de datos más chico y luego se interpolan los quantiles para el conjunto de datos más grande.

El gráfico q-q es usado para responder las siguientes preguntas:


 ¿Los dos conjuntos de datos vienen de poblaciones con la misma distribución?
 ¿Los dos conjuntos de datos tienen ubicación y escalas comunes?
 ¿Los dos conjuntos de datos tienen formas de distribución similares?
 ¿Los dos conjuntos de datos tienen comportamiento de cola similar?

Cuando hay dos muestras de datos, comúnmente se desea saber si se justifica suponer una
distribución común para ambas muestras.

Si es así, luego los estimadores de ubicación y escala pueden juntar ambos conjuntos de datos para
obtener estimaciones de la ubicación y escala común. Si las dos muestras difieren, es también útil
entender las diferencias. El gráfico q-q puede proveer mayor conocimiento sobre la naturaleza de la
diferencia que los métodos analíticos tales como los test de dos muestras de chi-cuadrado y
Kolmogorov-Smirnov.

Prueba Chi-Cuadrado ( 2 )
Esta prueba formaliza la idea intuitiva de aproximar un histograma de una muestra de n
observaciones con una distribución de probabilidad estándar. Se aplica para tamaños de muestras
grandes, hipótesis de distribuciones continuas y discretas con parámetros estimados con la máxima
exactitud.

El procedimiento de la prueba consiste en organizar las n observaciones en k intervalos de clase.


Luego se debe calcular un estadístico de la siguiente forma:

( )

Página 19 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

: probabilidad observada para cada clase o intervalo.


: probabilidad esperada para cada clase predicha por la distribución teórica.

Se busca el 2 crítico de tablas, para i grados de libertad y se compara con el estadístico calculado. Si
el estadístico es menor que el obtenido por la tabla, para un grado de confianza dado, la distribución
propuesta ajusta a los datos observados.

Si 02 <2 crítico de tablas → se acepta la distribución propuesta

Para realizar el test del 2 se debe tener en cuenta:


 Las probabilidades deben ser absolutas (no en tanto por 1).
 Las probabilidades esperadas en cada intervalo deben ser > 5. Si no diera 5, entonces se
agrupan las probabilidades de las celdas o intervalos adyacentes y se suman las frecuencias
hasta que de 5 o más. Se repite el agrupamiento con las probabilidades observadas de las
mismas celdas.
 Los grados de libertad para entrar a la tabla del 2 están dados por:
D=k-1-m
o D: grados de libertad
o k: n° de intervalos o clases que hayan quedado después de sumar los necesarios para
obtener frecuencias > a 5.
o m: n° de parámetros extras (por ejemplo media, desviación estándar, etc.) obtenidos a
partir de la distribución experimental que se use para el cálculo.
 El nivel de confianza varía usualmente entre 0,995 y 0,900 (o sea el nivel de significación varía
entre 0,005 y 0,1 o 0,5% y 10 %)

Las tablas de 2crítico se encuentran en libros de estadística o de simulación de eventos discretos,


como así también hay software estadístico o facilidades en las planillas de cálculo para hacer la
prueba.

Ejemplo de aplicación de Chi-cuadrado


Dado el ejemplo integrador, la siguiente tabla de frecuencias observadas corresponden a arribos de
órdenes de clientes por día a la fábrica.

N° de ordenes Frecuencia absoluta Frecuencia Relativa Cálculos auxiliares


N° de días
Mi Fi Mi2 Fi
0 315 0.619 0 0
1 142 0.279 142 142
2 40 0.078 80 160
3 9 0.018 27 81
4 2 0.004 8 32
5 1 0.002 5 25
Tabla: Observaciones del arribo de órdenes

Se tomaron 509 días; en 315 días no hubo órdenes; en 142 días hubo una orden, en 40 días de las 509
hs se registraron 2 ordenes y así.

Página 20 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Como se observan valores altos para x = 0 o cerca de cero, podemos pensar en una distribución
exponencial o de Poisson, pero los datos son discretos, por lo tanto es más probable que sea Poisson.
Se estiman los parámetros  (media) y  (desviación estándar):

∑ ( )
( )

Para que la distribución fuera de Poisson  =2 = , en este caso no dan exactamente iguales, pero
por el tipo de fenómeno, hay razones para suponer que Poisson anda bien. Observando la frecuencia
relativa de la tabla se ve que:
 La probabilidad de que un evento no ocurra (ocurrencia cero) en cualquier intervalo es alta
(0.619)
 La probabilidad de que ocurra en cualquier intervalo es pequeña (observar 2-3-4-5)
 La ocurrencia del evento no tiene efecto sobre la ocurrencia de otro (la ocurrencia del otro
evento es independiente de la ocurrencia del primero).

Por estas razones Poisson debería andar bien (también se podría probar algún caso de la distribución
Gamma).

Se estima una media a partir de:

La distribución para ajustar será:

La distribución esperada se calcula con la media  obtenida a partir de los datos experimentales.
Como  =2 = , por lo tanto habrá que bajar en 1 el grado de libertad (m = 1).

Además hay que recordar que la frecuencia esperada es absoluta, por lo que se debe multiplicar la
función propuesta por el número total de observaciones.

( )

Página 21 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

2 2
K fo (Frecuencia observada absoluta) fe (Frecuencia Esperada absoluta) χ = (fo-fe) /fe
0 315 291 1,98
1 142 162 2,47
2 40 44,15 0,39
3 9 9
4 2 12 1 11 0,09
5 1 1
Tabla: Estadístico chi-cuadrado de los datos

Se observa que los intervalos 4 y 5 tienen frecuencias menores que 5. Entonces se suman a las celdas
adyacentes para dar 5 o mayor.

( )

Con un nivel de confianza de 0.95 y con 2 grados de libertad, calculados como:

D = k - m - 1 = 4-1-1=2

Donde k es el número de intervalos resultantes (recordar que de los 6 datos se agruparon 2 y en


consecuencia quedaron 4).

Buscando en la tabla de chi-cuadrado para 2 grados de libertad y un nivel de confianza del 95 % (o su


equivalente nivel de significación =0,05) se obtiene el chi-cuadrado “crítico” con un valor de 5,99.

2 calculado < 2 crítico = 5.99

Entonces se concluye que la distribución elegida ajusta bien los datos.

La prueba del chi cuadrado es recomendable para un número de muestras de datos continuos como
la que figura en la tabla:
Tamaño de muestra n Número de intervalos de clase k
20 No usar chi-cuadrado
50 5 a 10
100 10 a 20
> 500 n1/2 a n/5
Tabla: Recomendaciones de uso de la prueba chi-cuadrado

Estrictamente la prueba chi cuadrado está diseñada para distribuciones discretas y para muestras de
gran tamaño. Si se la aplica a distribuciones continuas es sólo una aproximación.

Prueba Kolmogorov-Smirnov
En esta prueba se usa la distribución de probabilidad acumulada de datos continuos y se aplica para
un número pequeño de muestras.

Página 22 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

La prueba consiste en comparar la diferencia entre los valores de las funciones de distribución
acumulada observada y esperada con un valor crítico que está tabulado. La tabla de valores críticos
para esta prueba se puede encontrar en cualquier libro de Probabilidad y Estadística o de Simulación.
Tiene como entrada el tamaño de muestra y como salida las diferencias críticas según el nivel de
significancia . Los grados de libertad para esta prueba están dados por N que es el tamaño de la
muestra.

La tabla tiene valores hasta N = 35 y luego se agrupa en familias de ⁄√ .

El valor o estadístico de los datos observados a comparar con el valor crítico de las tablas (D) es la
mayor diferencia entre la función de distribución acumulada observada y la esperada.

| ( ) ( )|

| ( ) ( )|

D+ es la diferencia cuando la F observada está arriba de la F esperada.

D- es la diferencia cuando la F observada esta abajo de la F esperada. Se comete un error cuando se


calcula | ( ) ( )| ya que es un segmento horizontal de cualquier
intervalo , entonces debemos comparar la función en el punto anterior.

Se determinan los D+ y D- y se elige el , que se compara con el D de K-S de tabla


para N grados de libertad y  nivel de significación.

- +
Figura: Prueba de K-S y determinación de D y D

La prueba de K-S original usada por la bibliografía de estadística busca la desviación máxima del valor
absoluto de la diferencia entre la Frecuencia esperada y la observada en un punto:

| ( ) ( )|

Página 23 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Pero esta fórmula tiene el inconveniente que no considera que la frecuencia observada esté definida
en un intervalo y no en un punto, cuando se hace el tratamiento de datos capturados de un sistema
real.

Ejemplo de aplicación de Kolmogorov-Smirnov


Dado el problema integrador, se desea saber si el tiempo entre fallas de la máquina 1 corresponde a
una distribución uniforme, entre 36 y 48 horas. Para ello se tienen las siguientes muestras del tiempo
de falla:
43,866 47,001 39,748
36,219 46,530 44,329
42,533 37,735 40,416
38,497 36,682 39,790
44,812 38,332 45,387
40,476 43,361 39,578
47,977 47,969 47,629
41,049 36,162 46,892
47,938 44,245 41,803
36,463 39,867 38,779

Y la tabla con los cálculos queda de la siguiente manera:

Intervalo Frecuencia F. Acumulada F. Esperada D+ D-


36,000-38,000 5 0,17 0,2 0,03 0,2
38,001-40,000 7 0,4 0,3 0,1 0,13
40,001-42,000 4 0,53 0,5 0,03 0,1
42,001-44,000 3 0,63 0,7 0,07 0,17
44,001-46,000 4 0,77 0,8 0,03 0,17
46,001-48,000 7 1 1 0 0,23
D maximo 0,1 0,23

El D máximo es entonces:

Y el D que obtenemos de tabla con N=30 y α=0,05 es:

Entonces:

Por lo tanto concluimos que la muestra ajusta a una distribución uniforme como la propuesta.

Página 24 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Prueba Anderson-Darling (A2)


La prueba de Anderson-Darling es una modificación de la prueba de Kolmogorov-Smirnov (K-S) y dá
más importancia a la dispersión en datos, que la prueba de K-S.

El test o prueba de K-S es una distribución independiente en el sentido de que los valores críticos no
dependen de la distribución específica que está siendo testeada. La prueba de Anderson-Darling, en
cambio, calcula valores críticos según sea la distribución en análisis. Esto tiene la ventaja de permitir
un test más sensible y la desventaja de que los valores críticos deben ser calculados para cada
distribución.

Las hipótesis del test de A-D están definidas como :


 H0: Los datos ajustan a una determinada distribución c
 Ha: Los datos no ajustan a una determinada distribución c

El estadístico del test de A-D se define como:

Donde:
( )
∑ ( ) ( ( ))

F es la función de distribución acumulada de la distribución observada, Yi son los datos y el nivel de


significancia es .

Los valores críticos para el test de A-D son dependientes de la distribución que está siendo testeada.
Si el estadístico ajustado es menor que el obtenido en tabla, para un grado de confianza dado, los
datos observados se ajustan a la distribución propuesta y la hipótesis H0 es aceptada.

Caso Estadístico ajustado 1- α


0.900 0.950 0.975 0.990
Todos los parámetros desconocidos A2n para n ≥ 5 1.933 2.492 3.070 3.857
2 2 2
N(X(n), S (n)) (1 + 4/n – 25/ n ) A n 0.632 0.751 0.870 1.029
Exp(X(n)) (1 + 0.6/n) A2n 1.070 1.326 1.587 1.943
2
Weibull(α,β) (1 + 0.2/ √n) A n 0.637 0.757 0.877 1.038
Tabla de valores críticos para el estadístico ajustado de A-D

Ejemplo de aplicación de Anderson-Darling

Aplicar el test de Anderson-Darling con un nivel de significación  = 0,05 para los siguientes 10 datos
correspondientes a los tiempos en minutos entre arribos de clientes a un banco: 3.10, 0. 20, 12.10,
1.40, 0.05, 7; 10. 90, 13.70, 5.30, 9. 10. Los datos se recogieron en un período de 63 minutos.

H0: Los datos ajustan a una distribución exponencial

Ha: Los datos no ajustan a una distribución exponencial

Página 25 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Tendremos la siguiente tabla de valores :

i Yi F(Yi) lnF(Yi) ln(1-F(YN+1-i)) (2i-1)/N (2i-1)/N*[lnF(Yi)+ln(1-F(YN+1-i))]


1 3,1 0,049 -3,015934981 -6,214608098 0,10 -0,923054308
2 3,3 0,052 -2,95651156 -1,917322692 0,30 -1,462150276
3 15,4 0,244 -1,410587054 -1,465337568 0,50 -1,437962311
4 16,8 0,267 -1,320506621 -0,802962047 0,70 -1,486428067
5 16,85 0,267 -1,320506621 -0,476424197 0,90 -1,617237736
6 23,85 0,379 -0,970219074 -0,310609577 1,10 -1,408911516
7 34,75 0,552 -0,594207233 -0,310609577 1,30 -1,176261853
8 48,45 0,769 -0,262664309 -0,279713903 1,50 -0,813567318
9 53,75 0,853 -0,158995731 -0,053400777 1,70 -0,361074064
10 62,85 0,998 -0,002002003 -0,050241216 1,90 -0,099262116
∑= -10,78590957

S = -10,78590957
N = 10

Valor del estadístico: A2 = - N – S = -10 + 10,78590957 = 0.78590957

El valor crítico para el estadístico ajustado (caso Exponencial):

(1 + 0.6/N)* A2N = 0.833064144

Observamos que el estadístico ajustado es menor que los de tabla, para cualquier nivel de
significancia. Por lo tanto, podemos decir que los datos observados ajustan a la distribución
propuesta y la hipótesis H0 es aceptada.

Página 26 de 27
SIMULACIÓN
Ingeniería Sistemas de Información Unidad 2

Bibliografía
“Simulation Modeling and Analysis”, Averil M. Law y W. David Kelton, Ed. Mc. Graw-Hill, (1991).

“Discret-Event System Simulation”, Jerry Banks, John S. Carson II, Barry Nelson, Ed. Prentice-Hall,
(1996).

“Discrete systems simulation”, B. Koshnevis, McGraw-Hill, (1994).

“The Art of Computer System Performance Analysis – Techniques for Experimental Design,
Measurement, Simulation and Modeling”, Raj Jain, Ed. John Willey & Sons, 1991.

Página 27 de 27

You might also like