Professional Documents
Culture Documents
Esto no quiere decir que no podamos extraer, a partir del conocimiento de una
muestra, inferencias con respecto a la población de la que se extrajo la
muestra, sino que el concepto matemático de probabilidad es inadecuado para
expresar nuestra confianza mental o diferencia en hacer tales inferencias, y
que la cantidad matemática que parece ser apropiada para medir nuestro orden
de preferencia entre diferentes poblaciones posibles no obedece de hecho a las
leyes de probabilidad. [pag. 11] Para distinguirlo de la probabilidad, he usado
el término " Probabilidad " para designar esta cantidad; ya que tanto las
palabras "probabilidad" como "probabilidad" se usan de manera general en el
habla común para cubrir ambos tipos de relación.
Las estadísticas consistentes , por otra parte, tienden cada vez más a dar los
valores correctos, a medida que la muestra aumenta cada vez más; En
cualquier caso, si tienden a un valor fijo no es incorrecto. En los casos más
simples, a los que nos referiremos, no solo tienden a dar el valor correcto, sino
que los errores, para muestras de un tamaño dado, tienden a distribuirse en
una distribución bien conocida (de las cuales, más en el cap. III.) Conocido
como el. Ley normal de frecuencia de error, o más simplemente como
la distribución normal. La responsabilidad de error puede, en tales casos,
expresarse calculando el valor medio de los cuadrados de estos errores, un
valor que se conoce como la varianza; y en la clase de casos a los que nos
referimos, la varianza disminuye al aumentar las muestras, en proporción
inversa al número de la muestra.
Las estadísticas que tienen una eficiencia inferior al 100% pueden usarse
legítimamente para muchos propósitos. Es posible, por ejemplo, que en
algunos casos sea laborioso aumentar el número de observaciones que aplicar
un método más elaborado de cálculo de los resultados. A menudo puede
suceder que una estadística ineficiente sea lo suficientemente precisa para
responder a la particular [pág. 14] preguntas en litigio. Sin embargo, existe
una limitación para el uso legítimo de estadísticas ineficientes que debe
mencionarse por adelantado. Si vamos a realizar pruebas precisas de bondad
de ajuste, los métodos de ajuste empleados no deben introducir errores de
ajuste comparables a los errores de muestreo aleatorio.; cuando se investiga
este requisito, parece que cuando se requieren pruebas de bondad de ajuste, las
estadísticas empleadas en el ajuste no solo deben ser consistentes, sino que
también deben tener una eficiencia del 100 por ciento. Esta es una limitación
muy seria para el uso de estadísticas ineficientes, ya que. en el examen de
cualquier conjunto de datos, es deseable poder en cualquier momento probar
la validez de uno o más de los supuestos provisionales que se han hecho.
Hubiera sido imposible dar métodos adecuados para la gran variedad de tipos
de pruebas que se requieren, pero para las circunstancias imprevistas de que
cada solución matemática aparezca una y otra vez en preguntas que a primera
vista parecían ser bastante distintas. Por ejemplo, la solución de Pearson en
1900 de la distribución de 2.es en realidad equivalente a la distribución de
la varianza según se estima a partir de muestras normales, de las cuales la
solución no se dio hasta 1908, y luego de manera bastante tentativa, y sin
prueba matemática completa, por "Estudiante". El autor encontró la misma
distribución para el índice de dispersión derivado de pequeñas muestras de un
Poisson [pág. 17] Series. Lo que es aún más notable es que, aunque el artículo
de Pearson de 1900 contenía un grave error, que viciaba la mayoría de las
pruebas de bondad de ajuste realizadas por este método hasta 1921, la
corrección de este error no cambia la forma de la distribución, y solo requiere
que se deduzcan algunas unidades de una de las variables con las que se
ingresa la tabla de 2 .
(1) Para lectores no matemáticos, numérico [pág. 19] las tablas son, en
cualquier caso, necesarias; Las tablas precisas no son más difíciles de usar,
aunque son más laboriosas de calcular, que las tablas inexactas que incorporan
las aproximaciones actuales.
(3) Las distribuciones exactas, con el uso de las cuales se trata principalmente
este libro, se han desarrollado de hecho en respuesta a los problemas prácticos
que surgen en la investigación biológica y agrícola; Esto es cierto no solo por
la contribución del autor al tema, sino también desde el comienzo del examen
crítico de las distribuciones estadísticas en el documento "Student's" de 1908.
La mayor parte del libro está ocupada por ejemplos numéricos; y estos quizás
podrían con ventaja haber aumentado en número. Al elegirlos le ha parecido
al autor una tarea sin esperanza [p. 20] para intentar ejemplificar la gran
variedad de temas a los que se pueden aplicar estos procesos de manera
útil. No hay ejemplos de estadísticas astronómicas, en los que se haya
realizado un trabajo importante en los últimos años, pocos estudios sociales, y
las aplicaciones biológicas se dispersen de forma no sistemática. Los ejemplos
han sido elegidos cada uno para ejemplificar un proceso particular, y rara vez
debido a la importancia de los datos utilizados, o incluso de exámenes
similares de datos análogos. Mediante un estudio de los procesos
ejemplificados, el estudiante debe poder determinar a qué preguntas, en su
propio material, tales procesos son capaces de dar una respuesta definida; e,
igualmente importante, qué otras observaciones serían necesarias para
resolver otras cuestiones pendientes. De conformidad con el propósito de los
ejemplos, el lector debe recordar que no pretenden ser exámenes críticos de
cuestiones científicas generales, lo que requeriría el examen de datos mucho
más extensos y de otras pruebas, sino que se ocupan exclusivamente de las
pruebas de El lote particular de datos presentados.
5. Tablas Matemáticas
JWL Glaisher (1871), Phil. revista , Serie IV. Vol. XLII. pag. 436.
ambos de los cuales son tablas valiosas, en una escala más extensa que la
Tabla I. En la Tabla II. Hemos dado las desviaciones normales
correspondientes a probabilidades muy altas. Debe recordarse que incluso las
desviaciones leves de la distribución normal harán que estas probabilidades
muy pequeñas sean relativamente inexactas, y que rara vez podemos estar
seguros, en cualquier caso particular, de que estas altas probabilidades sean
precisas. La tabla ilustra el hecho general de que la importancia en la
distribución normal de las desviaciones que exceden cuatro veces la
desviación estándar es extremadamente pronunciada.
TABLA III .; tabla de 2 . - Las tablas del valor de P para diferentes valores
de 2 y n ' , fueron dadas por
En este momento solo puedo rogar la indulgencia del lector [p. 24] por la
inadecuación de la tabla actual, abogando en mi defensa de que, en el terreno
tan recientemente ganado, como lo ocupa la mayor parte de este libro, aún no
se pueden esperar todas las instalaciones y comodidades que muchos
trabajadores pueden acumular gradualmente.
Si los alelomorfos del primer factor son A y a , y del segundo factor B y b , los
cuatro tipos de gametos AB, Ab, aB y ab serán producidos por los machos y
las hembras en proporciones dependiendo del vínculo de los factores. , sujeto
a la condición de que los alelomorfos de cada factor ocurren con la misma
frecuencia. [pag. 25] Las proporciones serán los dos sexos; Supongamos que
las proporciones sean
entonces, si los dos genes dominantes se derivan del mismo padre, q , q ' serán
las relaciones de cruce, si de diferentes padres las relaciones de cruce
serán p , p ' .
Al tomar todas las combinaciones posibles de los gametos, parece que los
cuatro tipos de descendencia ocurrirán en las proporciones
( + + + ) x 2 - ( -2 - - ) x - 2 = 0, [pág. 26]
La solución positiva de cuál es el valor más probable para pp ' , como se juzga
a partir de los datos.
Para dos factores en Primula se observaron los siguientes números (datos de
Winton y Bateson ):
la cuadrática para x es
669 x 2 + 80 x - 140 = 0,
DIAGRAMAS
7. El examen preliminar
de la mayoría de los
datos se facilita mediante
el uso de diagramas. Los
diagramas no prueban
nada, pero traen
características
sobresalientes al ojo; por
lo tanto, no son
sustitutos de las pruebas
críticas que pueden
aplicarse a los datos,
pero son valiosos para
sugerir tales pruebas y
para explicar las
conclusiones fundadas
sobre ellas.
8. Diagramas de
tiempo, tasa de
crecimiento y tasa de
crecimiento relativa
El tipo de diagrama en el
uso más frecuente
consiste en trazar los
valores de una variable,
como el peso de un
animal o una muestra de
plantas contra su edad, o
el tamaño de una
población en intervalos
sucesivos de
tiempo. Debe
distinguirse entre los
casos en que el mismo
grupo de animales, como
en un experimento de
alimentación, se pesa en
intervalos sucesivos de tiempo, y los casos, más característicos de la fisiología
vegetal, en los que los mismos individuos no se pueden usar dos veces, pero
Se toma una muestra paralela a cada edad. Lo mismo. La distinción se
produce en los recuentos de microorganismos [p. 28] entre los casos en que se
realizan recuentos a partir de muestras del mismo cultivo, o de muestras de
cultivos paralelos. Si es importante obtener la forma general de la curva de
crecimiento, el segundo método tiene la ventaja de que cualquier desviación
de la curva esperada puede confirmarse a partir de evidencia independiente en
la siguiente medición, mientras que al usar el mismo material no se puede
obtener tal confirmación independiente. Por otro lado, si el interés se centra en
la tasa de crecimiento, hay una ventaja en el uso del mismo material, ya que
solo así se pueden medir los aumentos reales en el peso. Ambos aspectos de la
dificultad solo pueden superarse replicando las observaciones; mediante la
realización de mediciones en varios animales bajo tratamiento paralelo, es
posible evaluar, a partir de los pesos individuales, aunque no de los medios, si
su curva de crecimiento se corresponde con un curso teórico de desarrollo
asignado o si difiere significativamente de esta o de una Serie probada de
forma diferente. Igualmente, Si una cantidad de plantas de cada muestra se
pesan individualmente, se pueden obtener tasas de crecimiento con errores
probables conocidos, y por lo tanto se pueden usar para comparaciones
críticas. Por supuesto, se debe tener cuidado de que cada una sea estrictamente
una muestra aleatoria.
[pag. 31]
La figura 1A muestra
el curso del aumento
del peso absoluto; La
pendiente promedio
de dicho diagrama
muestra la tasa
absoluta de
aumento. En este
diagrama, los puntos
caen
aproximadamente en
una línea recta, lo
que muestra que la
tasa de aumento
absoluta fue casi
constante en
aproximadamente
1.66 oz. por día. La
figura 1B muestra el
curso del aumento en
el logaritmo natural
del peso; la pendiente en cualquier punto muestra la tasa relativa de aumento,
que, aparte de la primera semana, disminuye perceptiblemente con la
edad. Las características de tales curvas se resaltan mejor si las escalas de los
dos ejes se eligen de modo que la línea forme ángulos aproximadamente
iguales con los dos ejes; con líneas casi verticales o casi horizontales, los
cambios en la pendiente no se perciben tan fácilmente. [pag. 32]
9. Diagramas de correlación
Si las observaciones son tan numerosas que los puntos no se pueden distinguir
claramente, es mejor dividir el diagrama en cuadrados, registrando la
frecuencia en cada uno; Este registro semi-esquemático es una tabla de
correlación.
En lugar de hacer un
diagrama de puntos,
a veces se adopta el
dispositivo para
organizar los valores
de una variable en
orden de magnitud, y
para trazar los
valores de una
segunda variable en
el mismo orden. Si la
línea así obtenida
muestra alguna
pendiente
perceptible, o una
tendencia general,
las variables se
consideran asociadas. La Fig. 3 representa la línea obtenida de lluvia lejana,
cuando los años están ordenados por orden de rendimiento de trigo. Dichos
diagramas suelen ser mucho menos informativos que el diagrama y, a
menudo, ocultan características de importancia presentadas por el
primero. Además, el diagrama de puntos posee la ventaja de que se usa
fácilmente [pág. 36] como una tabla de correlación si el número de puntos es
pequeño, y se transforma fácilmente en uno si el número de puntos es grande.
Por supuesto, es posible tratar los valores de la frecuencia como cualquier otra
variable, representando el valor de su logaritmo, o su valor real en papel
logarítmico, cuando se desea ilustrar el acuerdo [pág. 41] de las observaciones
con alguna ley particular de frecuencia. La figura 5 se muestra de esta
manera. el número de flores (ranúnculos) que tienen de 5 a 10 pétalos (datos
de Pearson), graficado en papel logarítmico, para facilitar la comparación con
la hipótesis de que la frecuencia, para pétalos por encima de cinco, disminuye
en progresión geométrica. Dichas ilustraciones no son, propiamente hablando,
diagramas de frecuencia, aunque la frecuencia es una de las variables
[pág. 42] empleados, porque no se adhieren a la convención de que las
frecuencias iguales están representadas por áreas iguales.
Una forma útil, similar a la anterior, se utiliza para comparar las tasas de
mortalidad, a lo largo de la vida, de diferentes poblaciones. El logaritmo del
número de sobrevivientes a cualquier edad se representa en función de la edad
alcanzada. Dado que la tasa de mortalidad es la tasa dedisminución del
logaritmo del número de sobrevivientes, gradientes iguales en tales curvas
representan tasas de mortalidad iguales. Por lo tanto, sirven para mostrar el
aumento de la tasa de mortalidad con la edad y para comparar poblaciones con
diferentes tasas de mortalidad. Tales diagramas son menos sensibles a
pequeñas fluctuaciones que los diagramas de frecuencia correspondientes que
muestran la distribución de la población según la edad al morir; por lo tanto,
son apropiados cuando tales pequeñas fluctuaciones se deben principalmente a
errores de muestreo aleatorio, que en el tipo de diagrama más sensible podrían
ocultar las características más amplias de la comparación. Siempre se debe
recordar que la elección de los métodos apropiados de tratamiento estadístico
es bastante independiente de la elección de los métodos de representación
diagramática.
III
DISTRIBUCIONES
La primera columna
muestra la altura
central en pulgadas
de cada grupo,
seguida de las
frecuencias
correspondientes. Se
elige un grupo
central (68.5 ") como" media de trabajo ". Para formar la siguiente columna,
las frecuencias se multiplican por 1, 2, 3, etc., de acuerdo con su distancia de
la media de trabajo; este proceso se repite para formar el cuarta columna, que
se suma de arriba a abajo en una sola operación; en la tercera columna, sin
embargo, la parte superior, que representa desviaciones negativas, se suma por
separado y se resta de la suma de la parte inferior. La diferencia, en este caso
positivo, muestra que toda la muestra de 1164 individuos tiene en total 167
pulgadas más que si cada individuo tuviera 68.5 "de altura. Este saldo
dividido por 1164 da la cantidad por la cual la media de la muestra excede
68.5 ". De la varianza así corregida, la desviación estándar se obtiene tomando
la raíz cuadrada. Este proceso se puede llevar a cabo como un ejercicio con la
distribución de las tallas femeninas que figura en la misma tabla (pág. 103).
Cualquier intervalo puede ser usado como una unidad de agrupación; y todo el
cálculo se realiza en dichas unidades, los resultados finales se transforman en
otras unidades si es necesario, del mismo modo que podríamos transformar la
media y la desviación estándar de pulgadas a centímetros al multiplicar por el
factor apropiado. Es ventajoso que las unidades de agrupamiento sean
múltiplos exactos de las unidades de medida; de modo que si la muestra
anterior se hubiera medido a décimas de pulgada, podríamos haberlos
agrupado a intervalos de 0.6 "o 0.7".
o en este caso 0085 ". Para una agrupación suficientemente fina, esto no debe
exceder una décima parte del error estándar de muestreo aleatorio.
que difiere de la fórmula dada anteriormente (p. 48) en que hemos dividido
por n en lugar de por ( n -1). En muestras grandes, la diferencia entre estas
fórmulas es pequeña, y el uso de n puede reclamar una ventaja teórica si
deseamos que se use una estimación junto con la estimación de la media de la
[pág. 54] misma muestra, como en el ajuste de una curva de frecuencia a los
datos; de lo contrario es mejor usar ( n-1). En muestras pequeñas, la diferencia
es aún pequeña en comparación con el error probable, pero se vuelve
importante si se calcula una variación al promediar las estimaciones de una
serie de muestras pequeñas. Por lo tanto, si se realizan una serie de
experimentos cada uno con seis paralelos y tenemos razones para creer que la
variación se debe en todos los casos a la operación de causas análogas,
podemos tomar el promedio de tales cantidades como
Ex. 3. Uso de
momentos superiores
para poner a prueba
la normalidad . - Las
salidas de la forma
normal, a menos que
estén muy marcadas,
solo pueden
detectarse en
muestras
grandes; damos un
ejemplo (Tabla 3)
del cálculo para 65
valores de la
precipitación anual
en Rothamsted; El
proceso de cálculo es
similar al de
encontrar la media y
la desviación
estándar, pero se
lleva dos etapas más
allá, en el cálculo de
los momentos 3 y
4. Las fórmulas mediante las cuales las dos correcciones se aplican a los
momentos se reúnen en un apéndice, p. 74 · Por los momentos que
obtengamos.
de donde se calculan
Con frecuencia, una variable no puede tomar todos los valores posibles, pero
se limita a una serie particular de valores, como los números enteros. Esto es
obvio cuando la variable es una frecuencia, obtenida al contar, como el
número de células en un cuadrado de un hemocitómetro, [pág. 57] o el
número de colonias en una placa de medio de cultivo. La distribución normal
es la más importante de las distribuciones continuas; pero entre las
distribuciones discontinuas, la Serie Poisson es de primera importancia. Si un
número puede tomar los valores 0, 1, 2,. . ., X ,. . ., y la frecuencia con la que
se producen los valores viene dada por la serie
(donde x ! significa "factorial x " = x ( x -1) ( x -2) ... 1), entonces el número
se distribuye en la serie Poisson. Mientras que la curva normal tiene dos
parámetros desconocidos, m y , la serie Poisson tiene solo una. Este valor se
puede estimar a partir de una serie de observaciones, tomando su media,
siendo la media una estadística apropiada para las series de Poisson y para la
curva normal. Se puede demostrar teóricamente que si la probabilidad de un
evento es extremadamente pequeña, pero se toma un número suficientemente
grande de casos independientes para obtener un número de ocurrencias,
entonces este número se distribuirá en la Serie Poisson. Por ejemplo, la
posibilidad de que un hombre sea asesinado por patadas de caballos en
cualquier día es extremadamente pequeña, pero si un cuerpo de hombres del
ejército está expuesto a este riesgo por un año, a menudo se matará a un cierto
número de ellos de esta manera. . Los siguientes datos (datos de Bortkewitch)
se obtuvieron de los registros de diez cuerpos del ejército durante veinte años:
[pág. 58]
El promedio, m , es .61, y
utilizando este valor, los números
calculados concuerdan de manera
excelente con los observados.
[pag. 61]
Ex. 4 · Prueba de
acuerdo con una
serie de Poisson de
varias muestras
pequeñas . - A partir
de 100 conteos de
bacterias en
productos de
refinería de azúcar,
se obtuvieron los
siguientes valores
(Tabla 6); habiendo
6 placas en cada
caso, los valores de
χ 2 se tomaron de
la tabla χ 2 para n =
5.
En relación con el uso de la tabla anterior, vale la pena señalar que para un
número dado de muestras [p. 65] probado, el porcentaje se determina con
mayor precisión al 50%, pero para el porcentaje mínimo de error en la
estimación del número de organismos, casi el 60% u 88 organismos por
muestra son los más precisos. La serie Poisson también nos permite calcular
qué porcentaje de los cultivos fértiles obtenidos se han derivado de un solo
organismo, ya que el porcentaje de cultivos impuros, es decir , los derivados
de 2 o más organismos, se puede calcular a partir del porcentaje de cultivos
que demostraron ser fértil Si e- m son estériles, yo -m Serán culturas puras, y el
resto impuro. La siguiente tabla proporciona valores representativos del
porcentaje de culturas que son fértiles y el porcentaje de culturas fértiles que
son impuras:
Si se desea que los cultivos sean puros con alta probabilidad, se debe usar una
concentración suficientemente baja para que al menos nueve décimas partes
de las muestras sean estériles.
18. La distribución binomial.
(q+p)n.
Esta regla es un caso particular de un teorema más general que trata los casos
en los que no solo se considera una alternativa simple, sino que el evento
puede suceder de manera s con probabilidades p 1 , p 2 ..., p s ; entonces se
puede demostrar que la posibilidad de que una muestra aleatoria de n dé un 1 ,
del primer tipo, un 2 , del segundo, ..., a s del último es
( p 1 + p 2 + ... + p s ) n .
(2/3 + 1/3) 12
Sin embargo, si uno o más de los dados no eran verdaderos, pero si todos
mantenían el mismo sesgo a lo largo del experimento, las frecuencias deberían
darse aproximadamente por
( q + p ) 12 ,
La razón por la que esta última prueba ofrece probabilidades mucho más altas
que la prueba de bondad de ajuste, es que esta última está probando las
discrepancias de cualquier tipo, como, por ejemplo, la introducción de errores
de copia. La discrepancia real se debe casi en su totalidad a un solo elemento,
a saber, el valor de p , y cuando ese punto [p. 69] se prueba por separado, su
importancia se pone de manifiesto más claramente.
Ex. 6.
Compa
ración
de la
propor
ción de
sexos
en
familia
s
human
as con
la
distrib
ución
binomi
al. - Los datos biológicos rara vez son tan extensos como este experimento
con dados; Los datos de Geissler sobre la proporción de sexos en las familias
alemanas servirán de ejemplo. Es bien sabido que los nacimientos masculinos
son ligeramente más numerosos que los nacimientos femeninos, por lo que si
una familia de 8 se considera una muestra aleatoria de ocho de la población
general, el número de niños en esas familias debería distribuirse en el
binomio.
(q+p)8,
Los valores aproximados de estos dos términos son 8 y -1 dando +7, el valor
real es 6.98966. Por lo tanto, el error estándar de la varianza es .01141; La
discrepancia es más de seis veces su error estándar. [pag. 71]
( q + p ) 100 ,
16, 18, 11, 18, 21, 10, 20, 18, 17, 21. Media 17.0 ·
npq (1-6 pq )
Los momentos segundo y superior son los valores medios de los poderes
segundo y superior de las desviaciones de la media.
v 2 = v ' 2 - v' 1 2 ,
1 = v 2 - 1/12,
2 = v 3 ,
20. La distribución χ 2
La suma que se extiende sobre todas las clases. Esta fórmula da el valor de
χ 2 , y está claro que cuanto más de cerca coincidan los números observados
con los esperados, menor será will 2 ; para utilizar la tabla es necesario
conocer también el valor de n con el que se debe ingresar la tabla. La regla
para encontrar [p. 78] n es que n es igual al número de grados de libertad en
que las series observadas pueden diferir de las hipotéticas; en otras palabras,
es igual al número de clases en las que se pueden rellenar arbitrariamente las
frecuencias. Se darán varios ejemplos para ilustrar esta regla.
Una tabla importante de este tipo fue preparada por Elderton, y se conoce
como la Tabla de bondad de ajuste de Elderton. Elderton dio los valores de P a
seis lugares decimales correspondientes a cada valor integral de χ 2 de 1 a 30,
y de allí en decenas a 70. En lugar de n, se utilizó la cantidad n ' (= n +1), ya
que Se creía entonces que esto podría equipararse al número de clases de
frecuencia. Se dieron valores de n ' de 3 a 30, que corresponden a valores
de n de 2 a 29. Una tabla para n' = 2, o n =1, fue posteriormente suministrado
por Yule. Debido a restricciones de derechos de autor [p. 79] no hemos
reimprimido la tabla de Elderton, pero hemos dado una nueva tabla ( Tabla
III . P. 98) en una forma que la experiencia ha demostrado ser más
conveniente. En lugar de dar los valores de P correspondientes a una serie
arbitraria de valores de 2 , hemos dado los valores de χ 2 correspondientes a
valores especialmente seleccionados de P. Por lo tanto, hemos podido en
forma compacta cubrir esas partes de las distribuciones. que hasta ahora no
han estado disponibles, es decir, los valores de χ 2 menos que la unidad, que
ocurren con frecuencia para valores pequeños de n, y los valores que exceden
de 30, que para valores mayores de n cobran importancia.
La tabla que damos tiene valores de n hasta 30; más allá de este punto, se
encontrará que es suficiente suponer que [sqrt] 2 distributed 2 se distribuye
normalmente con una desviación estándar de la unidad alrededor de una
media [sqrt] 2n-1, Los valores de P obtenidos al aplicar esta regla a los valores
de χ 2 dados para n = 30, puede ser. Funcionó como un ejercicio. Los errores
son pequeños para n = 30 y se vuelven progresivamente más pequeños para
valores más altos de n.
Los valores esperados se calculan a partir del total observado, de modo que las
cuatro clases deben coincidir en su suma, y si se llenan arbitrariamente tres
clases, la cuarta está, por lo tanto, determinada, por lo tanto, n = 3, [p. 82]
χ 2 = 10.87, la probabilidad de superar ese valor está entre .01 y .02; si
tomamos P = .05 como límite de desviación significativa, diremos que en este
caso las desviaciones de la expectativa son claramente significativas.
Consideremos una segunda hipótesis en relación con los mismos datos, que
difiere de la primera en que suponemos que las plantas con hojas engarzadas
son, en cierta medida, menos viables que aquellas con hojas planas. Por
supuesto, tal hipótesis podría ser probada por medio de datos adicionales; Sólo
nos preocupa la cuestión de si está de acuerdo con los valores que tenemos
ante nosotros. La hipótesis no nos dice nada sobre qué grado de viabilidad
relativa se puede esperar; por lo tanto, tomamos los totales de hojas planas y
rizadas observadas, y dividimos cada clase en la proporción 3: 1.
[p.84]
Del mismo modo en la Tabla 10, pág. 67, hemos dado el valor de χ 2 basado
en 12 clases para las dos hipótesis de "dados verdaderos" y "dados
sesgados"; con "dados verdaderos", los valores esperados se calculan a partir
del número total de observaciones solo, y n = 11, pero al permitir el sesgo
también hemos puesto de acuerdo los medios para que n se reduzca a 10. En el
primer caso χ 2 está muy lejos del rango de la tabla que muestra una
desviación altamente significativa de la expectativa; en el segundo, parece que
P se encuentra entre .2 y .3, de modo que el valor de χ 2 está dentro del rango
esperado.
los otros se escriben a la vez por sustracción de los márgenes. Por lo tanto, es
obvio que los valores observados pueden diferir de los esperados en solo 1
grado de libertad, de modo que al probar la independencia en cuatro; tabla
plegable, n = 1. Dado que χ 2 = 56.234 las observaciones se oponen
claramente a la hipótesis de independencia. Sin calcular los valores esperados,
χ 2 puede, para tablas cuádruples, calcularse directamente por la fórmula
donde a, b, c y d son los cuatro números observados.
Los cruces cruzados se realizaron de cuatro maneras, según que los padres
varones o hembras eran heterocigotos (F 1 ) en los dos factores, y según si los
dos genes dominantes se recibieron de uno (Acoplamiento) o de uno de cada
padre ( Repulsión).
Cabe señalar que los métodos empleados en este capítulo no están diseñados
para medir el grado de asociación entre una clasificación y otra, sino
únicamente para probar si las desviaciones observadas de la independencia
son o no de una magnitud atribuible al azar. El mismo grado de variación
puede ser significativo para una muestra grande, pero insignificante para una
muestra grande; Si es insignificante, no tenemos ninguna razón en los datos
presentes para sospechar algún grado de asociación, y es inútil intentar
medirlo. Si, por otro lado, es significativo el valor de χ 2Indica el hecho, pero
no mide el grado de asociación. Siempre que la desviación sea claramente
significativa, no tiene importancia práctica si P es .01 o · .000,001, y es por
esta razón que no hemos tabulado el valor de χ 2más allá de .01. Para medir
[pág. 90] el grado de asociación es necesario tener algunas hipótesis sobre la
naturaleza de la salida de la independencia para ser medido. Con las
frecuencias mendelianas, por ejemplo, el porcentaje cruzado se puede usar
para medir el grado de asociación de dos factores, y la importancia de la
evidencia para la vinculación se puede evaluar comparando la diferencia entre
el porcentaje cruzado y el 50% ( el valor para los factores no vinculados), con
su error estándar. Dicha comparación, si se realiza con precisión, debe
coincidir absolutamente con la conclusión extraída del 2prueba. Para tomar un
segundo ejemplo, los valores en una tabla cuádruple pueden considerarse a
veces como debidos a la partición de un par de variables normalmente
correlacionadas, según que los valores están por encima o por debajo de líneas
divisorias elegidas arbitrariamente; como si un grupo de medidas de estatura
de padres e hijos se dividiera entre los de arriba y los de menos de 68
pulgadas. En este caso, el abandono de la independencia puede medirse
adecuadamente por la correlación en estatura entre padre e hijo; esta cantidad
se puede estimar a partir de las frecuencias observadas, y una comparación
entre el valor obtenido y su error estándar, si se realiza con precisión,
coincidirá con la χ 2prueba en cuanto a la importancia de la asociación; la
importancia será cada vez más pronunciada a medida que la muestra aumenta
de tamaño, pero la correlación obtenida tenderá a un valor
fijo. La prueba χ 2 no intenta medir el grado de asociación, pero como prueba
de significación es independiente de todas las hipótesis adicionales en cuanto
a la naturaleza de la asociación. [pag. 91]
Los totales 2565 negro y 772 rojo claramente no están en la relación 3: 1, que
se atribuye al enlace. La pregunta que tenemos ante nosotros es si todas las
familias indican o no la misma proporción entre negro y rojo, o si la
discrepancia se debe solo a unas pocas familias. Para toda la tabla
χ 2 = 35.620, n = 32. Esto es [p. 92] más allá del rango de la tabla, por lo que
aplicamos el método explicado en la p. 63:
Por lo tanto, la serie no es significativamente heterogénea; efectivamente
todas las familias están de acuerdo y se confirman entre sí al indicar la
proporción negro-rojo observada en el total.
Del mismo modo que los valores de χ 2 se pueden agregar para hacer una
prueba más completa, en algunos casos es posible separar las contribuciones a
χ 2 hechas por los grados individuales de libertad, y así probar los
componentes separados de una discrepancia.
[pag. 95]
de lo cual parece que hay alguna evidencia leve de un exceso de familias con
valores altos de χ 2 . Este efecto, al igual que otros efectos no significativos,
solo merece una discusión adicional en relación con alguna hipótesis plausible
capaz de explicarlo.
NB . - Tabla de χ 2 , p. 98.
PRUEBAS DE SIGNIFICADO DE MEDIOS, DIFERENCIAS DE
MEDIOS Y COEFICIENTES DE REGRESIÓN
y / [sqrt] n = .01013.
En los ejemplos anteriores, que son típicos del uso del error estándar aplicado
a los valores medios, hemos asumido que la varianza de la población se
conoce con exactitud. En 1908, "Student" señaló que, con muestras pequeñas,
como son necesariamente habituales en los experimentos de campo y de
laboratorio, la variación de la población solo se puede estimar
aproximadamente de la muestra, y que los errores de estimación afectan
seriamente El uso del error estándar. [pag. 106]
(½ + ½) 9 ,
que todos serán del mismo signo, por casualidad, solo dos veces en 512
intentos. El método del presente capítulo difiere del que tiene en cuenta los
valores reales y no meramente de sus signos, y por lo tanto es el método más
confiable cuando los valores reales están disponibles.
El valor de P está, por lo tanto, entre .1 y .05, y [p. 111] no puede considerarse
significativo. Este ejemplo muestra claramente el valor del diseño en
experimentos a pequeña escala y que la eficacia de dicho diseño es capaz de
realizar mediciones estadísticas.
Los métodos de este capítulo son aplicables no solo a los valores medios, en el
sentido estricto de la palabra, sino a la amplia clase de estadísticas conocidas
como coeficientes de regresión. La idea de regresión generalmente se
introduce en relación con la teoría de la correlación, pero en realidad es más
general y, en algunos aspectos, una idea más simple, y los coeficientes de
regresión son de interés e importancia científica en muchas clases de Los
datos en los que el coeficiente de correlación, si se usa, es un concepto
artificial de no utilidad real. Los siguientes ejemplos cualitativos tienen la
intención de familiarizar al estudiante con el concepto de regresión y preparar
el camino para el tratamiento preciso de los ejemplos numéricos.
Y = a + b ( x - x [barra]),
Y = a + bx + cx 2 + dx 3 , [pág. 117]
Y = a + b ( x - x [barra])
+ ( x - x [barra]),
esta prueba para el significado de a será más sensible que el método explicado
anteriormente, si la variación en y es expresable en términos considerables en
términos de x, ya que el valor de s obtenido de la línea de regresión será
menor que La obtenida del grupo original de observaciones. Por otro lado,
siempre se pierde un grado de libertad, de modo que si b es pequeño, no se
obtiene mayor precisión.
S { y ( xx [barra])};
Esto se puede hacer de varias maneras. Podemos multiplicar [pág. 121] los
valores sucesivos de y por -29, -27,… +27, +29, sumar y dividir por 2. Este es
el método directo sugerido por la fórmula. El mismo resultado se obtiene
S ( y -Y) 2 ;
Y = y [barra] + ( x - x [barra]) b ;
El resultado debe juzgarse significativo, aunque apenas sea así; En vista de los
datos, no podemos ignorar la posibilidad de que en este campo, y en relación
con los demás estiércol utilizados, el nitrato de soda haya conservado la
fertilidad mejor que el sulfato de amoniaco; Sin embargo, estos datos no
demuestran el punto más allá de la posibilidad de duda.
Se ha avanzado poco con la teoría del ajuste de las líneas de regresión curvas,
salvo en el caso limitado pero más importante cuando la variabilidad de la
variable independiente es la misma para todos los valores de la variable
dependiente, y es normal para cada uno de esos valores. Cuando este es el
caso, una técnica ha sido completamente desarrollada para ajustarse por etapas
sucesivas en cualquier línea del formulario.
Y = a + bx + cx 2 + dx 3 + ..;
Daremos detalles del caso donde los valores sucesivos de x están en intervalos
iguales.
donde 1 , 2 , 3 serán funciones de x de los grados 1º, 2º y 3º, a partir de
los cuales se puede construir la fórmula de regresión. Se puede mostrar que las
funciones requeridas para este propósito se pueden expresar en términos de
los momentos de la distribución x , de la siguiente manera:
[pag. 127]
y, en general, el coeficiente del término del grado r es
A medida que se ajusta cada término, la línea de regresión se acerca más a los
valores observados, y la suma de los cuadrados de la desviación
S ( y -Y) 2
se disminuye Es deseable poder calcular esta cantidad, sin evaluar los valores
reales de Y en cada punto de la serie; esto se puede hacer restando de S ( y 2)
las cantidades sucesivas
y así.
De estas, una nueva serie de cantidades a ', b', c ', ... se obtienen mediante las
ecuaciones independientes n', de las cuales damos a continuación las primeras
seis, que son suficientes para llevar el proceso de ajuste hasta el 5º grado:
[pag. 129]
Se puede obtener un ejemplo adecuado del uso de este método ajustando los
valores de Ej. 22 (p. 120) con una curva de segundo o tercer grado. [pag. 130]
Con frecuencia sucede que los datos nos permiten expresar el valor promedio
de la variable dependiente y , en términos de un número de diferentes
variables independientes x 1 , x 2 , ... x p. Por ejemplo, la precipitación en
cualquier punto dentro de un distrito se puede registrar en una cantidad de
estaciones para las cuales se conocen la longitud, latitud y altitud. Si todas
estas tres variables influyen en la lluvia, puede ser necesario determinar el
efecto promedio de cada una por separado. Al hablar de la longitud, la latitud
y la altitud como variables independientes, todo lo que está implícito es que es
en términos de ellos que se expresará la precipitación promedio; no está
implícito que estas variaciones varían independientemente, en el sentido de
que no están correlacionadas. Por el contrario, puede suceder que las
estaciones más al sur descansen más hacia el oeste que las estaciones más al
norte, de modo que para las estaciones disponibles, la longitud medida hacia
el oeste puede estar correlacionada negativamente con la medida de latitud
hacia el norte. Si entonces la lluvia aumentó hacia el oeste, pero fue
independiente de la latitud, debemos obtenerla simplemente, al comparar la
precipitación registrada en diferentes latitudes, una regresión ficticia que
indica una caída de la lluvia a medida que aumenta la latitud. Lo que
necesitamos es una ecuación que tenga en cuenta las tres variables en cada
estación y que esté de acuerdo lo más cerca posible con los valores
registrados; Esto se denomina ecuación de regresión parcial y sus coeficientes
se conocen como coeficientes de regresión parcial. [pag. 131] Esto se
denomina ecuación de regresión parcial y sus coeficientes se conocen como
coeficientes de regresión parcial. [pag. 131] Esto se denomina ecuación de
regresión parcial y sus coeficientes se conocen como coeficientes de regresión
parcial. [pag. 131]
Y = b 1, x 1 + b 2x 2 + b 3x 3.
de los cuales los nueve coeficientes se obtienen a partir de los datos, ya sea
por multiplicación y adición directa, o, si los datos son numerosos,
construyendo tablas de correlación para cada uno de los seis pares de
variables. Las tres ecuaciones simultáneas para b 1 , b 2 y b 3 se resuelven de
manera ordinaria; el primer b 3 se elimina del primero y el tercero, y de la
segunda y tercera ecuaciones, dejando dos ecuaciones
para b 1 y b 2 ; eliminando b 2 de estos, se encuentra b 1 , y de allí por
sustitución, b 2 yb 3 .
Con frecuencia sucede que, para el mismo conjunto de valores de las variables
independientes, se desea examinar las regresiones para más de un conjunto de
valores de las variables dependientes; por ejemplo, si para el mismo conjunto
de estaciones de lluvia teníamos datos para varios meses o años diferentes. En
tales casos, es preferible evitar resolver las ecuaciones simultáneas de nuevo
en cada ocasión, pero obtener una fórmula más simple que se pueda aplicar a
cada nuevo caso.
Esto se puede hacer resolviendo de una vez por todas [pág. 132] tres
conjuntos, cada uno compuesto por tres ecuaciones simultáneas:
Las tres soluciones de estos tres conjuntos de ecuaciones pueden escribirse.
Una vez que se conocen los seis valores de c , entonces los coeficientes de
regresión parcial pueden obtenerse en cualquier caso particular simplemente
calculando S ( x 1 y ), S ( x 2 y ), S ( x 3 y ) y sustituyendo en las fórmulas,
S ( y -Y) 2 = S ( y 2 ) - b 1 S (x 1 y ) - b 2 S ( x 2 y ) - b 3 S ( x 3 y ). ·
10,635.5 c 11 = 8,8321;
De dónde
c 11 = .00083043, c 12 = .00024075, c 13 = -.00045476
dando
c 33 = .00082182.
b 2 = .39624;
b 2 = -11204;
y finalmente, usando c 13 , c 23 , c 33 ,
b 3 = .30787
S ( y 2 ) = 1786.6;
S ( y -Y) 2 = 994,9.
s 2 = 8,772;
s [sqrt] c 33 = .12421.
Dado que n es tan alto como 53, no estaremos muy equivocados al tomar la
regresión de la precipitación en altitud para estar en unidades de trabajo .308,
con un error estándar .124; o en pulgadas de lluvia por 100 pies como .154,
con un error estándar .062.
EL COEFICIENTE DE CORRELACIÓN
Uno de los primeros y más sorprendentes éxitos del método de correlación fue
en el estudio biométrico de la herencia. En un momento en que no se sabía
nada del mecanismo de la herencia, o de la estructura del material germinal,
este método podía demostrar la existencia de la herencia, y [p. 139] "medir su
intensidad"; y esto en un organismo en el que no se podía practicar la
reproducción experimental, a saber, el Hombre. Al comparar los resultados
obtenidos de las mediciones físicas en el hombre con los obtenidos de otros
organismos, se estableció que la naturaleza del hombre no está menos
gobernada por la herencia que la del resto del mundo animado.
Del mismo modo que la variación normal con una variable puede
especificarse mediante una fórmula de frecuencia en la que [p. 144] el
logaritmo de la frecuencia es una función cuadrática de la variable, por lo que
con dos variables la frecuencia puede expresarse en términos de una función
cuadrática de los valores de las dos variables. Entonces tenemos una
superficie de correlación normal, para la cual la frecuencia puede escribirse
convenientemente en la forma
Si seleccionamos los casos en los que una variable tiene un valor asignado,
tenemos lo que se denomina una matriz; [pag. 145] las columnas y filas de la
tabla pueden, excepto en lo que respecta a la variación dentro de los límites
del grupo, ser consideradas como matrices. Con la correlación normal, la
variación dentro de una matriz puede obtenerse a partir de la fórmula general,
dando a x un valor constante, (por ejemplo) a , y dividiendo por la frecuencia
total con la que ocurre este valor; entonces nosotros tenemos
ns 1 2 = S ( x 2 ), ns 2 2 = S ( y 2 ), nrs 1 s 2 = S ( xy );
Ex. 26. Eliminación de la edad en las correlaciones orgánicas [p. 151] con
niños en crecimiento. - Por ejemplo, se encontró (datos de Mumford y Young)
en un grupo de niños de diferentes edades, que la correlación de
la altura de pie con la circunferencia del pecho fue de +.836. Se podría
esperar que parte de esta asociación se debiera al crecimiento general con la
edad. Sería más conveniente para muchos propósitos conocer la correlación
entre las variables para los niños de una edad determinada; pero, de hecho,
solo algunos de los niños tendrán exactamente la misma edad, e incluso si
hacemos grupos de edad tan amplios como un año, tendremos en cada grupo
mucho menos que el número total medido. Para utilizar todo el material, solo
necesitamos conocer las correlaciones de la altura de pieCon la edad , y de la
circunferencia del pecho con la edad . Estos se dan como .714 y .708. ·
La correlación encontrada por Yule después de eliminar las dos variables fue
de +.457; tal correlación se denomina correlación parcial del segundo
orden. Prueba su significado.
n = 28
t = 2.719,
Si, por ejemplo, tuviéramos un registro del número de muertes por una
determinada enfermedad por años sucesivos, y quisiéramos estudiar si esta
mortalidad estaba asociada con condiciones meteorológicas, o la incidencia de
alguna otra enfermedad, o la mortalidad de otra edad. Grupo, la dificultad
destacada en la aplicación directa del coeficiente de correlación es que la
cantidad de muertes consideradas probablemente muestre un cambio
progresivo durante el período disponible. Dichos cambios pueden deberse a
cambios en la población entre los cuales ocurren las muertes, ya sea la
población total de un distrito o la de un grupo de edad en particular, o a
cambios en las condiciones sanitarias en que vive la población, o en el
Habilidad y disponibilidad de asistencia médica, o cambios en la composición
racial o genética de la población. En cualquier caso, generalmente se
encuentra que los cambios aún son evidentes [p. 172] cuando el número de
muertes se convierte en una tasa de mortalidad en la población existente en
cada año, por lo que se elimina uno de los efectos directos del cambio de
población.
[pag. 173]
38.Un tipo de datos, que es muy frecuente, puede tratarse con métodos muy
similares a los de la tabla de correlación, mientras que al mismo tiempo puede
tratarse de manera más útil y precisa mediante el análisis de varianza, es decir,
mediante la separación de la varianza atribuible a un grupo de causas, desde la
varianza atribuible a otros grupos. En este capítulo, trataremos primero de
esos casos, que surgen en la biometría, en los que la analogía con las
correlaciones tratadas en el último capítulo puede ser útil, y luego pasar a los
casos más generales, prevalentes en los resultados experimentales, en los que
el tratamiento La correlación parece artificial, y en la que el análisis de
varianza parece arrojar una luz real sobre los problemas que tenemos ante
nosotros. Una comparación de los dos métodos de tratamiento ilustra el
principio general, que a menudo se pierde de vista, que las pruebas de
significación, en la medida en que se llevan a cabo con precisión, están de
acuerdo en cualquier proceso estadístico de reducción. [pag. 177]
La transformación tiene, por lo tanto, las mismas ventajas en este caso que
para las correlaciones interclases. Se observará que la precisión ligeramente
mayor de la correlación intraclase, en comparación con una correlación
interclase basada en el mismo número de pares, se indica mediante el uso de n
'-3/2 en lugar de n' -3. La ventaja es, por lo tanto, equivalente a 11/2 pares
adicionales de observaciones. Una segunda diferencia radica en el sesgo al
que están sujetas dichas estimaciones. Para interclases [p. 182] correlaciones
el valor encontrado en las muestras, ya sea positivo o negativo, se exagera en
la medida en que requiere una corrección,
Los errores de muestreo de los casos en que k excede de 2 pueden tratarse más
satisfactoriamente desde el punto de vista del análisis de varianza; pero para
aquellos casos en los que se prefiere pensar en términos de correlación, es
posible dar una transformación análoga adecuada para todos los valores
de k. Dejar
La utilidad de esta fórmula está sujeta a limitaciones aún más drásticas que la
de la correlación interclase, ya que n ' es más pequeña en el primer
caso. Además, las regiones para las que la fórmula es inaplicable, incluso
cuando n ' es grande, ahora no están en la vecindad de [más o menos] 1, sino
estos pueden ser muy desiguales, por lo que, a menos que n ' sea bastante
grande, la distribución de z será perceptiblemente asimétrica y la desviación
estándar no proporcionará una prueba de significación satisfactoria.
Debe notarse que si solo hubieran estado presentes dos clases, la prueba en el
ejemplo anterior hubiera sido equivalente a probar la importancia de t , como
se explica en el Capítulo V. De hecho, los valores para n 1 = 1 en la tabla
de z (p. 210) no son más que los logaritmos de los valores para P = .05 en la
tabla de t (p. 137) · De manera similar, los valores para n 2 = 1 en la Tabla
VI. son los logaritmos de los recíprocos de los valores, que aparecerían en la
Tabla IV. bajo P = .95 · El presente método puede considerarse como una
extensión del método del Capítulo V., apropiado cuando deseamos comparar
más de dos medios. Igualmente, puede considerarse como una extensión de
los métodos del Capítulo IV.n 2 si infinito z sería igual a 1/2 log 2 / n de la
Tabla III. para P = .05, y si n 1 fuera infinito sería igual a -1/2 log 2 / n para
P = .95. Por lo tanto, las pruebas de bondad de ajuste, en las cuales la varianza
muestral no es calculable a priori , pero pueden estimarse a partir de los datos,
se pueden hacer por medio de la Tabla VI.
(p. 185); esto da z = 2.0081 para Meramec y 2.1071 para Lawrence; ya que
estos se obtuvieron por el método de la tabla simétrica, insertaremos la
pequeña corrección 1 / (2 n ' -1) y obtendremos 2.0165 para Meramec, y
2.1506 para Lawrence, como los valores que se habrían obtenido por el
método del Análisis de variación.
En otros casos puede requerirse mayor precisión. En la tabla para z, los cinco
valores 6, 8, 12, 24, [infinito] se eligen para estar en progresión armónica, y
así facilitar la interpolación, si usamos 1 / n como variable. Si tenemos que
interpolar tanto para n 1 como para n 2 , procedemos en tres pasos. Primero
encontramos los valores de z para n 1 = 12, n 2 = 2178, y para n 1 = 24, n 2 =
2178, y de estos obtenemos el valor requerido para n 1 = 21, n 2 =
2178. [pag. 198]
Así como hemos encontrado el punto del 5 por ciento para las desviaciones
positivas, el punto del 5 por ciento para las desviaciones negativas se puede
encontrar al intercambiar n 1 y n 2 ; esto resulta ser .2957 · Si asumimos que
nuestro valor observado no transgrede el punto del 5 por ciento en ninguna de
las desviaciones, es decir, que se encuentra en las nueve décimas partes de su
distribución de frecuencias, podemos decir que el valor de z para Lawrence,
Kansas, se encuentra entre 1.9304 y 2.4463; estos valores se encuentran
[p. 199] respectivamente, restando las desviaciones positivas y agregando la
desviación negativa al valor observado.
El hecho de que las dos desviaciones son claramente desiguales, como suele
ser el caso cuando n 1 y n 2 son desiguales y no ambos grandes, muestra que
tal caso no puede tratarse con precisión por medio de un error probable.
Se pueden obtener valores algo más precisos que los anteriores mediante
métodos mejorados de interpolación; sin embargo, el método anterior será
suficiente para todos los requisitos ordinarios, excepto en la esquina de la
tabla donde n 1 y n 2 exceden de 24. Para los casos que se encuentran en esta
región, la siguiente fórmula proporciona el punto del 5 por ciento dentro de
uno. centésima parte de su valor. Si h es la media armónica de n 1 y n 2 ,
entonces
entonces
El punto del 5 por ciento para las desviaciones positivas es, por lo tanto, de
.1397 y para las desviaciones negativas de .1660; [pag. 200] con los mismos
estándares que antes, por lo tanto, podemos decir que el valor para Meramec
se encuentra entre 1.8768 y 2.1825; la gran superposición de este rango con la
de Lawrence muestra que las correlaciones encontradas en los dos distritos no
son significativamente diferentes.
La media de los 288 valores dados en los datos es 24.7, y si los datos
originales hubieran representado posibilidades de muestreo independientes,
deberíamos esperar que el residuo cuadrado medio sea casi tan grande como
este o mayor, si la distribución de lluvia durante el día difiere en diferentes
meses Claramente, la varianza residual es subnormal, y la razón de esto es
obvia cuando consideramos que la probabilidad de que llueva en la segunda
hora no es independiente de si está lloviendo o no en la primera hora
del mismo día.Por lo tanto, probablemente se habrá ingresado a cada ducha
varias veces, y los valores para las horas vecinas en el mismo mes se
relacionarán positivamente. Gran parte de la variación aleatoria se ha incluido
en la asignada a los meses, y probablemente explica la secuencia muy
irregular de los totales mensuales. Sin embargo, la variación entre las 24 horas
es bastante mayor que la variación residual, y esto muestra que las horas de
lluvia han sido en general similares en los diferentes meses, de modo que las
cifras indican claramente la influencia de la hora del día. [pag. 203] A partir
de los datos, no es posible estimar la influencia de la época del año o discutir
si el efecto de la hora del día es el mismo en todos los meses.
[pag. 207]
La suma de los cuadrados de las desviaciones de todos los 108 valores de su
media es 71.699; dividido, según los parches, en 36 clases de 3, el valor para
los 36 parches es 61.078; dividiendo esto nuevamente según las variedades en
12 clases de 3, el valor para las 12 variedades es 43.638 · Podemos expresar
los hechos de la siguiente manera:
Medirá la discrepancia entre los datos y la hipótesis. Al comparar esto con las
variaciones dentro de las matrices, debemos, por supuesto, considerar cuántos
grados de libertad están disponibles, en los cuales las observaciones pueden
diferir de la hipótesis. En algunos casos, que son relativamente raros, la
hipótesis especifica el valor medio real que se espera en cada matriz; en tales
casos un grado de libertad están disponibles, unasiendo el número de las
matrices. Con más frecuencia, la hipótesis especifica solo la forma de la línea
de regresión, teniendo uno o más parámetros que deben determinarse a partir
de las observaciones, como cuando deseamos probar si la regresión se puede
representar mediante una línea recta, de modo que nuestra hipótesis se
justifique si Cualquier línea recta se ajusta a los datos. En tales casos, para
encontrar el número de grados de libertad debemos deducir de un número de
parámetros obtenidos de los datos.
S ( y - y [barra]) 2 = 16,202,
La varianza dentro de los arreglos es, por lo tanto, solo alrededor de 4.7; la
varianza entre las matrices se compondrá de una parte que puede representarse
mediante una regresión lineal y de una parte que representa las desviaciones
de los medios observados de las matrices desde una línea recta. Parte
superior. 217]
S ( x - x [barra]) 2 = 4742.21
S { n p ( y [bar] p - Y p ) 2 };
mientras que el punto del 5 por ciento es de alrededor de .35. Por lo tanto, no
se puede cuestionar el significado estadístico de las desviaciones con respecto
a la línea recta, aunque esta última representa la mayor parte de la variación.
S { n p ( y [bar] p -Y p ) 2 }
Y = b 1x 1 + b 2x 2 + b 3x 3
entonces la correlación entre y e Y es mayor que la correlación de y con
cualquier otra función lineal de las variables independientes y, por lo tanto,
mide, en un sentido, la medida en que el valor de y depende de, o está
relacionado con, la combinación de Variación de estas variables. El valor de la
correlación así obtenida, denotado por R, se puede calcular a partir de la
fórmula
R 2 = { b 1 S ( x 1 y ) + b 2 S ( x 2 y ) + b 3 S ( x 3 y )} / S ( y 2 )
S ( y 2 ) = S ( y -Y) 2 + { b 1 S ( x 1 y ) + b 2 S ( x 2 y ) + b 3 S ( x 3 y )}
El valor de z es, por lo tanto, de 1.3217, mientras que el punto del 5 por ciento
es de aproximadamente .4415, lo que demuestra que la correlación múltiple es
claramente significativa. El valor real de la correlación múltiple se puede
calcular fácilmente a partir de la tabla anterior, para
R = .6657;
UNA segundo do re mi
Al analizar, con los mismos datos que antes, las contribuciones de las
diferencias locales entre bloques y del tratamiento, encontramos
Las diferencias locales entre los bloques son muy importantes, por lo que la
precisión de nuestras comparaciones mejora mucho, de hecho, la varianza
restante se reduce casi al 55% de su valor anterior. El acuerdo al que se llegó
por casualidad resultó ser ligeramente desfavorable, los errores en los valores
de tratamiento son un poco más de lo habitual, mientras que la estimación del
error estándar es 88.7 contra un valor verdadero de 92.0. Dicha variación es de
esperar, y de hecho, sobre ella se basa nuestro cálculo de
significación. [pag. 228]
RA FISHER (1924). Las condiciones bajo las cuales 2 mide la discrepancia
entre la observación y la hipótesis. Revista de la Royal Statistical Society,
lxxxvii. 442-449.