Una medida de la discrepancia o divergencia existente entre las frecuencias realmente observadas y las esperadas o teóricas, es la suministrada por el conocido estadígrafo 2 de Pearson, dado por la expresión:
(1)
donde si el total de frecuencias es N, tendremos:
oj = ej = N (2)
Una explicación equivalente a la ofrecida por la expresión anterior (1) es la siguiente:
(3)
Si 2 = 0, las frecuencias observadas y las teóricas concuerdan exactamente; mientras que si 2>0, no coinciden exactamente. Para mayores valores de 2, mayores son también las discrepancias existentes entre las frecuencias observadas y las teóricamente estimadas.
La distribución muestral de 2 se aproxima muy estrechamente a la distribución teórica de probabilidad Chi-cuadrado, cuya gráfica puede verse en la siguiente figura para diferentes valores de , de configuración analítica:
(4)
si las frecuencias estimadas son al menos iguales a 5; la aproximación mejora para valores superiores. Aquí es el número de grados de libertad, Y0 es una constante que depende de con lo cual, lógicamente, el área total bajo la curva vale 1.
Definimos una variable aleatoria 2 con grados de libertad como una suma de variables aleatorias N (0, 1), independientes y elevadas al cuadrado, cuya función de densidad coincide con la correspondiente a la , es decir:
que es una función evidentemente continua en el origen de coordenadas.
Algunas distribuciones 2 correspondientes a diferentes valores de se muestran en la siguiente figura:
FIG. A-1.12. Distribuciones de Chi-cuadrado para diferentes valores de
El valor máximo que alcanza Y se presenta en 2 = - 2, para 2.
El número de grados de libertad viene dado por:
a) = k - 1, si las frecuencias esperadas pueden calcularse sin haber de estimar parámetros poblacionales con los estadísticos muestrales. Advirtiéndose que el restar 1 a k es a causa de la condición restrictiva (2) que denota que si son conocidas (k-1) de las frecuencias esperadas, la frecuencia restante puede ser determinada.
b) = k - 1 - m, si las frecuencias esperadas solamente pueden calcularse estimando m parámetros de la población a partir de los estadísticos muestrales.