EL ESTUDIO OPERATIVO DE LA PSICOLOGÍA 
UNA APROXIMACIÓN MATEMÁTICA

EL ESTUDIO OPERATIVO DE LA PSICOLOGÍA UNA APROXIMACIÓN MATEMÁTICA

Josep Maria Franquet i Bernis

Volver al índice

 

 

 

 

3.2. Agrupamiento en "clases" y otras características de las distribuciones psicológicas

3.2.1. Los intervalos de clase

Así mismo, cuando el número n de los valores de la variable psicológica analizada sea grande, lo que tendrá lugar en aquellos casos de muestras de colectivos formadas por un número elevado de individuos, resultarán poco manejables las tablas estadísticas que recojan todos los valores con sus correspondientes frecuencias. En tales casos, se agruparán los valores de la variable en "clases", que podrán ser de la misma o diferente amplitud; una norma práctica genérica pudiera ser el establecer una misma amplitud equivalente al 10% de la observación mayor, con lo que el número de clases oscilará alrededor de la decena. Cuando esto acontezca, el cálculo de la desviación típica necesaria para el hallazgo de los CV y de los pertinentes coeficientes de uniformidad registrará algo de error, debido, precisamente, al "error de agrupamiento" en clases. Para ajustarnos mejor a la realidad, se utilizará entonces la varianza corregida, ofrecida por la denominada "corrección Sheppard", a saber:

c2 = 2 - C2/12

siendo C la amplitud del intervalo de clase escogido y 2 la varianza de los datos agrupados, y ello tendrá lugar en distribuciones continuas donde las "colas" van gradualmente convergiendo a 0 en ambas direcciones (-∞ y +∞).

En líneas generales, veamos que un número excesivo de "clases" reduce las ventajas de la agrupación, pero también resulta cierto que un número escaso de ellas puede llegar a anular la significación de los datos. Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente igual a la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 (número de individuos) es mayor que cinco, por lo que se seleccionan seis clases. También la regla de Sturgess no es sino una recomendación acerca del número deseable de clases que deben considerarse a la hora de elaborar un histograma. Éste viene dado por la siguiente expresión:

k = número de clases = 1 + 3’3 • log10 n,

siendo n el tamaño del colectivo. En el ejemplo que desarrollamos en el anexo siguiente de nuestro libro, con un colectivo de individuos superdotados de n = 1.000, esta fórmula aconsejaría el establecimiento de: 1 + 3’3 x log. 1.000 = 10’9 ≈ 11 clases. Sin embargo, se han considerado solamente 8.

Respecto a la amplitud de las "clases" establecidas, conviene observar que, en general, es conveniente que sea la misma para todas; sin embargo, esto dependerá mucho de los propios datos y del objetivo final de la distribución de la variable en estudio. En principio, si la distribución es más o menos uniforme, todas las "clases" serán de igual amplitud, y si, por el contrario, presenta grandes oscilaciones, puede ser interesante considerar intervalos de amplitud diferente.

De hecho, la construcción de una distribución numérica -como la mayoría de las que elaboraremos aquí- consta de tres etapas fundamentales: 1) determinar las “clases” con sus intervalos más procedentes, tal como ya hemos expresado antes, en las que se han de agrupar los datos de la variable psicológica en estudio, 2) clasificar (o distribuir) los datos en las clases apropiadas, y 3) contar el número de casos de cada clase. Como sea que las dos últimas etapas son puramente mecánicas, así como el establecimiento de la correspondiente “marca de clase” (obtenida normalmente, a falta de más datos, como la semisuma de los valores extremos del intervalo de clase), nos fijaremos sólo en la primera. Por esto, hace falta determinar el número de clases así como la amplitud del intervalo de los valores de la variable aleatoria estadística con la que trabajamos (notas de un examen, CI, tensión arterial, ...). Por esto, en términos generales, se pueden observar al efecto las siguientes normas:

a) Pocas veces emplearemos menos de 6 ó más de 15 clases; el número exacto de las mismas dependerá de la naturaleza, cuantía e intervalo que cubren los datos.

b) Siempre escogeremos las clases de manera que todos los datos queden comprendidos.

c) Se procurará, siempre que sea posible, que todos los intervalos de clase tengan la misma amplitud, lo que obviará la determinación de las “densidades de frecuencia” -que determinan la altura de los rectángulos yuxtapuestos del histograma- para el cálculo de algunas medidas centrales de la correspondiente distribución de frecuencias (como la “moda”) o la representación gráfica de los histogramas.

Veamos, por último, que mediante el razonamiento ya expuesto que sirve para definir la “desviación típica o standard” como una medida de dispersión absoluta de los valores de la variable psicológica, se puede afirmar que si este estadístico resulta pequeño, los valores se encuentran concentrados en el entorno de la media aritmética y, además, si la desviación típica es grande, los valores están mucho más esparcidos o dispersos en relación a los centrales. Para comprender este razonamiento sobre una base algo menos intuitiva, nos referiremos brevemente al importante Teorema de Tchebyshev, que expresa que para cualquier clase de datos (poblaciones o muestras), al menos el 75% de los datos se encuentran sobre el intervalo que se extiende a cada lado de la media aritmética en dos veces el valor de la desviación típica ( 2). Según este teorema, también se puede afirmar que por lo menos el 88’8% de los datos se encuentran dentro del intervalo de tres veces ( 3) la desviación típica (a ambos lados de la media aritmética) y que al menos el 96% de los mismos se hallan comprendidos dentro del intervalo de amplitud de cinco veces la desviación típica ( 5).

Genéricamente, este teorema indica que cualquiera que sea la forma de una distribución de frecuencia de población, la proporción de observaciones que caen dentro de k desviaciones estándar de la media es, al menos, de: 1 - (1/k2), siempre que k sea 1 o más.

Precisamente, una característica importante del teorema de Tchebyshev es que resulta válido para cualquier tipo de datos, incluidos los psicológicos. No obstante, si se dispone de alguna información adicional en relación a la forma global de la distribución que estamos trabajando, también se pueden realizar afirmaciones mucho más estrictas. Por ejemplo, si una distribución es campaniforme o gaussiana, se puede esperar que aproximadamente el 95% de los datos (en lugar de al menos el 75%) se encuentren dentro del intervalo  2 y el 99% de los datos (en lugar de al menos el 88’8%) se encuentran dentro del intervalo  3. Estos porcentajes, en definitiva, corresponden a la llamada distribución normal, que es objeto de estudio en diversas partes de nuestro libro.