EL ESTUDIO OPERATIVO DE LA PSICOLOGÍA 
UNA APROXIMACIÓN MATEMÁTICA

EL ESTUDIO OPERATIVO DE LA PSICOLOGÍA UNA APROXIMACIÓN MATEMÁTICA

Josep Maria Franquet i Bernis

Volver al índice

 

 

 

 

5. Aplicación de los “métodos robustos” en el análisis de las variables psicológicas

Hay que considerar que el empleo de las modernas técnicas de la “inferencia estadística robusta” en el estudio de las series psicológicas temporales -aunque, desde luego, sin ofrecer grandes variaciones en los resultados finales- podría afinar aún más algunos de los resultados obtenidos. Dichos estudios podrían complementarse desarrollando más el tema de la “cointegración” de las series temporales y analizar, incluso, funciones periódicas y series de Fourier mediante el Cálculo de Variaciones clásico.

Aunque puede afirmarse que la Estadística tuvo su origen en los censos romanos de población , sus métodos, tal como los conocemos hoy en día, se deben fundamentalmente a Sir Ronald Aylmer Fisher , quien en su trabajo del año 1922 (Sobre los fundamentos matemáticos de la Estadística Teórica) estableció los principios a partir de los cuales se fueron desarrollando las diversas técnicas y métodos que actualmente utilizamos. Sin embargo, su correcta aplicación requiere de condiciones muy rígidas, tales como un modelo probabilístico fijo (habitualmente la distribución normal) en el que sólo queden indeterminados uno o dos parámetros (la media y/o su varianza). Pero tal restricción o condicionante supone un problema, ya que los modelos probabilísticos más utilizados rara vez se ajustan bien al fenómeno aleatorio observado en el sistema psicológico, razón por la cual los resultados obtenidos bajo tales supuestos dejan de ser válidos incluso en situaciones muy cercanas a la modelizada bajo la cual se obtuvieron.

Por estas razones surgieron los denominados “Métodos Robustos”, aunque su origen se supone remoto. Rey (1978) lo sitúa en la antigua Grecia, en donde los sitiadores contaban las capas de ladrillos de algunos muros de la ciudad sitiada y tomaban la moda (valor más frecuente) de los recuentos al objeto de determinar la longitud de las escalas a utilizar en el asalto. De esta forma, la estimación realizada no se veía afectada por los valores extremos de la variable aleatoria estadística, procedentes de murallas muy altas o muy bajas. No obstante, fue en 1964 cuando, de la misma manera que los trabajos de R.A. Fisher dotaron a la Estadística del rigor matemático del que hasta entonces carecía, el artículo de Peter Huber titulado Estimación robusta de un parámetro de localización abrió las puertas de la precisión matemática en robustez y, por ende, las del reconocimiento científico. Posteriores trabajos suyos, así como las aportaciones fundamentales de Frank Hampel en los años 1971 y 1974, en las cuales definió los conceptos de “robustez cualitativa” y la “curva de influencia”, terminaron de poner los cimientos de los métodos robustos, tal y como son conocidos hoy en día.

De hecho, la introducción de los Métodos Robustos en la ciencia Estadística fue motivada -básicamente, aunque no de forma exclusiva- por la gran sensibilidad a los datos anómalos (outliers en la terminología anglosajona) de los estimadores generalmente utilizados. No obstante, a pesar de la relación existente entre el análisis de outliers y los Métodos Robustos, ambos campos han seguido desarrollos y caminos independientes.

Una de las primeras ideas que sugiere la presencia de datos anómalos en una serie histórica de variables psicológicas, entendidas éstas como cifras sorprendentemente alejadas del grupo principal de observaciones, es la de su rechazo o eliminación, con objeto de reparar o limpiar la serie, antes de realizar inferencias con ella.

Esta idea hállase reflejada en numerosas publicaciones existentes sobre el tema. Así, por ejemplo, puede leerse en el trabajo de Ferguson (1961) que “... el problema que se plantea en el tratamiento de los datos anómalos es el de introducir algún grado de objetividad en su rechazo...”, dando por supuesto que los datos anómalos son necesariamente erróneos y que, por tanto, deben de ser eliminados. Pero ello no es más que una de las posibles opciones a considerar en el tratamiento de los datos anómalos, puesto que no siempre son necesariamente erróneos.

En definitiva, los datos pueden ser o parecer anómalos en relación con el modelo supuesto, por lo que una posible alternativa a su rechazo es la de su incorporación, ampliando el modelo. Ello nos llevaría a una nueva definición de outlier, a saber: “aquella observación que parece ser inconsistente con el resto de los valores de la serie, en relación con el modelo supuesto”. Desde luego, en la definición anterior aparece una componente ciertamente subjetiva en la calificación o conceptualización de un dato como “anómalo”. Existe una manera más objetiva de poder llegar a tal conclusión. Se trata de utilizar unos tests de hipótesis, denominados tests de discordancia, que están basados en unos estadísticos o estadígrafos para los que es posible determinar, o al menos tabular, su distribución en el muestreo. Mediante dichos tests podemos calificar a uno o varios datos como discordantes -esto es, valores que resultan significativos en un test de discordancia- y como consecuencia podemos, como hemos visto:

- Rechazarlos, eliminándolos del resto de la serie.

- Identificarlos, resaltando algún aspecto que pudiera resultar interesante.

- Incorporarlos, ampliando la distribución-modelo propuesta.

A pesar del esfuerzo realizado para conseguir una calificación objetiva de los datos, el carácter subjetivo permanece, en cierta medida, en los tests de discordancia, tanto en su nivel de significación como en la propia elección del contraste a considerar. Además, como en todo test de hipótesis, los tests de discordancia no son simétricos; es decir, no son tratadas de igual manera la hipótesis nula de ausencia de outliers en la serie que la alternativa de, por ejemplo, tres outliers a la derecha. Y una vez concluido el test, deberían considerarse los dos tipos de error asociados al test. Pero lo peor de proceder de tal suerte, rechazando los outliers y luego utilizando los métodos clásicos, es la pérdida de eficiencia con respecto a la utilización de Métodos Robustos.

Otro problema adicional relacionado con el tratamiento de outliers es que éstos no sólo se presentan en situaciones simples, sino que también aparecen en situaciones más estructuradas, como puede ser el caso de las series de variables psicológicas que nos ocupan. En estas situaciones, los datos anómalos tenderán a ser menos aparentes, siendo en ocasiones la discrepancia con el modelo propuesto lo que conferirá “anomalía” al dato. Así, por ejemplo, en una regresión minimocuadrática (simple o múltiple, lineal o no) la anomalía consistirá en no estar alineado con el resto de las observaciones. Ahora bien, el ser anómalo no consiste en ser extremo; puede encontrarse en el grupo principal de observaciones y ser tratado como “anómalo”. Al respecto, puede verse el ejemplo de la figura siguiente, en el que aparece una supuesta serie cronológica de observaciones:

Por tanto, el término modelo, del que nos hemos ocupado extensamente en el capítulo segundo de nuestro libro, en la definición de outlier que hemos dado anteriormente, debe entenderse en un sentido bastante amplio.

Digamos, como resumen y síntesis de lo expuesto en el presente apartado de nuestro libro, que mientras los tests de discordancia tienen como objetivo el estudio de los outliers en sí mismos, proponiendo como acción ante la presencia de un outlier alguno de los tres puntos anteriormente reseñados, los Métodos Robustos están diseñados para realizar inferencias sobre el modelo, reduciendo la posible influencia que pudiera tener la presencia de datos anómalos. De hecho, los Métodos Robustos son denominados, en ocasiones, Técnicas de acomodación de outliers. Es decir, en los tests de discordancia los outliers constituyen el objetivo, mientras que en los Métodos Robustos, cuya aplicación al estudio de la predicción de las variables psicológicas que aquí propugnamos, son precisamente el mal a evitar.

Por lo que se refiere, en fin, a la caracterización del valor central de la distribución de las variables psicológicas, veamos que G. Udny Yule , estadístico inglés, en su "Introducción a la Teoría de la Estadística", ha precisado las condiciones que debe cumplir una buena caracterización del valor central de una serie temporal o cronológica. En resumen, son las siguientes:

a) La característica del valor central debe ser definida objetivamente a partir de los datos de la serie, sin que haya lugar a intervenir ninguna apreciación subjetiva del estadístico.

b) Debe depender de todas las observaciones de la serie, a ser posible. Señalemos que, no obstante, hay veces que se plantea el problema de decidir si debe tenerse en cuenta una observación (“outlier”) que es notablemente distinta de todas las demás de su conjunto o si puede ser rechazada por considerar que tal observación tiene carácter excepcional debido a algún factor extraño a la serie como, por ejemplo, un error de observación. En este sentido, recomendamos la aplicación de los denominados “métodos robustos”, tal como se propugna en el presente capítulo de nuestro libro.

c) Debe tener, en la medida de lo posible, una significación concreta, sencilla y fácil de comprender. Si se tiene en cuenta que muchos de los valores centrales de las series han de ser utilizados por personas poco familiarizadas con la Estadística, se comprende la preferencia que en la realidad se ha dado a la media aritmética como característica del valor central de que goza esta propiedad, de una interpretación sencilla.

d) Debe ser de cálculo fácil y rápido.

e) Debe ser poco sensible a las fluctuaciones del muestreo. Frecuentemente las observaciones se efectúan, no sobre el conjunto completo o “universo” de elementos a estudiar, sino sobre una parte de éstos que recibe el nombre de “muestra”, debe ser suficientemente representativa de dicho “universo” y tener el tamaño adecuado. La presente consideración resulta particularmente interesante en el caso del estudio de un sistema psicológico referido a un conjunto de individuos. Las observaciones hechas sobre los elementos componentes de la muestra constituyen la serie estadística de la cual se determina el valor central. Es evidente que "a priori" no puede asegurarse que el valor central correspondiente a la muestra adoptada coincida con el valor central que se obtendría si se hiciese una serie estadística que abarcase todo el conjunto completo de elementos a estudiar, ni que coincidan siquiera con los correspondientes a distintas muestras que se eligiesen al azar. Ahora bien, dado que en la práctica se procede casi siempre por muestreo, conviene que la característica elegida del valor central sea de tal naturaleza que dicho valor central sea sensiblemente el mismo para las distintas muestras. Conviene hacer notar, al respecto, que esta elección del valor central sólo será posible cuando se conozca la ley de distribución del fenómeno en estudio; la variación del valor central y de otros estadísticos en las distintas muestras entra de lleno en la parte de la Teoría Estadística conocida por la denominación de “Teoría de las Muestras”.

f) Debe ser adecuada a los cálculos algebraicos posteriores. Se comprende fácilmente la importancia de tal condición con sólo pensar en el caso muy frecuente de tratar de determinar el valor central que corresponde a una serie global resultado de reunir varias series estadísticas parciales.

De entre las cuatro medias usualmente empleadas en Psicología (aritmética, geométrica, cuadrática y armónica) se ve inmediatamente que la aritmética es la que mejor reúne las anteriores condiciones de Yule, si bien ni ella ni las otras tres proporcionan indicación alguna acerca de la repartición de los datos de la series o de sus posiciones respectivas ni sobre las desviaciones de unos respecto a otros. Se limitarán a condensar todos los datos de la serie en uno solo, la media, como síntesis de todos ellos.

En particular, las medias aritméticas ( ) y cuadrática (C) dan mucho relieve a los elementos grandes de la serie y, desde luego, la segunda todavía más que la primera. Por el contrario, las medias geométrica y armónica destacan la influencia de los valores pequeños y reducen la influencia de los valores grandes, lo que habrá que tener bien presente en los estudios de Psicología.

Recordemos, por último, que las medias deben calcularse a partir de datos homogéneos y numerosos, condiciones ambas inherentes a toda buena estadística en materia de tratamiento de variables psicológicas.