INTRODUCCIN A LA METODOLOGA DEL LA INVESTIGACIN

INTRODUCCIN A LA METODOLOGA DEL LA INVESTIGACIN

Hctor Luis vila Baray

Volver al ndice

 

Elementos de Estadstica Descriptiva

Como ya fue explicado la estadstica descriptiva permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rpida su lectura e interpretacin.

Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribucin de frecuencias y b) la representacin grfica. Estos sistemas de organizacin y descripcin de los datos permiten realizar un anlisis de datos univariado, bivariado o trivariado, dependiendo de los objetivos y de la naturaleza de la investigacin que se realiza.

Distribucin de Frecuencias. Comunmente llamada tabla de frecuencias, se utiliza para hacer la presentacin de datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden mediante la divisin en clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realizacin de un mejor anlisis e interpretacin de las caractersticas que describen y que no son evidentes en el conjunto de datos brutos o sin procesar. Una distribucin de frecuencias constituye una tabla en el mbito de investigacin.

La distribucin de frecuencias puede ser simple o agrupada. La distribucin de frecuencias simple es una tabla que se construye con base en los siguientes datos: clase o variable (valores numricos) en orden descendente o ascendente, tabulaciones o marcas de recuento y frecuencia. Por ejemplo, si se construye una distribucin de frecuencias sobre los resultados finales que arroj la evaluacin de un curso de planeacin estratgica para estudiantes de administracin correspondientes al semestre agosto-diciembre de 1998, se tienen los siguientes datos brutos: 86, 80, 84, 84, 74, 88, 87, 84, 74, 77, 77, 82, 68, 78, 67, 74, 66, 86, 65, 88,69 se procede a organizarlos en forma ascendente o descendente y se tiene en orden descendente:

88, 88, 87, 86, 86, 84, 84, 84, 82, 80, 78, 77, 77, 74, 74, 74, 69, 698, 67, 66, 65 posteriormente se registran en una tabla de distribucin de frecuencias simple (ver Tabla 4.1). Cuando se pretende ... determinar el nmero de observaciones que son mayores o menores que determinada cantidad, (Webster, 1998, p. 27) se utiliza la distribucin de frecuencias agrupadas tambin conocida como distribucin de frecuencias acumuladas. La distribucin de frecuencias agrupadas es una tabla que contiene las columnas siguientes: intervalo de clase, puntos medios, tabulacin frecuencias y frecuencias agrupadas. Los pasos para disearla son:

1 Se localizan el computo mas alto y el mas bajo de la serie de datos.

2 Se encuentra la diferencia entre esos dos computos.

3 La diferencia obtenida se divide entre nmeros nones tratando de encontrar un cociente cercano a 15 pero no mayor. Lo anterior indica cuantas clases va a tener la distribucin de frecuencias agrupadas y cul va a ser la magnitud del intervalo de clase.

4 Se determina el primer intervalo de clase y posteriormente se van disminuyendo los lmites del intervalo de clase de acuerdo al valor de la magnitud establecida previamente.

El ejemplo planteado en la distribucin de frecuencias simples se utilizar tanto para efectos de ejemplificacin de la distribucin de frecuencias agrupadas como para el diseo de grficas tipo polgono de frecuencias, histograma y ojiva. En la Figura 4.2 se presenta un ejemplo de una distribucin de frecuencias agrupada.

Los computos mayor y menor son las puntuaciones 88 y 65, la diferencia es 88-65=23 y el nmero de intervalos de clase es 23/3= 7.68.

b) Representacin Grfica. A partir de la distribucin de frecuencias se procede a presentar los datos por medio de grficas. La informacin puede describirse por medio de grficos a fin de facilitar la lectura e interpretacin de las variables medidas. Los actuales sistemas computacionales como Excel, Lotus Smart Suite, Minitab, SAS-PC, Stath Graph, entre otros permiten obtener representaciones grficas de diversos conjuntos de datos. Las grficas pueden ser tipo histograma, polgono de frecuencias, grfica de series de tiempo, etc,

b1) El Histograma. El histograma ... es una grfica de barras que permite describir el comportamiento de un conjunto de datos en cuanto a su tendencia central, forma y dispersin, (Gutirrez, 1998, p.79). De acuerdo con Glass y Stanley (1994) un histograma no debe ser demasiado plano o esculpado. El ancho es de dos tercios de su altura. Los pasos para elaborar un histograma son (ver Figura 4.1):

1 Se trazan los ejes horizontal y vertical.

2 Se registran marcas equidistantes sobre ambos ejes.

3 Se marcan los puntos medios de cada intervalo de clase sobre el eje horizontal.

b2) El Polgono de Frecuencias. Un mtodo ampliamente utilizado para mostrar informacin numrica de forma grfica es el polgono de frecuencia o grfica de lnea. La construccin es similar a la del histograma pero la diferencia radica en que para indicar la frecuencia solo se utiliza un punto sobre el punto medio de cada intervalo. Los pasos para construirlo son (ver Figura 4.2):

Figura 4.1 Nmero de Empresas de la Industria Grfica de

Estados Unidos por Segmento. (EPA, 1997).

Figura 4.2 Resultados de la Aplicacin de una Prueba Matemticas

con 100 tems al Grupo de 2. de Ingeniera en Sistemas.

1 Se trazan los ejes horizontal y vertical.

2 Se registran marcas equidistantes sobre el eje horizontal y se anotan debajo de cada una de ellas los puntos medios de los intervalos de clase en un orden de menor a mayor.

3 Se registran marcas equidistantes sobre el eje vertical y se anotan a la izquierda de cada una de ellas las frecuencias en orden ascendentes. A partir de ellas se disea la cuadrcula del espacio enmarcado, trazando las abscisas y ordenadas.

4 Se representa con puntos las frecuencias de cada intervalo de clase. Se toma en cuenta el punto medio de cada intervalo de clase como base y las frecuencias como altura.

5 Se unen con lnea gruesa los puntos as determinados.

6 Se registra el ttulo expresando en resumen el asunto o cuestin sobre la que informa la grfica.

b3) Grfica de Series de Tiempo. Es una grfica de lnea en la que la lnea horizontal representa el tiempo. Es utilizada para representar tendencias como puede ser el tipo de cambio peso-dlar, el ndice de precios al consumidor, etc. (ver Figura 4.3).

los anteriores elementos de estadstica descriptiva son utilizados en investigacin para disear tablas y figuras que presenten de manera resumida y organizada n conjunto de datos obtenidos mediante la observacin y medicin de las variables estudiadas.

Figura 4.3 Tendencias de Crecimiento de la Industria

Grfica de Estados Unidos para el periodo 1990-

2000, (EPA, 1997).

c) Medidas de Tendencia Central. Las medidas de tendencia central son tiles para encontrar indicadores representativos de un colectivo de datos. Los tres mtodos que permiten obtener el punto medio de una serie de datos son la media, la mediana y la moda.

c1) Media Aritmtica. Medida de tendencia central que se define como el promedio o media de un conjunto de observaciones o puntuaciones. En aquellas situaciones en que la poblacin de estudio es pequea suele utilizarse la media poblacional mediante la expresin:

N

donde:

= media poblacional

Xi = Sumatoria de las puntuaciones

N = Nmero de casos

En cambio si la poblacin de estudio es muy numerosa se procede a obtener la media muestral definida matemticamente por la expresin:

N

donde:

X= media muestral

Xi = Sumatoria de las puntuaciones

N = Nmero de casos

Al obtener la media alcanzada por la compaa XYZ que comercializa computadoras personales. Las ventas diarias realizadas por la compaa durante una semana indican las siguientes cantidades: 4, 12, 7, 9, 11, 7, 8, el clculo de la media es:

58

7

el anterior resultado sugiere que el promedio semanal de ventas de la compaa XYZ es de 8.29 computadoras personales.

c2) La Moda. En una serie de puntuaciones se denomina moda a la observacin que se presenta con mayor frecuencia. As en el ejemplo anterior de la compaa XYZ la moda es la puntuacin 7. Para obtener la moda a partir de una distribucin de frecuencias agrupadas se utiliza la expresin:

donde:

Mo = Moda

Lmo = Lmite inferior del intervalo de clase modal

Da = Diferencia entre la frecuencia de la clase modal y la de la clase que la

precede.

Db = Diferencia entre la frecuencia de la clase modal y la de la clase que l

la sigue.

i = Intervalo de clase.

La moda para una distribucin de frecuencias agrupadas se obtiene a partir de los datos de la Tabla 4.2:

la moda tiene un valor de 86.10.

c3) La Mediana. Tambin conocida como media posicional en virtud de que se localiza en el centro de un conjunto de observaciones presentadas en una serie ordenada de datos. Lo anterior sugiere que el 50 % de los casos se encuentra por encima de la mediana y el resto por debajo de ella. La posicin central de la mediana se obtiene mediante la expresin matemtica.

N + 1

2

donde:

PMd = Posicin de la Mediana

N = Nmero de casos.

el procedimiento para obtener la mediana a partir de una distribucin de

frecuencias simple o agrupada requiere de aplicar la expresin:

donde:

Md = Mediana

N = Nmero de casos.

FA = Frecuencia agrupada.

FS = Frecuencia del intervalo adyacente superior.

Al aplicar la ecuacin 4.5 a los datos de la Tabla 4.2 se obtiene un valor de 83 para la mediana:

De las tres medidas de tendencia central la media es mas exacta que la mediana por ser una estadstica obtenida a travs de una medicin ordinal o de razn mientras que la mediana se obtiene a un nivel de medicin nominal.

La principal caracterstica de la media consiste en tomar en cuenta al 100 % de las puntuaciones de una distribucin de frecuencias. No obstante cuando se analizan medidas extremas esta medida pudiera ser afectada por desviaciones que se posicionan por debajo o por arriba de ella. Ni la mediana ni la moda tienen este problema (Webster, 1998; Hopkins, Hopkins y Glass 1997; Kazmier, 1998).

a) Medidas de Dispersin.

Las medidas de dispersin son ndices que se utilizan para describir una distribucin de frecuencias a partir de la variacin de los valores obtenidos. Los ndices ms utilizados son el rango, la varianza y la desviacin estndar.

d1) El Rango. Indice conocido como recorrido. Se le define como la diferencia existente entre la puntuacin mayor y la menor en una serie de datos. Tiene como desventaja que solo toma en cuenta para su clculo las puntuaciones extremas, es decir la mayor y la menor omitiendo el resto de los datos u observaciones. Debido a lo anterior no es una medida confiable dado que se obtiene prcticamente por inspeccin.

d2) La Varianza. La varianza es una medida de variabilidad que toma en cuenta el 100 % de las puntuaciones de manera individual. Webster (1998) la define como la media aritmtica de las desviaciones respecto a la media aritmtica elevada al cuadrado, (p. 83). La definicin matemtica de la varianza se expresa por medio de la ecuacin 4.6:

X2

N

donde:

2 Varianza.

 Suma de

X2 Desviacin de las puntuaciones de la media (X X)

N = Nmero de casos.

d3) La Desviacin Estndar. Dada la dificultad inherente de interpretar el significado de una varianza en virtud de que expresa valores elevados al cuadrado, para efectos de investigacin es ms adecuado utilizar la desviacin estndar o desviacin tpica, definida como la raz cuadrada de la varianza. La desviacin estndar se expresa mediante la ecuacin 4.7:

donde:

 X2 Suma de los cuadrados de cada puntuacin

(X2Suma de las puntuaciones elevadas al cuadrado

N = Nmero de casos.

La desviacin estndar es una medida obtenida mediante una escala de intervalo o de razn basada en la magnitud de las puntuaciones individuales de la distribucin (DAry, Jacobs y Razavieh, 1982). Es de mucha utilidad en ... en conjuncin con la...distribucin normal, (Kazmier, 1998).

e) Correlacin.

La correlacin es un mtodo estadstico que permite determinar la presencia o ausencia de asociacin entre dos variables sometidas a investigacin. Por ejemplo se puede medir el grado de asociacin entre el rendimiento acadmico y el nivel socioeconmico de una muestra de unidades de observacin. La correlacin se describe por medio de ndices estadsticos denominados coeficientes de correlacin que pueden sugerir si el cambio de una variable se asocia con el cambio de la otra variable.

Los ndices mas utilizados para medir la asociacin entre dos variables es el coeficiente de correlacin producto-momento que se aplica a escalas de medicin de intervalo o de razn y el coeficiente de correlacin de rangos que se utiliza en escalas de medicin ordinal.

Al analizar la correlacin de una serie de datos el resultado que arroja un coeficiente de correlacin flucta entre 1.00 y + 1.00. Una puntuacin de 1.00 sugiere una correlacin negativa perfecta. Una puntuacin de 0.00 sugiere ausencia de asociacin entre las variables y una puntuacin de + 1.00 sugiere una correlacin positiva perfecta. Una correlacin positiva perfecta indica que si una variable aumenta la otra tambin aumenta, por ejemplo cabe esperar que si el tipo de cambio peso-dlar aumenta el volumen de exportaciones del sector manufacturero del pas tambin aumenta.

En el caso de una correlacin negativa perfecta ocurre el aumento de una variable y el decremento o disminucin de la otra variable. Por ejemplo ante el aumento del tipo de cambio peso-dlar cabe esperar una disminucin o decremento en el volumen de importaciones del pas. Una adecuada tcnica para leer e interpretar los valores de correlacin son las grficas de dispersin. La Tabla 4.3 muestra algunos valores de coeficientes de correlacin con su respectiva descripcin y grfica de dispersin.

Determinar la existencia de asociacin entre las variables no indica existencia de causalidad. Esto es, un coeficiente de correlacin nicamente sugiere el grado de relacin entre las variables y no una situacin causal.

e1) Correlacin Producto-Momento. La correlacin producto-momento es conocida como r de Pearson en virtud de que el estadstico Karl Pearson desarrollo este procedimiento. Se define como la media de los productos

de las puntuaciones Z y se expresa matemticamente mediante la ecuacin:

donde:

rxy = coeficiente de correlacin producto-momento.

ZyZx = Sumatoria de los productos de puntuacin Z.

n = Nmero de casos o puntuaciones pareadas.

en situaciones en las que el conjunto de observaciones es muy numeroso se omite la aplicacin de la ecuacin 4.8 y es sustituida por la expresin:

donde:

rxy = coeficiente de correlacin producto-momento.

n = Nmero de casos.

Xi = Sumatoria de las puntuaciones de la variable X.

Yi = Sumatoria de las puntuaciones de la variable Y.

XY = Sumatoria de los productos de las puntuaciones apareadas XiYi.

Xi2 = Sumatoria de los cuadrados de las puntuaciones de la variable X.

Yi2 = Sumatoria de los cuadrados de las puntuaciones de la variable Y.



Para ejemplificar el coeficiente de correlacin producto-momento se desarrollar el anlisis de correlacin al volumen de exportaciones del Sector de Servicios de Impresin (SSI) de Mxico en el periodo comprendido entre 1991 y 1995 en relacin con el tipo de cambio peso-dlar. El volumen de exportaciones se expresa en millones de dlares. La Tabla 4.4 muestra los datos del ejemplo. Al aplicar la ecuacin 4.9 se obtiene:

al calcular el coeficiente de determinacin (ver seccin 5.3) se obtiene un valor de:

el anlisis de correlacin arroj un coeficiente de correlacin de 0.28 para la asociacin del valor total de exportaciones con el tipo de cambio peso-dlar, esto indica una dbil correlacin inversa entre ambas variables, con un coeficiente de determinacin de 0.06. Lo anterior sugiere la conclusin lgica de que mientras el volumen de exportaciones se incrementa, el tipo de cambio peso-dlar decrece, sin que lo anterior indique una relacin causstica, dado que para tal efecto sera necesario un anlisis marginal con soporte en algn modelo econmico. El anlisis de correlacin simple es susceptible de someterse a prueba de hiptesis estadstica mediante la distribucin t con gl = n 2 (gl = grados de libertad). Para lo anterior se procede a:

a) Establecer la hiptesis nula expresada en trminos estadsticos (ver seccin 2.2 del captulo II). La hiptesis es:

b) Determinar el nivel de significancia estadstica al que se someter a contrastacin la hiptesis nula y que pudiera ser en nivel de:

c) Calcular la prueba de significancia estadstica mediante el

d) estadstico t expresado en la ecuacin:

donde:

t = prueba t para prueba de hiptesis de correlacin simple

r = coeficiente de correlacin

r2 = coeficiente de determinacin

n = nmero de casos

al aplicar la ecuacin 4.10 al anlisis de correlacin anterior se obtiene un valor t calculado de:

el valor t calculado de 0.90 se compara con el valor t crtico a una significacin de = 0.05 consultado en el apndice A, procediendo previamente a obtener los grados de libertad para la distribucin t con la ecuacin:

en el problema son cinco casos por lo que gl = 5 2 = 3. Con tres grados de libertad el valor t crtico es de 3.182. La regla de decisin es que si el valor t calculado es mayor que el valor t crtico entonces se rechaza la hiptesis de nulidad. En este caso se acepta la hiptesis de nulidad en virtud de que el valor to = - 0.90  tc = 3.182 y se concluye que si existe asociacin entre las variables volumen de exportaciones y tipo de cambio peso-dlar.

e2) Coeficiente de Correlacin por Rangos. El coeficiente de correlacin por rangos conocido como coeficiente de Spearman (rho) se obtiene por medio de la expresin:

donde:

= Coeficiente de correlacin por rangos

D2= Sumatoria de los cuadrados de las diferencias entre los rangos.

N = Nmero de casos.

e3) Coeficiente de Determinacin. El coeficiente de determinacin (rXY2) se define como el cuadrado del coeficiente de correlacin y se utiliza para medir la variacin de la variable dependiente (Y) explicada por la variacin de la variable independiente (X). Es ms adecuado aplicarlo en modelos de regresin