BIBLIOTECA VIRTUAL de Derecho, Economía y Ciencias Sociales

 

APUNTES DE ESTADÍSTICA

 

David Ruiz Muñoz y Ana María Sánchez Sánchez

 

 

 

 

Esta página muestra parte del texto pero sin formato.

Puede bajarse el libro completo en PDF comprimido ZIP (113 páginas, 705 kb) pulsando aquí

 

 

 

 

Capítulo II CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS

2.1. Introducción

La fase previa de cualquier estudio estadístico se basa en la recogida y ordenación de datos; esto se realiza con la ayuda de los resúmenes numéricos y gráficos visto en los temas anteriores.

2.2. Medidas de posición

Son aquellas medidas que nos ayudan a saber donde están los datos pero sin indicar como se distribuyen.

2.2.1. Medidas de posición central

 

a) Media aritmética ( )

 

La media aritmética o simplemente media, que denotaremos por , es el número obtenido al dividir la suma de todos los valores de la variable entre el numero total de observaciones, y se define por la siguiente expresión:

Ejemplo:

Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los siguientes datos expresados en kg.

Si los datos están agrupados en intervalos, la expresión de la media aritmética, es la misma, pero utilizando la marca de clase (Xi).

Propiedades:

1ª) Si sometemos a una variable estadística X, a un cambio de origen y escala Y = a + b X, la media aritmética de dicha variable X, varía en la misma proporción.

2ª) La suma de las desviaciones de los valores o datos de una variable X, respecto a su media aritmética es cero.

Ventajas e inconvenientes:

- La media aritmética viene expresada en las mismas unidades que la variable.

- En su cálculo intervienen todos los valores de la distribución.

- Es el centro de gravedad de toda la distribución, representando a todos los valores observados.

- Es única.

- Su principal inconveniente es que se ve afectada por los valores extremadamente grandes o pequeños de la distribución.

• Media aritmética ponderada

Es una media aritmética que se emplea en distribuciones de tipo unitario, en las que se introducen unos coeficientes de ponderación, denominados , que son valores positivos, que representan el número de veces que un valor de la variable es más importante que otro.

 

b) Media geométrica

 

Sea una distribución de frecuencias (x , n ). La media geométrica, que denotaremos por G. se define como la raíz N-ésima del producto de los N valores de la distribución.

G =

Si los datos están agrupados en intervalos, la expresión de la media geométrica, es la misma, pero utilizando la marca de clase (Xi).

El empleo más frecuente de la media geométrica es el de promediar variables tales como porcentajes, tasas, números índices. etc., es decir, en los casos en los que se supone que la variable presenta variaciones acumulativas.

Ventajas e inconvenientes:

- En su cálculo intervienen todos los valores de la distribución.

- Los valores extremos tienen menor influencia que en la media aritmética.

- Es única.

- Su cálculo es más complicado que el de la media aritmética.

Además, cuando la variable toma al menos un x = 0 entonces G se anula, y si la variable toma valores negativos se pueden presentar una gama de casos particulares en los que tampoco queda determinada debido al problema de las raíces de índice par de números negativos.

c) Media armónica

 

La media armónica, que representaremos por H, se define como sigue:

Obsérvese que la inversa de la media armónica es la media aritmética de los inversos de los valores de la variable. No es aconsejable en distribuciones de variables con valores pequeños. Se suele utilizar para promediar variables tales como productividades, velocidades, tiempos, rendimientos, cambios, etc.

Ventajas e inconvenientes:

- En su cálculo intervienen todos los valores de la distribución.

- Su cálculo no tiene sentido cuando algún valor de la variable toma valor cero.

- Es única.

• Relación entre las medias:

d) Mediana ( Me )

Dada una distribución de frecuencias con los valores ordenados de menor a mayor, llamamos mediana y la representamos por Me, al valor de la variable, que deja a su izquierda el mismo número de frecuencias que a su derecha.

• Calculo de la mediana:

Variara según el tipo de dato:

a) Variables discretas no agrupadas:

1º) Se calcula y se construye la columna de las Ni ( frecuencias acumuladas )

2º) Se observa cual es la primera Ni que supera o iguala a , distinguiéndose dos casos:

- Si existe un valor de Xi tal que , entonces se toma como

- Si existe un valor i tal que , entonces la

b) Variables agrupadas por intervalos

En este caso hay que detectar en que intervalo está el valor mediano. Dicho intervalo se denomina “ intervalo mediano ”.

Ventajas e inconvenientes :

- Es la medida más representativa en el caso de variables que solo admitan la escala ordinal.

- Es fácil de calcular.

- En la mediana solo influyen los valores centrales y es insensible a los valores extremos u “outliers ”.

- En su determinación no intervienen todos los valores de la variable.

e) Moda

La moda es el valor de la variable que más veces se repite, y en consecuencia, en una distribución de frecuencias, es el valor de la variable que viene afectada por la máxima frecuencia de la distribución. En distribuciones no agrupadas en intervalos se observa la columna de las frecuencias absolutas, y el valor de la distribución al que corresponde la mayor frecuencia será la moda. A veces aparecen distribuciones de variables con más de una moda (bimodales, trimodales, etc), e incluso una distribución de frecuencias que presente una moda absoluta y una relativa.

En el caso de estar la variable agrupada en intervalos de distinta amplitud, se define el intervalo modal, y se denota por ( Li-1 , Li ], como aquel que posee mayor densidad de frecuencia ( hi ); la densidad de frecuencia se define como :

Una vez identificado el intervalo modal procederemos al cálculo de la moda, a través de la fórmula:

En el caso de tener todos los intervalos la misma amplitud, el intervalo modal será el que posea una mayor frecuencia absoluta ( ni ) y una vez identificado este, empleando la fórmula:

Ventajas e inconvenientes:

- Su cálculo es sencillo.

- Es de fácil interpretación.

- Es la única medida de posición central que puede obtenerse en las variables de tipo cualitativo.

- En su determinación no intervienen todos lo valores de la distribución.

2.2.2. Medidas de posición no central ( Cuantiles )

Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias.

Los cuantiles más conocidos son:

a) Cuartiles ( Qi )

Son valores de la variable que dividen a la distribución en 4 partes, cada una de las cuales engloba el 25 % de las mismas. Se denotan de la siguiente forma: Q1 es el primer cuartil que deja a su izquierda el 25 % de los datos; Q2 es el segundo cuartil que deja a su izquierda el 50% de los datos, y Q3 es el tercer cuartil que deja a su izquierda el 75% de los datos. (Q2 = Me)

b) Deciles ( Di)

Son los valores de la variable que dividen a la distribución en las partes iguales, cada una de las cuales engloba el 10 % de los datos. En total habrá 9 deciles. (Q2 = D5 = Me )

c) Centiles o Percentiles ( Pi )

Son los valores que dividen a la distribución en 100 partes iguales, cada una de las cuales engloba el 1 % de las observaciones. En total habrá 99 percentiles. (Q2 = D5 = Me = P50)

• Cálculo de los cuantiles en distribuciones no agrupadas en intervalos

- Se calculan a través de la siguiente expresión: , siendo :

r = el orden del cuantil correspondiente

q = el número de intervalos con iguales frecuencias u observaciones ( q = 4, 10, ó 100 ).

N = número total de observaciones

- La anterior expresión nos indica que valor de la variable estudiada es el cuantil que nos piden, que se corresponderá con el primer valor cuya frecuencia acumulada sea mayor o igual a

• Cálculo de los cuantiles en distribuciones agrupadas en intervalos

- Este cálculo se resuelve de manera idéntica al de la mediana.

- El intervalo donde se encuentra el cuantil i-esimo, es el primero que una vez ordenados los datos de menor a mayor, tenga como frecuencia acumulada ( Ni ) un valor superior o igual a ; una vez

identificado el intervalo Ii ( Li-1 , Li ], calcularemos el cuantil correspondiente, a través de la fórmula:

2.3. Momentos potenciales

Los momentos son medidas obtenidas a partir de todos los datos de una variable estadística y sus frecuencias absolutas. Estas medidas caracterizan a las distribuciones de frecuencias de tal forma que si los momentos coinciden en dos distribuciones, diremos que son iguales.

2.3.1. Momentos respecto al origen

Se define el momento de orden h respecto al origen de una variable estadística a la expresión:

Particularidades:

Si h = 1, a1 es igual a la media aritmética.

Si h = 0, a0 es igual a uno ( a0 = 1 )

2.3.2. Momentos centrales o momentos con respecto a la media aritmética

Particularidades:

- Si h = 1, entonces m1 = 0

- Si h = 2, entonces m2 = S2

2.4. Medidas de dispersión

Las medidas de dispersión tratan de medir el grado de dispersión que tiene una variable estadística en torno a una medida de posición o tendencia central, indicándonos lo representativa que es la medida de posición. A mayor dispersión menor representatividad de la medida de posición y viceversa.

2.4.1 Medidas de dispersión absoluta

a) Recorrido ( Re )

Se define como la diferencia entre el máximo y el mínimo valor de la variable:

b) Desviación absoluta media con respecto a la media ( de )

Nos indica las desviaciones con respecto a la media con respecto a la media aritmética en valor absoluto.

c) Varianza

La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la media aritmética. Cuanto mayor sea la varianza mayor dispersión existirá y por tanto menor representatividad tendrá la media aritmética.

La varianza se expresa en las mismas unidades que la variable analizada, pero elevadas al cuadrado.

Propiedades:

1ª) La varianza siempre es mayor o igual que cero y menor que infinito

2ª) Si a una variable X la sometemos a un cambio de origen “ a ” y un cambio de escala “ b ”, la varianza de la nueva variable Y= a + bX, será:

d) Desviación típica o estándar

Se define como la raíz cuadrada con signo positivo de la varianza.

2.4.2. Medidas de dispersión relativa

 

Nos permiten comparar la dispersión de distintas distribuciones.

a) Coeficiente de variación de Pearson ( CVx )

Indica la relación existente entre la desviación típica de una muestra y su media.

Al dividir la desviación típica por la media se convierte en un valor excento de unidad de medida. Si comparamos la dispersión en varios conjuntos de observaciones tendrá menor dispersión aquella que tenga menor coeficiente de variación.

El principal inconveniente, es que al ser un coeficiente inversamente proporcional a la media aritmética, cuando está tome valores cercanos a cero, el coeficiente tenderá a infinito.

Ejemplo: Calcula la varianza, desviación típica y la dispersión relativa de esta distribución.


2.5. Medidas de forma

 

·         Asimetría

·         Curtosis o apuntamiento.

 

         Hasta ahora, hemos estado analizando y estudiando la dispersión de una distribución, pero parece evidente que necesitamos conocer más sobre el comportamiento de una distribución. En esta parte, analizaremos las medidas de forma, en el sentido de histograma o representación de datos, es decir, que información nos aporta según la forma que tengan la disposición de datos.

 

         Las medidas de forma de una distribución se pueden clasificar en dos grandes grupos o bloques: medidas de asimetría y medidas de curtosis.
 

2.5.1. Medidas de asimetría o sesgo : Coeficiente de asimetría de Fisher.

 

         Cuando al trazar una vertical, en el diagrama de barras o histograma, de una variable, según sea esta discreta o continua, por el valor de la media, esta vertical, se transforma en eje de simetría, decimos que la distribución es simétrica. En caso contrario, dicha distribución será asimétrica o diremos que presenta asimetría.

2.5.2. Medidas de apuntamiento o curtosis: coeficiente de curtosis de Fisher

Con estas medidas nos estamos refiriendo al grado de apuntamiento que tiene una distribución; para determinarlo, emplearemos el coeficiente de curtosis de Fisher. (g2)

2.6. Medidas de concentración

 

Las medidas de concentración tratan de poner de relieve el mayor o menor grado de igualdad en el reparto del total de los valores de la variable, son por tanto indicadores del grado de distribución de la variable.

Para este fin, están concebidos los estudios sobre concentración.

Denominamos concentración a la mayor o menor equidad en el reparto de la suma total de los valores de la variable considerada (renta, salarios, etc.).

 

De las diferentes medidas de concentración que existen nos vamos a centrar en dos:

Indice de Gini, Coeficiente, por tanto será un valor numérico.

Curva de Lorenz, gráfico, por tanto será una representación en ejes coordenados.

 

Sea una distribución de rentas (xi, ni) de la que formaremos una tabla con las siguientes columnas:

1.- Los productos xi ni, que nos indicarán la renta total percibida por los ni rentistas de renta individual xi .

2.- Las frecuencias absolutas acumuladas Ni .

3.- Los totales acumulados ui que se calculan de la siguiente forma:

4.- La columna total de frecuencias acumuladas relativas, que expresaremos en tanto por ciento y que representaremos como pi y que vendrá dada por la siguiente notación

5.- La renta total de todos los rentistas que será un y que dada en tanto por ciento, la cual representaremos como qi y que responderá a la siguiente notación:

 

Como podemos ver la última columna es la diferencia entre las dos penúltimas, esta diferencia seria 0 para la concentración mínima ya que pi = qi y por tanto su diferencia seria cero.

Si esto lo representamos gráficamente obtendremos la curva de concentración o curva de Lorenz .La manera de representarlo será, en el eje de las X, los valores pi en % y en el de las Y los valores de qi en %. Al ser un %, el gráfico siempre será un cuadrado, y la gráfica será una curva que se unirá al cuadrado, por los valores (0,0), y (100,100), y quedará siempre por debajo de la diagonal.

 

La manera de interpretarla será: cuanto más cerca se sitúe esta curva de la diagonal, menor concentración habrá, o más homogeneidad en la distribución. Cuanto más se acerque a los ejes, por la parte inferior del cuadrado, mayor concentración.

Grupo EUMEDNET de la Universidad de Málaga Mensajes cristianos

Venta, Reparación y Liberación de Teléfonos Móviles
Enciclopedia Virtual
Biblioteca Virtual
Servicios