![]() ![]() |
![]() ![]()
|
Manual de Estadística
David Ruiz Muñoz
Capítulo III: DISTRIBUCIONES BIDIMENSIONALES
3.3. Dependencia e independencia
3.3.1.Independencia
Cuando no se da ningún tipo de relación entre 2 variables o atributos, diremos que son independientes
Dos variables X e Y, son independientes entre si, cuando una de ellas no influye en la distribución de la otra condicionada por el valor que adopte la primera. Por el contrario existirá dependencia cuando los valores de una distribución condicionan a los de la otra
Dada dos variables estadísticas X e Y, la condición necesaria y suficiente para que sean independientes es:
Propiedades:
1ª) Si X es independiente de Y, las distribuciones condicionadas de X/Yj son idénticas a la distribución marginal de X
2ª) Si X es independiente de Y, Y es independiente de X
3ª) Si X e Y son 2 variables estadísticamente independientes, su covarianza es cero. La recíproca de esta propiedad no es cierta, es decir, la covarianza de 2 variables puede tomar valor cero, y no ser independientes
3.3.2.Dependencia funcional
( existe una relación matemática exacta entre ambas variables ) El carácter X depende del carácter Y, si a cada modalidad yj de Y corresponde una única modalidad posible de X. Por lo tanto cualquiera que sea j, la frecuencia absoluta nij vale cero salvo para un valor de i correspondiente a una columna j tal que nij = n.j Cada columna de la tabla de frecuencias tendrá, por consiguiente, un único término distinto de cero. Si a cada modalidad xi de X corresponde una única modalidad posible de Y, será Y dependiente de X. La dependencia de X respecto de Y no implica que Y dependa de X
Para que la dependencia sea recíproca, los caracteres X e Y deben presentar el mismo número de modalidades ( debe ser n=m) y en cada fila como en cada columna de la tabla debe haber uno y solo un término diferente de cero
Sea X el salario de un empleado e Y la antigüedad del mismo en la empresa
Dependencia funcional recíproca: X depende de Y e Y depende de X
Y depende de X pero X no depende de Y
3.3.3.Dependencia estadística
( existe una relación aproximada )
Existen caracteres que ni son independientes, ni se da entre ellos una relación de dependencia funcional, pero si se percibe una cierta relación de dependencia entre ambos; se trata de una dependencia estadística
Cuando los caracteres son de tipo cuantitativo, el estudio de la dependencia estadística se conoce como el problema de “ regresión ”, y el análisis del grado de dependencia que existe entre las variables se conoce como el problema de correlación
3.4.Regresión y correlación lineal simple 3.4.1.Introducción a la regresión lineal simple
Cuando se estudian dos características simultáneamente sobre una muestra, se puede considerar que una de ellas influye sobre la otra de alguna manera. El objetivo principal de la regresión es descubrir el modo en que se relacionan
Por ejemplo, en una tabla de pesos y alturas de 10 personas se puede suponer que la variable “Altura” influye sobre la variable “Peso” en el sentido de que pesos grandes vienen explicados por valores grandes de altura (en general). De las dos variables a estudiar, que vamos a denotar con X e Y, vamos a llamar a la X VARIABLE INDEPENDIENTE o EXPLICATIVA, y a la otra, Y, le llamaremos VARIABLE DEPENDIENTE o EXPLICADA.
En la mayoría de los casos la relación entre las variables es mutua, y es difícil saber qué variable influye sobre la otra. En el ejemplo anterior, a una persona que mide menos le supondremos menor altura y a una persona de poca altura le supondremos un peso más bajo. Es decir, se puede admitir que cada variable influye sobre la otra de forma natural y por igual. Un ejemplo más claro donde distinguir entre variable explicativa y explicada es aquel donde se anota, de cada alumno de una clase, su tiempo de estudio (en horas) y su nota de examen.
En este caso un pequeño tiempo de estudio tenderá a obtener una nota más baja, y una nota buena nos indicará que tal vez el alumno ha estudiado mucho. Sin embargo, a la hora de determinar qué variable explica a la otra, está claro que el “tiempo de estudio” explica la “nota de examen” y no al contrario, pues el alumno primero estudia un tiempo que puede decidir libremente, y luego obtiene una nota que ya no decide arbitrariamente. Por tanto, X = Tiempo de estudio (variable explicativa o independiente) Y = Nota de examen (variable explicada o dependiente) El problema de encontrar una relación funcional entre dos variables es muy complejo, ya que existen infinidad de funciones de formas distintas. El caso más sencillo de relación entre dos variables es la relación LINEAL, es decir que Y = a + b X
(es la ecuación de una recta) donde a y b son números, que es el caso al que nos vamos a limitar.
Cualquier ejemplo de distribución bidimensional nos muestra que la relación entre variables NO es EXACTA (basta con que un dato de las X tenga dos datos distintos de Y asociados, como en el ejemplo de las Alturas y Pesos, que a 180 cm. de altura le correspondía un individuo de 82 kg. y otro de 78 kg.).
• Diagrama de dispersión o nube de puntos En un problema de este tipo, se observan los valores ( xi,yj ) y se representan en un sistema de ejes coordenados, obteniendo un conjunto de puntos sobre el plano, llamado “ diagrama de dispersión o nube de puntos ”.
En los diagramas de arriba se puede observar cómo en el de la izquierda, una línea recta inclinada puede aproximarse a casi todos los puntos, mientras que en el otro, cualquier recta deja a muchos puntos alejados de ella. Así pues, el hacer un análisis de regresión lineal sólo estaría justificado en el ejemplo de la izquierda.
Como se puede ver en ambos diagramas, ninguna recta es capaz de pasar por todos los puntos, y seguir siendo recta. De todas las rectas posibles, la RECTA DE REGRESIÓN DE Y SOBRE X es aquella que minimiza un cierto error, considerando a X como variable explicativa o independiente y a Y como la explicada o dependiente.
• Recta de mínimos cuadrados o recta de regresión de Y sobre X (y* = a + b x) Sea y = a + b x una recta arbitraria. Para cada dato de X, es decir, para cada xi de la tabla tenemos emparejado un dato de Y llamada yi, pero también tenemos el valor de sustituir la xi en la ecuación de la recta, al que llamaremos y* i.
Cuando se toma el dato xi, el error que vamos a considerar es el que se comete al elegir y*.
Esos errores pueden ser positivos o negativos, y lo que se hace es escoger la recta que minimice la suma de los cuadrados de todos esos errores, que es la misma que la que minimiza la varianza de los errores.
Usando técnicas de derivación se llega a que, de todas las rectas y = a + b x, con a y b números arbitrarios, aquella que minimiza el error elegido es aquella que cumple .
Así pues, sustituyendo en y = a + b x, la ecuación de la recta de regresión de Y sobre X es .
y recolocando los términos se puede escribir de la forma .
• Recta de regresión de X sobre Y Si se hubiese tomado Y como variable independiente o explicativa, y X como dependiente o explicada, la recta de regresión que se necesita es la que minimiza errores de la X. Se llama RECTA DE REGRESIÓN DE X SOBRE Y y se calcula fácilmente permutando los puestos de x e y, obteniéndose.
Sabiendo que :
PROPIEDADES:
- Ambas rectas de regresión pasan por el punto ( y x, )
- La pendiente de la recta de regresión de Y sobre X es “ b “ y la de X sobre Y es “ b ´ “. Dado que las varianzas son positivas por definición, el signo de las pendientes será el mismo que el de la covarianza, y así, las rectas serán ambas crecientes o decrecientes, dependiendo de si la covarianza es positiva o negativa, respectivamente, es decir b y b´ tendrán el mismo signo.
- Los términos de las rectas a y a´ constituyen los orígenes de las rectas, es decir, son los valores que adoptan respectivamente y* ó x* cuando x o y toman el valor cero en sus correspondientes rectas de regresión.
- Las rectas de regresión las emplearemos para realizar predicciones acerca de los valores que adoptaran las variables.
- Puede darse el caso, de no existencia de correlación lineal entre las variables, lo cual no implica que no existan otro tipo de relaciones entre las variables estudiadas: relación exponecial, relación parabólica, etc.
3.4.2.Correlación lineal simple ( r ó R )
Para ver si existe relación lineal entre dos variables X e Y, emplearemos un parámetro que nos mida la fuerza de asociación lineal entre ambas variables. La medida de asociación lineal mas frecuentemente utilizada entre dos variables es “ r ” o coeficiente de correlación lineal de Pearson; este parámetro se mide en términos de covarianza de X e Y.
Si R = 1, existe una correlación positiva perfecta entre X e Y
• Si R = -1, existe una correlación negativa perfecta entre X e Y
• Si R = 0, no existe correlación lineal, pudiendo existir otro tipo de relación
• Si 0 1 p p R - , existe correlación negativa y dependencia inversa, mayor cuanto más se aproxime a - 1
• Si 1 0 p p R , existe correlación positiva, y dependencia directa, mayor cuanto más se aproxime a 1
- Varianza residual y varianza explicada por la regresión. Coeficiente de determinación lineal (R2 ) Si tenemos dos variables X e Y relacionadas linealmente, parte de la variabilidad de la variable Y, vendrá explicada por variaciones de X ( variabilidad explicada por el modelo) , mientras que el resto responderá a variaciones de fenómenos relacionados con la variable Y o con el azar ( variabilidad no explicada por el modelo).
Por tanto nos conviene disponer de una medida que indique el porcentaje de la variabilidad de la variable explicada que se debe a la variabilidad de la variable explicativa. Esta medida es el coeficiente de determinación lineal (R2 ) , y si su valor es alto nos indicará que el ajuste lineal efectuado es bueno.
En la regresión lineal de Y sobre X, la varianza de la variable Y, puede descomponerse en la suma de 2 varianzas:
Es una medida de la bondad del ajuste lineal efectuado. Si lo expresamos en porcentaje, dicho coeficiente nos indica el % de la varianza de la variable explicada ( Y) que se ha conseguido explicar mediante la regresión lineal.
Si R2 = 1, existe dependencia funcional; la totalidad de la variabilidad de Y es explicada por la regresión.
Si R2 = 0, dependencia nula; la variable explicativa no aporta información válida para la estimación de la variable explicada.
Si R2 75 . 0 = , se acepta el modelo ajustado • Relación existente entre los coeficientes de determinación y correlación lineal: 2 R R ± = El signo del coeficiente de correlación lineal será el mismo que el de la covarianza.
Volver al índice de Manual de Estadística
Volver a "Libros Gratis de Economía"
Volver a la "Enciclopedia y Biblioteca de Economía EMVI"