PROBLEMAS DE ESPECIFICACIÓN DEL MODELO DE REGRESIÓN MULTIPLE

BIBLIOTECA VIRTUAL de Derecho, Economía y Ciencias Sociales

MANUAL DE APLICACIÓN DEL MODELO DE REGRESIÓN LINEAL MULTIPLE CON CORRECIONES DE ESPECIFICACIÓN, USOS DE STATA 9.0,STATA 10.0, EVIEWS 5.0, SSPS 11.0

Rafael David Escalante Cortina y otros

Esta página muestra parte del texto pero sin formato.

Puede bajarse el libro completo en PDF comprimido ZIP (67 páginas, 850 kb) pulsando aquí

PROBLEMAS DE ESPECIFICACIÓN DEL MODELO DE REGRESIÓN MULTIPLE.

MULTICOLINEALIDAD

El décimo supuesto del modelo clásico de regresión lineal (MCRL), plantea que no existe multicolinealidad entre las variables explicativas del modelo, es decir, que no debe existir relación perfecta o exacta entre algunas o todas las variables explicativas de un modelo de regresión . Existen otros supuestos que son complementarios a no la multicolinealidad, ellos son el supuesto 7, que indica que el número de regresores debe ser menor al número de observaciones, y el supuesto 8, que especifica que debe existir variabilidad en los valores de los regresores.

Para entender un poco este concepto, se puede representar gráficamente:

Es importante resaltar que la multicolinealidad, como se ha definido, se refiere solamente a relaciones lineales entre las variables explicativas, no elimina las relaciones no lineales existentes entre ellas. Por lo tanto modelos como:

No violan el supuesto de no multicolinealidad. Sin embargo, se encontraran coeficientes de correlación altos para variables .

NOTA: Los estimadores de MCO en presencia de multicolinealidad, satisfacen la condición de ser el Mejor estimador lineal e insesgado (MELI) ó MEI (en el caso de añadir el supuesto de normalidad).

Consecuencias Prácticas de la Multicolinealidad

1. Varianzas de los coeficientes estimados sobredimensionados.

2. Pruebas de hipótesis no validas.

3. Se podría dar error tipo II (Aceptar la hipótesis nula, dado que es falsa)

4. Intervalos de Confianzas más amplios.

5. No se podrían separar los efectos de una variable explicativa sobre la variable dependiente. Por ejemplo, se tiene , y esta relacionado con , no se puede determinar con certeza cual es el efecto de sobre , ya que existe un efecto también de .

6. Contradicciones en las estimaciones realizadas al modelo, se encuentran pruebas bajas y estadísticos y altos.

7. Sensibilidad del modelo, los estimadores y sus errores estándar se tornan muy sensibles. Por ejemplo, estimo un modelo de regresión con 90 observaciones, elimino algunas observaciones y al realizar las estimaciones nuevamente, encuentro signos de los betas distintos.

Como detectar la Multicolinealidad

Teniendo en cuenta que la multicolinealidad es un fenómeno esencialmente de tipo muestral , no se tiene un método único para detectarla. Lo que se tienen, son ciertas pruebas formales e informales que permiten determinar su presencia. Algunas de ellas son:

1. Observar los estadísticos estimados: Cuando se tiene un alto, y la prueba muestra que el modelo es globalmente significativo, es decir, los coeficientes estimados del modelo son estadísticamente diferentes de cero, pero se encuentran unos calculados bajos, que demuestran que los coeficientes no son significativos ( ).

2. Observar la matriz de correlación entre parejas de regresores: Si este coeficiente es mayor a 0.8, entonces la multicolinealidad es un problema grave. Sin embargo, esta condición se puede considerar suficiente pero no necesaria, debido a que la multicolinealidad puede existir, a pesar de que las correlaciones sean comparativamente bajas (es decir, inferiores a 0.5). Si el coeficiente de correlación es -1, existe correlación negativa, a medida que una variable aumenta, la otra disminuye. Cuando el coeficiente es 1, hay correlación positiva, cuando aumenta una variable, también aumenta la otra.

3. Regresiones auxiliares: Dado que la multicolinealidad surge por la relación lineal entre variables explicativas, se pueden estimar regresiones entre las variables explicativas. Posteriormente, se puede adoptar la regla practica de Klien, quien sugiere que si el obtenido en la regresión auxiliar es mayor que el global, es decir, aquel obtenido en la regresión de sobre todos los regresores, hay un serio problema de multicolinealidad.

4. Estimar el Factor de Inflación de Varianza (FIV). El cual esta dado por;

, donde es el de la regresión auxiliar.

Si el es superior a 10, se dice que esa variable es altamente colineal.

Algunos autores, hacen referencia a la medida de tolerancia para determinar la multicolinealidad. Esta se define como:

Si la tolerancia tiende a 1, entonces no hay multicolinealidad.

Si la tolerancia tiende a 0, entonces hay multicolinealidad.

Ejemplo Práctico:

Dadas las observaciones de la base de datos Gastoconsumo.dta, estímese el siguiente modelo:

Donde:

, es la variable dependiente que representa el gasto de consumo familiar semanal.

, es la variable independiente que representa el ingreso semanal familiar.

, es la variable independiente que representa la riqueza de la familia.

Salida en Stata: reg gastoconsumo ingreso riqueza

Source | SS df MS Number of obs = 10

-------------+------------------------------ F( 2, 7) = 92.40

Model | 8565.55407 2 4282.77704 Prob > F = 0.0000

Residual | 324.445926 7 46.349418 R-squared = 0.9635

-------------+------------------------------ Adj R-squared = 0.9531

Total | 8890 9 987.777778 Root MSE = 6.808

------------------------------------------------------------------------------

gastoconsumo | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

ingreso | .9415373 .8228983 1.14 0.290 -1.004308 2.887383

riqueza | -.0424345 .0806645 -0.53 0.615 -.2331757 .1483067

_cons | 24.77473 6.7525 3.67 0.008 8.807609 40.74186

------------------------------------------------------------------------------

Teniendo en cuenta las estimaciones anteriores, procedemos a identificar si existe en este caso colinealidad entre las variables y . Para ello, tendremos en cuenta cada uno de los puntos mencionados para detectar la multicolinealidad.

1. De la regresión anterior se observa que las variables y explican en un 96% los gastos en consumo semanal familiar (puesto que el ). También se evidencia que el valor del estadístico , es alto, lo cual indica que cae en la zona de rechazo, indicando que el modelo es globalmente significativo.

Sin embargo, ninguno de los coeficientes de las pendientes es estadísticamente significativo, lo cual indica que dichas variables están altamente correlacionadas y es imposible aislar el impacto individual del ingreso o la riqueza sobre el consumo. Asimismo, el signo de la variable riqueza no es el esperado (se espera que la relación sea positiva).

2. Al obtener la matriz de correlación de las variables:

Matriz de correlación: cor gastoconsumo ingreso riqueza

| gastoc~o ingreso riqueza

-------------+---------------------------

gastoconsumo | 1.0000

ingreso | 0.9808 1.0000

riqueza | 0.9781 0.9990 1.0000

Se muestra que el coeficiente de correlación entre la variable y es bastante alto (0.9990) cercano al 1. Como se había mencionado antes, si el coeficiente era mayor a 0.8, se evidencia un problema de colinealidad entre dichas variables. La correlación es positiva, a medida que aumenta el ingreso, aumenta la riqueza.

3. Realicemos la siguiente regresión auxiliar:

Salidad en Stata: reg ingreso riqueza

Source | SS df MS Number of obs = 10

-------------+------------------------------ F( 1, 8) = 3849.02

Model | 32931.5534 1 32931.5534 Prob > F = 0.0000

Residual | 68.4466181 8 8.55582726 R-squared = 0.9979

-------------+------------------------------ Adj R-squared = 0.9977

Total | 33000 9 3666.66667 Root MSE = 2.925

------------------------------------------------------------------------------

ingreso | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

riqueza | .0979231 .0015784 62.04 0.000 .0942834 .1015629

_cons | -.3862708 2.897956 -0.13 0.897 -7.068968 6.296427

------------------------------------------------------------------------------

La salida muestra que existe colinealidad casi perfecta entre las variables y . Asimismo, si realizamos la regla práctica de Klien, al comparar el obtenido en la regresión auxiliar y el global, se tiene que el primero (0.9979) es mayor que el segundo (0.9635); por tanto, hay un serio problema de colinealidad.

4. Calculemos el y la :

Como el , se demuestra colinealidad nuevamente.

Ahora estimamos la :

Como la esta cercana a cero, se puede decir que hay colinealidad casi perfecta entre el y la .

Medidas Remédiales

Teniendo en cuenta nuevamente que la multicolinealidad es esencialmente un problema muestral, no hay un método especifico. Sin embargo, existen algunas reglas prácticas, que son:

1. Eliminación de una(s) variable(s) y el sesgo de especificación: Una de las soluciones más simples para solucionar el problema de la multicolinealidad es la eliminación de una de las variables que causa este tipo de violación de los supuestos.

Sin embargo, se debe tener en cuenta no caer en el sesgo de especificación del modelo, con el fin de no violar otro de los supuestos del modelo de regresión clásico (sesgo de especificación). Para esto, es importante tener en cuenta que dice la teoría económica con respecto a la explicación de la variable dependiente.

Por ejemplo, retomando el modelo de regresión:

En donde se evidenció la presencia de la colinealidad entre variables y , se procede a eliminar en primera instancia la variable .

Salida en Stata: reg gastoconsumo ingreso

Source | SS df MS Number of obs = 10

-------------+------------------------------ F( 1, 8) = 202.87

Model | 8552.72727 1 8552.72727 Prob > F = 0.0000

Residual | 337.272727 8 42.1590909 R-squared = 0.9621

-------------+------------------------------ Adj R-squared = 0.9573

Total | 8890 9 987.777778 Root MSE = 6.493

------------------------------------------------------------------------------

gastoconsumo | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

ingreso | .5090909 .0357428 14.24 0.000 .4266678 .591514

_cons | 24.45455 6.413817 3.81 0.005 9.664256 39.24483

------------------------------------------------------------------------------

Se observa que ahora la variable ingreso es estadísticamente significativa.

Ahora, estimaremos el gasto del consumo familiar en función de la , es decir, eliminamos la variable .

Salida en Stata: reg gastoconsumo riqueza

Source | SS df MS Number of obs = 10

-------------+------------------------------ F( 1, 8) = 176.67

Model | 8504.87666 1 8504.87666 Prob > F = 0.0000

Residual | 385.123344 8 48.1404181 R-squared = 0.9567

-------------+------------------------------ Adj R-squared = 0.9513

Total | 8890 9 987.777778 Root MSE = 6.9383

------------------------------------------------------------------------------

gastoconsumo | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

riqueza | .0497638 .003744 13.29 0.000 .0411301 .0583974

_cons | 24.41104 6.874097 3.55 0.007 8.559349 40.26274

------------------------------------------------------------------------------

Se evidencia que la variable ahora es altamente significativa.

Sin embargo, como se menciono anteriormente, es importante tener claro lo que dice la teoría económica, con el fin de no caer en el sesgo de especificación del modelo.

2. Información a priori: La información a priori puede provenir de trabajo empírico que se haya realizado con anterioridad. Continuando con el ejemplo del gasto en el consumo familiar, se podría tener información a priori que , es decir, que la tasa de consumo con respecto a la riqueza es una décima parte de la correspondiente con respecto al ingreso.

Teniendo en cuenta lo anterior se tiene que:

Donde:

Generamos la variable X: gen X= ingreso+0.1*riqueza

Ahora estimamos el modelo.

Salida es Stata: reg gastoconsumo X

Source | SS df MS Number of obs = 10

-------------+------------------------------ F( 1, 8) = 191.20

Model | 8532.97312 1 8532.97312 Prob > F = 0.0000

Residual | 357.026877 8 44.6283596 R-squared = 0.9598

-------------+------------------------------ Adj R-squared = 0.9548

Total | 8890 9 987.777778 Root MSE = 6.6804

------------------------------------------------------------------------------

gastoconsumo | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

X | .2517807 .0182086 13.83 0.000 .2097915 .2937699

_cons | 24.38745 6.610424 3.69 0.006 9.14378 39.63111

------------------------------------------------------------------------------

Se observa que el beta que acompaña la variable , es altamente significativo. Como sabemos el valor de , se puede estimar , a partir de la relación postulada a priori.

Por tanto,

3. Transformación de las variables: En ocasiones, se pueden realizar transformación de las variables, con el fin de evitar la colinealidad. Por ejemplo, se podría estimar un modelo donde una de las variables que causan la colinealidad este en logaritmo.

4. Datos nuevos o adicionales: Teniendo en cuenta que la multicolinealidad es de la muestra, se puede pensar que tomando una nueva muestra de las mismas variables, o ampliando el tamaño de la misma, se puede atenuar el problema de la colinealidad.