GUIA DE INTRODUCCIÓN A LA ECONOMETRÍA UTILIZANDO GRETL

GUIA DE INTRODUCCIÓN A LA ECONOMETRÍA UTILIZANDO GRETL

Mª Isabel Cal Bouzada
Mª Victoria Verdugo Matés
(CV)

Volver al índice

MCO: MODELO DE REGRESIÓN LINEAL CLÁSICO 

Presentación e Hipótesis Básicas del Modelo de Regresión Lineal Múltiple

El Modelo de Regresión Lineal Múltiple (MRLM) es el caso más simple de modelización econométrica, por lo que será el modelo de partida. Se denomina lineal porque la relación entre las variables es de tipo lineal y múltiple porque tiene una única ecuación y varias variables explicativas:
 
Donde:
T: Tamaño muestral (número de observaciones disponibles).
Y: Variable endógena, variable explicada o regresando.
X: Variables predetermi­nadas o regresores (  es el regresor ficticio y  son las variables explicativas).
X: Las variables explicativas tienen dos subíndices, el primero (i) da nombre a la variable y el segundo (t) se refiere a la observación muestral, representando el tiempo si la serie es temporal y la unidad económica si la serie es atemporal.
X: Perturbación Aleatoria, variable no observable que representa el efecto de todos los factores no incluidos de forma explícita en el modelo.
E: Parámetros, son los factores desconocidos cuyos valores se suponen constantes a lo largo de toda la muestra.
Aunque no es lo habitual, en algunos modelos puede no aparecer el parámetro que acompaña al regresor ficticio ( ), estando en este caso ante modelos formulados sin ordenada en el origen.
El Modelo de Regresión Lineal Múltiple se puede escribir matricialmente:

Donde:
Y: Vector columna de orden Tx1, que incluye las T observaciones del regresando.
X: Matriz de orden Tx(K+1), que contiene las observaciones de los regresores (el regresor ficticio  y las K variables explicativas). A la matriz X se le denomina Matriz de Diseño.
B: Vector columna de orden (K+1)x1, que contiene los K+1 parámetros del modelo.
E:  Vector columna de orden Tx1, que contiene las perturbaciones del modelo.
Las hipótesis básicas de un Modelo de Regresión Lineal Múltiple son las siguientes:
H1. Forma funcional lineal.
El valor esperado del regresando es una combinación lineal de los regresores, sin embargo, la relación que liga al regresando con los regresores es estocástica ya que aparece el término perturbación aleatoria, es decir, se trata de una relación lineal no exacta.
La hipótesis de linealidad se justifica por la facilidad de su tratamiento analítico y como primer paso para la especificación de formas funcionales más complicadas.
H2. No existen errores de observación en las variables.
H3. La perturbación es ruido blanco.
En terminología estadística una variable ruido blanco es una variable aleatoria que se caracteriza por tener esperanza nula ( ), varianza constante ( ) y covarianza nula ( ), por lo que a este modelo también se le denomina Modelo de Regresión Lineal Clásico (MRLC). En álgebra matricial, las hipótesis de variable ruido blanco se pueden escribir matemáticamente como:
H3.1.  
Esta hipótesis supone que todos los factores no incluidos de forma explícita en el modelo y, por tanto, incluidos en el término perturbación, no producen efectos sistemáticos, al compensarse en promedio, los efectos positivos con los negativos.
H3.2.
Siendo V una matriz simétrica y escalar de orden TxT, denominada matriz de varianzas-covarianzas de las perturbaciones. Sus elementos diagonales son las varianzas de los elementos del vector de perturbaciones y sus elementos no diagonales son las covarianzas entre dichos elementos.
Esta hipótesis recoge las hipótesis de homocedasticidad e incorrelación de las perturbaciones de un Modelo de Regresión Lineal Múltiple:
.      (Hipótesis de Homocedasticidad).
La varianza de la perturbación es constante e independiente de la observación de que se trate, es decir, los factores causales recogidos de forma implícita en la perturbación, actúan de manera análoga en cada observación.
.      (Hipótesis de Incorrelación entre las perturbaciones).
Las covarianzas entre las distintas observaciones de la perturbación son nulas, lo que significa que no están correlacionadas entre sí, por ello, lo que ocurra en cada observación en los factores integrados en la perturbación no va a estar relacionado con lo que ocurra en las observaciones anteriores o posteriores.
Las hipótesis de esperanza nula y matriz de varianzas-covarianzas escalar, suelen expresarse conjuntamente con la denominación de perturbación esférica.
H4. Hipótesis relativas a la matriz X:
H4.1.  (Condición de rango o hipótesis de rango pleno).
Con esta condición se exige que el rango de la matriz X coincida con el número de columnas de dicha matriz (K+1), por lo que todas las columnas de la matriz X deben ser linealmente independientes (hipótesis de no colinealidad de los regresores). La independencia lineal entre los regresores del modelo hace posible aislar el efecto de cada uno de ellos.
Esta hipótesis afecta a la posibilidad de hacer la estimación del modelo, ya que es una condición necesaria para poder calcular la inversa de la matriz X'X.
H4.2. .
Con esta condición se exige que el número de filas de la matriz X (T) sea mayor que el número de columnas de dicha matriz (K+1). Es una condición necesaria, aunque no suficiente, para poder abordar la estimación del modelo, pues garantiza que el número de observaciones de las variables sea mayor que el número de parámetros a estimar, con lo que se asegura el suficiente número de grados de libertad.
Además, es conveniente que el tamaño de la muestra (T) sea grande, ya que ello contribuirá a la obtención de mejores estimadores de los parámetros.
H4.3. X no es estocástica (Hipótesis de Exogeneidad).
Esta hipótesis supone que la matriz de regresores no varía al pasar de una muestra a otra, siendo una hipótesis que simplifica algunas demostraciones, aunque hay que destacar que las buenas propiedades de los estimadores de un modelo clásico se mantienen aunque se sustituya la hipótesis de regresores no estocásticos por la de regresores estocásticos pero independientes de la perturbación.
Las hipótesis que se acaban de indicar son suficientes para obtener estimadores puntuales de los parámetros del modelo. Como criterio de estimación se elegirá el método consistente en minimizar la Suma de Cuadrados de los Errores, denominado Método Mínimo Cuadrático, ya que bajo las hipótesis del Modelo de Regresión Lineal Múltiple proporciona los estimadores con las mejores propiedades. Los estimadores obtenidos por este método se denominan Estimadores Mínimo Cuadráticos Ordinarios (EMCO) de los parámetros del modelo.

¿Cómo estimar por MCO en Gretl?

Para estimar por Mínimos Cuadrados Ordinarios se tienen dos opciones:

  • Utilizar el menú Modelo de la Barra de Menú de la Ventana Principal.
  • Utilizar el comando ols.

Utilizar el menú Modelo

Al seleccionar el menú Modelo de la Barra de Menú de la Ventana Principal, se abre un cuadro de diálogo que informa de las tareas que se pueden realizar utilizando este asistente (véase Ilustración 3‑1), en el que se tiene que seleccionar el procedimiento que se desea utilizar (en este caso, Mínimos Cuadrados Ordinarios). Para seleccionarlo, basta con situarse encima del procedimiento deseado (queda sombreado en un color más oscuro) y al hacer clic con el botón izquierdo del ratón se abre el cuadro de diálogo especificar modelo (véase Ilustración 3‑2), donde en el recuadro situado a la izquierda, Gretl informa al usuario de las variables disponibles para realizar la estimación.
Para seleccionar la variable dependiente o variable a explicar por el modelo, el usuario debe elegir una variable situándose con el cursor encima y haciendo clic en la “flecha azul” situada a la izquierda del recuadro “variable dependiente” y dicha variable aparecerá en dicho recuadro. En caso de equivocación al hacer la selección, se elige la variable correcta, se hace clic en la flecha y dicha variable aparecerá como endógena.
Para seleccionar las variables independientes o variables explicativas del modelo el procedimiento es similar, el usuario debe elegir la/s variable/s situándose con el cursor encima y hacer clic en la “flecha verde” situada a la izquierda del recuadro “variables independientes” y, dicha/s variable/s aparecerá/n en el recuadro “variables independientes. En caso de equivocación al hacer la selección, se deben seleccionar en el recuadro “variables independientes” y hacer clic en la “flecha roja”, con lo que la/s variable/s dejará/n de ser variable/s explicativa/s.
En el recuadro “variables independientes” aparece seleccionado por defecto el regresor ficticio, que Gretl etiqueta como “const”, por lo que si se quiere realizar una estimación sin ordenada en el origen, será necesario situarse con el cursor encima y hacer clic en la “flecha roja”.
Antes de seleccionar las variables que intervienen en la estimación, se debe especificar el rango muestral que se desea utilizar para dicha tarea. La estimación del modelo se realizará con toda la muestra, salvo que se especifique lo contrario utilizando el menú Muestra de la Barra de Menú de la Ventana Principal (véase Ilustración 3‑3). Con dicho menú se accede a la ventana Establecer rango, en la se pueden modificar las obsevaciones inicial y final del rango muestral a utilizar en la estimación del modelo.
Seleccionadas las variables en la ventana especificar modelo, se hace clic en “Aceptar” y se abre la ventana Modelo, donde aparece la información básica para el análisis de los resultados de la estimación MCO. Además, a través del menú de dicha ventana, se pueden guardar algunos resultados de la estimación (botón Guardar), realizar contrastes relativos tanto a los parámetros del modelo como a las hipótesis del mismo (botón Contrastes), construir gráficos (botón Gráficos), realizar predicciones (botón Análisis), etc.
 Utilizando el botón “Guardar”, se pueden guardar con la denominación deseada algunos resultados de la estimación, que podrán ser utilizados para nuevos cálculos. Al realizar los cálculos se debe de tener en cuenta la distinta naturaleza de dichos resultados: series, escalares, … (véase Ilustración 3‑4). Por defecto Gretl proporciona una denominación y descripción para cada una de las series y/o escalares que se guarden, que podrá ser cambiada por el usuario. Dado que en una misma sesión de trabajo se puede estimar más de un modelo econométrico, Gretl enumera dichos modelos y sus estadísticos asociados de forma correlativa empezando en “1”.
En el ejemplo recogido en la Ilustración 3‑4, los comandos que aparecen en el Historial de instrucciones y que podrían ser guardados en un fichero de comandos y ejecutados posteriormente son:
# modelo 1
ols C const P RF PG
series yhat1 = $yhat
series uhat1 = $uhat
scalar ess_1 = $ess
scalar sigma_1 = $sigma
scalar rsq_1 = $rsq  
Se le ha indicado a Gretl que estime por MCO un modelo formulado con ordenada en el origen, donde la variable a explicar es “C” y las variables explicativas son “P, RF y PG” y que guarde las series de valores estimados del regresando y de residuos, además de los escalares Suma de Cuadrados de Errores, estimador de la desviación tipica de la perturbación y coeficiente de determinación.
Cuando se muestren los resultados guardados con un comando print, estos tendrán más decimales que en la salida estándar del comando ols, ya que en esta última, por razones de espacio, Gretl ajusta el número de decimales a mostrar.

Utilizando el comando ols

Otra opción para obtener la estimación MCO es escribir el comando ols en la Consola Gretl o en un Fichero de Comandos, para lo cual el usuario debe conocer su formato de escritura y las opciones disponibles.
El formato del comando ols es:
ols depvar indepvars  --opciones
donde depvar es la variable dependiente e indepvars es la lista de variables independientes, entre las cuales se incluye el regresor ficticio (Gretl lo etiqueta como const y lo sitúa en primer lugar). En el Cuadro 3‑1 aparece recogida una breve descripción de algunas de las opciones disponibles con el comando ols.


--vcv                            à        Imprime la matriz de varianzas-covarianzas estimada de los estimadores.
--simple-print  à        No imprime los estadísticos auxiliares.
--quiet                         à        Suprime la impresión de resultados.
--anova                       à          Imprime la tabla ANOVA.
--no-df-corr       à   Utiliza el tamaño muestral (T) en lugar de los grados de libertad (DF) para el cálculo de determinados estadísticos.

Cuadro 3‑1. Opciones del comando ols.
Cuando se ejecutan algunos comandos, Gretl guarda en memoria una serie de “variables temporales”, que reciben esta denominación porque sólo están disponibles de forma temporal hasta que se ejecute un nuevo comando que lleve asociadas dichas variables. Son variables cuya denominación empieza por $ y, una forma rápida de acceder a ellas es ejecutar el comando varlist --accessors después del comando ols.
En el Cuadro 3‑2 aparece recogida una breve descripción de algunas de las variables temporales asociadas al comando ols,  que aparecen en la salida del comando varlist --accessors agrupadas baja la denominación “relativo al modelo”. En dicha salida, además de la denominación que Gretl da a cada una de dichas variables, se informa de si se trata de una serie, una matriz, un grupo de variables o un escalar, proporcionando también su valor numérico en este último caso.


$ess à Suma de Cuadrados de Errores (SCE).                                         $T à Tamaño muestral (T).
$rsq à Coeficiente de determinación (R2).                                                $df  à Grados de libertad (DF).   
$ncoeff à Número de parámetros.                                                                             $lnl à Logaritmo de la función de verosimilitud.
$aic à Criterio de información de Akaike (AIC).                                     $bic à Criterio bayesiano de Schwarz (SC).
$hqc à Criterio de Hannan y Quinn (HQC).                                   $trsq à T*R2
$Fstat à Estadístico F (F2 en modelos formulados con ordenada en el origen y F1 en modelos sin ordenada).
$uhat à Serie de residuos o errores de estimación (e).                        $yhat à Serie de valores estimados del regresando ().
$coeff à Vector de estimadores de los parámetros (b).
$sigma à Estimador de la desviación estándar de la perturbación (S).
$vcv à Matriz de varianzas-covarianzas estimada de los estimadores .
$stderr à Vector de estimadores de las desviaciones típicas de los estimadores de los parámetros.
$xlist à Lista de variable/s independiente/s.                                                           $ylist à Lista variable/s dependiente/s.

Cuadro 3‑2. Variables temporales asociadas al comando ols.
Si el usuario quiere disponer de estas variables en cualquier momento será necesario que las guarde, lo que puede hacer utilizando un comando genr.