GENERACION DE REPORTES

BIBLIOTECA VIRTUAL de Derecho, Economía y Ciencias Sociales

INTRODUCCIÓN AL MANEJO DE INFORMACIÓN EN STATA 9.0 CON APLICACIÓN A LA ENCUESTA DE HOGARES

Wilson Mayorga y Rafael Escalante

Esta página muestra parte del texto pero sin formato.

Puede bajarse el libro completo en PDF comprimido ZIP (62 páginas, 797 kb) pulsando aquí

PARTE III. GENERACIÓN DE REPORTES

El conjunto de opciones disponibles para crear tablas de resumen, mediante las cuales se puedan presentar de manera descriptiva los datos disponibles en memoria se halla en STATISTICS-SUMMARIES, TABLES, TEST – TABLES.

El diseño de tablas en stata puede ser de una vía o de dos vías. En el primer caso se tiene una variable categórica por filas y en cada columna la variable continua a la cual se desee calcular estadísticas de resumen. En el caso de tablas a dos vías(two way) se deben tener dos variables categórica que se van a relacionar: Una por filas y otra por columnas.

Los comandos más importantes para presentar una rápida revisión de los datos(además de los presentados en la sección de administración de datos) son los siguientes:

Table

Summarize

Tabulate

Tabstat

• COMANDO TABLE

El primer comando, table, presenta estadísticas básicas en una tabla. Su sintaxis básica es:

Table variablefila variablecolumna if expresión in rango , contents(posibilidades) by(categórica)

Este comando permite realizar las siguientes operaciones:

• Freq = frecuencia(default)

• Mean variable

• Sd variable

• Sum variable

• Count variable

• Max variable

• Min variable

• Median variable

• P# varname = este es el percentil, por ejemplo p95.

En principio, todos los comandos para generación de tablas o reportes funcionan de manera similar. Una tabla consistirá en información calculada según las alternativas anteriores, desagregando en variables llamadas fila(row variable) o columna(column variable). Este tipo de variables corresponden a categorías para las cuales se deseen realizar los cálculos. Ejemplos de variables categóricas que servirán como variables fila o columna serán el sexo, el nivel educativo, el rango de edad (definida como variable categórica) entre otras.

Las variables superfila o supercolumna corresponden a divisiones o categorías mayores en las cuales se desee agrupar la información.

La segunda pestaña de los comandos de tabla corresponden al grupo de opciones by/if/in. La primera alternativa (by) permitirá repetir la tabla para diversos segmentos de población. Por ejemplo, si lo que se desea es realizar el mismo cálculo para todas las ciudades de Colombia, se deberá usar esta opción “by” seguida de la variable que indica la ciudad.

La opción IF, como se mencionó previamente, corresponde a la generación de filtros, es decir, la generación de un reporte para una categoría particular. Por ejemplo, si del total de información sólo se desea generar un reporte para la ciudad de Bogotá, se utilizará “if” seguido de la condicion que la variable ciudad tome los valores únicamente asociados a la ciudad de Bogotá.

La pestaña weight, permitirá elegir el FACTOR DE EXPANSION. Toda encuesta es una muestra aleatoria de alguna población con características similares, esto quiere decir que en las encuestas no se entrevistan a todos los hogares ni personas (para el caso de la Encuesta de Hogares). Por esta razón toma gran importancia la variable dentro de la base de datos llamada factor de expansión. El factor de expansión, se define como el inverso de la probabilidad de selección, en los casos de inclusión forzosa como el censo de población, el factor de expansión toma valor de uno. En otras palabras es la estimación del número de individuos poblacionales que cada individuo entrevistado representa.

Si no se incluye esta variable de expansión, el reporte corresponderá al análisis de las observaciones que estrictamente se incluyen dentro de la base de datos. Al expandir este resultado muestral se tendrá una estimación del comportamiento poblacional.

La mejor explicación posible de los diferentes tipos de factor de expansión disponibles en STATA se encuentra siguiendo la ruta help-stata command y buscando por weight.

Finalmente, la pestaña de opciones, incluye las diferentes opciones de presentación del reporte, tales como qué tipo de total de filas o de columnas se desea reportar o si se desea eliminar algún tipo de celda de la tabla reporte.

Ejemplo:

Tomando una de las tablas de la Encuesta de Hogares, digamos la correspondiente al segundo trimestre de 2006, se desea calcular el número de personas ocupadas y desocupadas.

Como se requiere el número de elementos, necesitamos calcular la “freq” y como deseamos desagregar por ocupados y desocupados requerimos una variable categórica que indique este hecho.

Adicionalmente, si se desea estimar los elementos en la población, se deberá ajustar en la pestaña de factores de expansión la opción iweight y tomar, de esta base de datos, la variable correspondiente a los factores de expansión.

Realizando estas operaciones, las pestañas deberán quedar de esta manera:

El resultado se verá de la siguiente forma:

Este tipo de reporte se denomina de una entrada, por cuanto sólo aparece una variable categórica (la variable fila). En el próximo ejemplo haremos una tabla de doble entrada.

Ejemplo:

En un caso más complejo, se desea generar una tabla de reporte, donde las filas sean las personas ocupadas y desocupadas, en tanto, las columnas sean los rangos de edad de dichas personas. Para hacerlo más complejo, se requiere este cálculo únicamente para el departamento 5.

El resultado se verá de esta manera:

El aspecto más relevante que debe tenerse en cuenta para diseñar una tabla de reporte es que tanto la variable fila como la variable columna deben ser categorías, de lo contrario el reporte puede no tener sentido práctico.

• COMANDO TABSTAT

Este comando genera tablas de estadísticas descriptivas. Se diferencia de los reportes del comando Table que no necesariamente se requiere que existan variables categóricas, aunque admite al menos una de ellas y las columnas del reporte corresponden a estadísticas para diferentes variables, que en este caso serán continuas. La interfase gráfica de este reporte es:

En la opción de “variables” se eligen las variables continuas paras las cuales se deseen generar algún tipo de estadística. Se pueden elegir varias de ellas.

En la opción “group statistics by variable” se elige alguna variable categórica para la cual se desee agrupar la generación de resultados.

Ejemplo:

Se desea estimar la media para las variables ingreso laboral mensual de los asalariados e ingreso mensual de los no asalariados.

En este caso, el comando Tabstat permite generar dos columnas del reporte, uno para cada variable.

Si además se desea realizar el cálculo segmentando por los grupos de edad, la interfase gráfica de STATA debería ser de esta manera:

El resultado se verá como el siguiente reporte: