Tesis doctorales de Economía


TRATAMIENTO AUTOMÁTICO DE NOTICIAS EMPRESARIALES EN LA WEB, MEDIANTE MINERÍA TEXTUAL. CASO DE ESTUDIO: UNIVERSIDADES PRIVADAS DE MÉXICO

Ismael Esquivel Gámez



Esta página muestra parte del texto pero sin formato.
Puede bajarse la tesis completa en PDF comprimido ZIP (227 páginas, 1.49 Mb) pulsando aquí

 

 

 

5.12 ARQUITECTURA GENERAL DEL SISTEMA.

El sistema está conformado de tres módulos: configuración, procesamiento y consultas. Los dos primeros, a cargo del usuario administrador y el último para difundir los hallazgos de inteligencia a los ejecutivos de la empresa. Las particularidades de cada módulo se describen enseguida:

5.12.1 MÓDULO DE CONFIGURACIÓN

El usuario será capaz de mantener al día los archivos de referencia (catálogos) mediante una aplicación en lenguaje Delphi V6.0 apoyado con el cliente de base de datos Firebird V1.5 en arquitectura cliente-servidor, pues mientras el front-end se ejecutará en la computadora personal del administrador (Windows-Intel), el back-end correrá en un equipo anfitrión con software de base Linux Debian 3.1.3. En la figura 5.16, se muestra como interactúa el módulo con el usuario y con la base de datos.

Fig. 5.16. Interacciones en datos del módulo de Configuración

Como puede apreciarse, el usuario a través de éste módulo, consulta, registra y actualiza el contenido de prácticamente todos los archivos usados como referencia.

El módulo de configuración maneja las interfaces de usuario gráficas que se presentan en la siguiente sección. En el menú principal, aparecen dos opciones principales: CATÁLOGOS que permite el ABCD de los archivos mostrados y ACTUALIZACIÓN que permite exportar el contenido de los catálogos a archivos de texto plano, mismos que se usan en el módulo de procesamiento.

5.12.2 MÓDULO DE PROCESAMIENTO

Está compuesto de dos submódulos: lector y escritor. En una base diaria, se ejecutará el submódulo lector, el cual se encargará de conectarse a la página Web donde se publican las noticias de la empresa, hará una copia local del archivo correspondiente, lo transformará en un archivo texto sin etiquetas HTML. Finalmente, hará las comparaciones necesarias para mantener solamente los archivos y noticias, que no se hayan procesado ya. Este submódulo ha de implementarse en la plataforma de desarrollo Java 2.0, el cual genera dentro de la carpeta principal NOTICIAS, un directorio por cada grupo de noticias leídas por fecha y en donde se almacenarán los archivos correspondientes a cada empresa, así:

NOTICIAS-> 20061008 -> UPAEP.TXT

-> UCC.TXT

-> UDLA.TXT

etc.

Los intercambios de datos que efectúa el submódulo Lector aparecen en la figura 5.17. Por cada registro del archivo Empresas, obtiene las direcciones de los sitios electrónicos donde cada empresa publica sus noticias y realiza una copia de la página Web en formato de texto.

Figura 5.17 Interacciones en datos del submódulo Lector

El submódulo escritor (figura 5.18) se apoya en los archivos exportados de la base de datos mantenida por el módulo de Configuración. A partir de los Referentes de objetos, Empresas y Acciones, se procesa el titular y/o encabezamiento de la noticia con el algoritmo denominado “Máxima Abstracción”. Luego se normalizan ciertos términos, se buscan las claves que corresponden a los descriptivos de los términos normalizados y se registran los elementos en la tabla Noticias. El submódulo de referencia ha de construirse mediante la plataforma Regina 3.3, cuyo lenguaje interpretado REXX tiene grandes facilidades de manipulación de textos.

Figura 5.18 Interacciones en datos del submódulo Escritor

Como puede apreciarse, el citado submódulo se apoya en los archivos de Verbos y Objetos referentes, para luego del procesamiento registrar de manera estructurada, las noticias por cada empresa.


Grupo EUMEDNET de la Universidad de Málaga Mensajes cristianos

Venta, Reparación y Liberación de Teléfonos Móviles
Enciclopedia Virtual
Biblioteca Virtual
Servicios