SELECCIÓN DEL MÉTODO DE TRANSFORMACIÓN

Tesis doctorales de Economía

TRATAMIENTO AUTOMÁTICO DE NOTICIAS EMPRESARIALES EN LA WEB, MEDIANTE MINERÍA TEXTUAL. CASO DE ESTUDIO: UNIVERSIDADES PRIVADAS DE MÉXICO

Ismael Esquivel Gámez

Esta página muestra parte del texto pero sin formato.
Puede bajarse la tesis completa en PDF comprimido ZIP (227 páginas, 1.49 Mb) pulsando aquí

5.3 SELECCIÓN DEL MÉTODO DE TRANSFORMACIÓN

El desarrollo de los métodos para la transformación de contenido textual ha sido paralelo al desarrollo de los métodos para la comprensión del lenguaje (análisis morfológico, sintáctico y semántico). Por ello, típicamente se busca y analiza la información textual considerando únicamente el “tema” de los textos y no su contenido completo. Esta estrategia facilita el análisis de grandes conjuntos de textos, e incluso mantiene una independencia del dominio, pero limita grandemente la expresividad y la diversidad de los resultados de los sistemas de análisis de textos.

Para elegir el método de transformación aplicado en la presente investigación, se presenta de forma sucinta las principales corrientes actuales.

Montes [51] establece que, tradicionalmente la minería textual analiza las relaciones entre pequeñas unidades que expresan sólo aspectos temáticos del texto (acerca de que ó el quién del texto). La idea es analizar la información que puede obtenerse de estructuras mayores (frases u oraciones representadas por grafos conceptuales), las cuales preservan mucho más de la semántica del texto y permiten construir jerarquías conceptuales a través de la descripción numérica y simbólica de su similitud.

Sin embargo, como lo indica Boytcheva [52], la extracción automática de especificaciones de conocimiento formal desde texto en lenguaje natural es una tarea ardua, pues la adquisición automática de conocimiento necesita de una descripción previa de cada palabra importante, esperada en el texto de entrada. Una palabra puede ser reconocida y luego procesada si y solo si puede ser derivada desde una entrada léxica aplicando reglas morfológicas. Para que sea un proceso automático requiere: definiciones de miles de palabras, esfuerzos para proveer análisis de texto completo y atención especial a la consistencia del conocimiento, el cual es adquirido y almacenado en la base de conocimiento (KB). Debido a todas esas complicaciones, la automatización actualmente, es posible solamente para lenguaje natural restringido.

Así por ejemplo, Rassinoux y otros [53] al dedicarse al desarrollo de un analizador multilingüe, denominado RECIT, orientado a la comprensión de textos provenientes de documentos de pacientes del departamento de cirugía digestiva, determinan que el estilo idiomático encontrado en estos textos conforma una estructura simple y restringida en comparación con el lenguaje natural completo. Con ello, se puede implementar un sistema que trata automáticamente con expresiones importantes sólo para el dominio médico en esa específica área.

Hess [54] indica que, como el vocabulario en un dominio restringido, como el descrito en su trabajo sobre dispositivos digitales, es más bien limitado, el número de grafos de palabras con sentido que debe agregarse para analizar cada instrucción, decae conforme el diccionario alcanza el límite. Se puede esperar que el número de grafos por frase decaiga hacia el final de cada documento dado que los autores tienden a repetirse en su estilo.

Ahora bien y de acuerdo con Petersen [55], existen dos clases de métodos para la extracción automática de estructuras conceptuales desde textos. Una de ellas está más inclinada hacia un manejo ontológico y menos hacia un manejo sintáctico y está basado en un inventario de grafos denominados canónicos, organizados en un árbol. Ejemplos de trabajos hechos con esta clase de metodología incluyen los de Sowa y Way [56], Sowa [57] y Hess y Cyre [58].

La otra clase de método está menos orientado a la ontología y más hacia la sintaxis. Está centrado alrededor de la conversión de estructuras sintácticas a estructuras conceptuales, usando grafos intermedios, reglas de conversión, apareamiento de grafos, reunión de grafos, selección de relaciones conceptuales basado en la colocación de tipos de conceptos en la ontología y posiblemente en la heurística e información estadística. De este lado, se encuentran trabajos de Barrière [58]. Existe además una variante que combina ambas propuestas para reducir las debilidades inherentes (Boytcheva et al., 2001).

Las noticias empresariales publicadas en la Web es un caso más de textos de dominio específico, razón por la cual se eligió una estrategia basada más en la sintaxis.

La idea central que sustenta el procedimiento propuesto es transformar los textos sin estructura de las noticias a una representación estructurada de archivos de base de datos relacional, susceptible de explotarse mediante consultas programadas o ad-hoc.

De modo que de un texto como:

Tras diez meses de ausencia, los alumnos de Administración de Instituciones de la Universidad Popular Autónoma del Estado de Puebla (UPAEP), Paola Cortés Paz, Diana López Cruz y Rodrigo Tello Rosete, retornaron a esta casa de estudios después de permanecer en Tesalónica, Grecia, como parte del proyecto “Desarrollo Sustentable del Turismo entre la Unión Europea y Latinoamérica”, auspiciado por el programa América Latina-Formación Académica (ALFA).

Se obtenga una estructura, así:

Elemento Contenido

Lugar NA

Fecha NA

Agente los_alumnos_de_Administración_de_Instituciones_de_la_ Universidad_Popular_Autónoma_del_Estado_de_Puebla_(UPAEP), _Paola_Cortés_Paz, Diana_López_Cruz y Rodrigo_Tello_Rosete,

Accion Retornar

Objeto

Rf = Referente Casa

Drf = Determinativo del ref. de_estudios

C = Calificación NA

Dc = Determinativo de la Cal. NA

Paciente NA

Complemento

I = Instrumento el_programa_América_Latina-Formación_Académica_(ALFA).

E = Efecto NA

K = Contexto del_proyecto_“Desarrollo Sustentable del Turismo entre la Unión Europea y Latinoamérica”,

Relator NA

A la cual se pueda leer mediante el lenguaje universal de consultas a bases de datos: SQL.