Encontrando los principales temas en un documento escrito en Español

Tesis doctorales de Economía

TRATAMIENTO AUTOMÁTICO DE NOTICIAS EMPRESARIALES EN LA WEB, MEDIANTE MINERÍA TEXTUAL. CASO DE ESTUDIO: UNIVERSIDADES PRIVADAS DE MÉXICO

Ismael Esquivel Gámez

Esta página muestra parte del texto pero sin formato.
Puede bajarse la tesis completa en PDF comprimido ZIP (227 páginas, 1.49 Mb) pulsando aquí

3.3.4 Encontrando los principales temas en un documento escrito en Español.

Guzmán [35] ofrece el desarrollo del Algoritmo CLASITEX, el cual analiza un documento conteniendo lenguaje natural con la intención de reconocer los principales temas. Se desarrolló en el laboratorio de Lenguaje Natural y Procesamiento de Texto del Centro para la Investigación en Computación del Instituto Politécnico Nacional.

El análisis de textos en español permitirá que la computadora entienda los documentos escritos en lengua natural, por ejemplo, para resumirlos, encontrar tendencias, comparar dos documentos (con respecto a un tema dado) y contestar a preguntas no triviales.

El reporte inicia presentando la diferencia entre palabra y concepto, indicando que las palabras son ambiguas y los conceptos no. Por tanto, se busca trabajar con los conceptos que representan las palabras, mediante el análisis semántico que trata con los significados.

Los conceptos forman familias o jerarquías, en las cuales la relación más usada es el subconjunto, donde los hijos denotan subconjuntos o especializaciones o conceptos más específicos que el padre. El trabajo consiste en formar un árbol o una parte del mismo para conformar un número finito de conceptos. El árbol puede organizar el conocimiento común, el cual poseen aquellos que no manejan una especialización y está conformado por unos diez millones de conceptos.

El árbol del sentido común tiene, además de "subconjunto", otras relaciones (tales como "parte de", "formado por" y otras) entre dos conceptos. Las relaciones son también parte del árbol de conocimiento.

A partir del árbol, se lee el documento y se reemplazan las palabras por sus respectivos conceptos. Conforme se encuentran los conceptos se incrementan sus contadores y los de aquellos que son sus padres hasta el concepto de mayor nivel. Al final del análisis, los conceptos del árbol de mayor frecuencia serán los tópicos principales del documento.

Los problemas que presenta el método propuesto es que el árbol tiene que construirse manualmente y además es necesario eliminar la ambigüedad de la palabra, pues una misma puede referirse a varios conceptos. Sin embargo, luego de varias pruebas se encontró que saltarse el proceso de desambiguación no afectaba la precisión de los resultados, pues al final imperaban los conceptos más populares.

El verdadero trabajo estriba en el análisis de conceptos representados por más de una palabra, pues el algoritmo tiene que trabajar con las palabras actual, previa y siguiente para verificar si un grupo representan un concepto (ej. Benito Juárez representa el concepto presidente).

Los resultados encontrados indican que conforme el documento por revisar es más corto es difícil precisar los principales tópicos. Se han procesado textos provenientes de revistas y periódicos genéricos, lo cual requiere de un árbol menos complejo. Para tratar textos más especializados se requiere enriquecer en gran medida el árbol conceptual.