Tesis doctorales de Economía


TRATAMIENTO AUTOMÁTICO DE NOTICIAS EMPRESARIALES EN LA WEB, MEDIANTE MINERÍA TEXTUAL. CASO DE ESTUDIO: UNIVERSIDADES PRIVADAS DE MÉXICO

Ismael Esquivel Gámez



Esta página muestra parte del texto pero sin formato.
Puede bajarse la tesis completa en PDF comprimido ZIP (227 páginas, 1.49 Mb) pulsando aquí

 

 

 

3.3.5 Nominalización en títulos: una manera de extraer detalles de documentos.

De acuerdo con Montes y Gómez y López [36], este trabajo habla de que los títulos de los documentos son lo primero que el lector lee acerca de su contenid1o. A partir de ello, la nominalización en títulos proporciona un significado para identificar un nivel de contenido específico como es sugerido por el verbo del cual se derivan.

Comúnmente los documentos científicos se expresan como un conjunto de palabras clave, lo cual no es muy preciso pues deja fuera algunos aspectos importantes del documento. Con la explosión de la información por medios electrónicos, como el Internet, se requiere de mejores métodos de búsqueda y clasificación de documentos.

Se propone un nuevo sistema de búsqueda que utiliza otros elementos además de los términos para indexar los documentos y obtener mejor información. El sistema es un método de representación de dos niveles que permite incluir los detalles de contenido con su estructura, es decir como se relacionan los conceptos. Se toman los verbos que se encuentran en el título y se explora como sus nominalizaciones son usadas, para evaluar características del contenido.

Se llevó a cabo un análisis manual de 4663 documentos de las colecciones CACM y CISI. Un listado de verbos fue usado para buscar los sustantivos derivados de ellos. La nominalización es a menudo usada para expresar información no relevante, por ejemplo en “Una introducción a una división de datos independiente de la máquina” se puede deducir que el documento introduce a “división de datos”, en un método normal solamente se guardaría “división de datos” y no el nivel básico al que se refiere con “introducción”.

Se encontró que no todas las nominalizaciones en títulos expresaron la clase de detalles de interés, pues solamente aquellas nominalizaciones del documento que provinieron de los verbos que articulan las intenciones del documento produjeron resultados correctos. Los títulos analizados indican intenciones de diversas actividades. Éstas generalmente se relacionan el contenido específico de los documentos, como el objetivo, punto de vista entre otras.

El proceso consistió en el pre-procesamiento para aislar el título, el etiquetado del título, el filtrado, la división del título en sus partes, la generación del grafo conceptual y la recuperación de datos implícitos.

Los resultados obtenidos con el análisis de 4663 documentos fue que se encontraron títulos con nominalización en un 14.62% (682), mientras que presente participio hallado en un 5.16% (241) dando un total de documentos útiles del 19.79% (923).

Se encontró evidencia de que la nominalización es una manera confiable de acceder a más información acerca del contenido del documento, mediante un medio de relacionar las expresiones en títulos que puede ser también usada para acceder a información similar. La representación estructurada de la información extraída de los títulos de los documentos proporciona detalles específicos de su contenido. Mediante una representación de dos niveles de dimensión en los cuales un documento puede ser juzgado, sirviendo a un amplio rango de interés.


Grupo EUMEDNET de la Universidad de Málaga Mensajes cristianos

Venta, Reparación y Liberación de Teléfonos Móviles
Enciclopedia Virtual
Biblioteca Virtual
Servicios