Tesis doctorales de Economía


TRATAMIENTO AUTOMÁTICO DE NOTICIAS EMPRESARIALES EN LA WEB, MEDIANTE MINERÍA TEXTUAL. CASO DE ESTUDIO: UNIVERSIDADES PRIVADAS DE MÉXICO

Ismael Esquivel Gámez



Esta página muestra parte del texto pero sin formato.
Puede bajarse la tesis completa en PDF comprimido ZIP (227 páginas, 1.49 Mb) pulsando aquí

 

 

 

5.7 CORPUS UTILIZADO

Términos conectores y delimitadores del idioma

Los términos del idioma que conectan o delimitan (artículos, adjetivos, preposiciones, conjunciones, adverbios y verbos auxiliares) a los términos sustantivos de una oración (nombres propios, nombres comunes, verbos), servirán para el análisis sintáctico de los títulos y/o encabezados. A partir de los consagrados en el anexo D, se determina más adelante, aquellos términos que sirven de interconexión ó delimitación y la manera en que se usarán.

Los elementos usados en el presente trabajo, provienen del trabajo de Sebastián y otros [59] denominado “LEXESP: Léxico Informatizado del Español”, resultado de un proceso de anotación y etiquetado morfológico de millares de términos provenientes de dos corpus: CliC-TALP y LexEsp. El primero proviene de dos muestras: Una muestra representativa (de 500,000 palabras) de un corpus de prensa de 7 millones de palabras cedido por el periódico La Vanguardia; y otra, el cual consta de 5 millones de palabras, recogido entre los años 1978 y 1995.

Luego de una revisión manual de varias noticias, se ha encontrado la enorme ambigüedad que presentan las preposiciones, artículos y conjunciones. Así por ejemplo, la preposición de puede usarse como indicador de posesión, origen, pertenencia, cantidad, herencia, mientras que por puede asociarse a duración, razón, medio, trayecto y otros. Ante esto, se requiere determinar cuales términos están asociados a los elementos básicos que se pretenden buscar, para eliminar dicha ambigüedad.

Así por ejemplo, uno de los elementos básicos, es la entidad que realiza la acción principal que se reporta en la noticia, quien recibe el nombre de Agente y es representado por un nombre propio. Es posible detectar los nombres propios porque la primera letra es mayúscula generalmente. Para determinar el agente a partir de un nombre propio, se buscan algunos términos que pueden antecederle, como:

al, como, de acuerdo a, de acuerdo con, nuestra(o), por

Más aun, el agente puede componerse de varios nombres propios o un sustantivo y un nombre propio. Las palabras que los conectan pueden buscarse entre:

a cargo de, a través de, a través del, como, con, conformado por, de, del, e, en, nuestra(o), para, perteneciente a, que dirige, y

La misma tarea se ha realizado para los demás elementos básicos de una noticia, mismos que se consagran en el mapeo de elementos básicos (anexo E).

Las locuciones no verbales.

La anotación que realizaron Sebastián y otros en su trabajo, no es estrictamente palabra a palabra ya que se considera la existencia de locuciones adverbiales, preposicionales y conjuntivas que se etiquetan de modo equivalente a los adverbios, preposiciones y conjunciones. De acuerdo con Ruiz [60], las locuciones son expresiones formadas por grupos de palabras que equivalen a conjunciones, adverbios, preposiciones, adjetivos y verbos. Especialmente para el caso del adverbio, se encuentra que su respectiva locución (en consecuencia, de piedra, al lado, etc.) está compuesta de un número considerable de elementos que no se ajustan a los criterios establecidos por la gramática. Las locuciones coadyuvan a un procesamiento más sencillo ya que engloban y permiten la abstracción de varios términos continuos. A partir del trabajo referido en el primer párrafo, se organizan y presentan en el anexo F.


Grupo EUMEDNET de la Universidad de Málaga Mensajes cristianos

Venta, Reparación y Liberación de Teléfonos Móviles
Enciclopedia Virtual
Biblioteca Virtual
Servicios