Yaniel Hernández Brito*
Universidad de Sancti Spíritus “José Martí”. Cuba
yhbrito@uniss.edu.cu
Crear un sistema de recuperación de información  a través de la construcción de una base de datos documental para el Centro  Universitario Municipal “Simón Bolívar” de Yaguajay (CUM) perteneciente a la  Universidad de Sancti Spíritus “José Martí” (UNISS) es un propósito logrado  como tarea de impacto en la introducción de nuestro centro al manejo y  explotación de las herramientas pertenecientes a las Tecnologías de la  Información y las Comunicaciones. El sistema es accesible desde un  portal Web identificativo del CUM, que tiene como propósito esencial mostrar la  actividad científica y docente del mismo; así como permitir el intercambio  dinámico de información entre los diferentes centros de educación superior del  país. La base de datos pertenece al software libre Greenstone y el portal se  construye bajo la herramienta manejadora de contenidos WordPress. El sistema  facilita la gestión de la información para que ésta llegue a los usuarios interesados  de forma apropiada y en el tiempo adecuado, lográndose un aporte a la  eficiencia y eficacia de los procesos sustantivos que se desarrollan en esa  institución.
  Palabras  clave: publicación digital, software, gestión documental, metadatos, sistema manejador  de contenidos, código abierto. 
The present work aims to create an information retrieval system by building a database of documents for the Centro Universitario Municipal (CUM) of the Universidad de Sancti Spíritus “José Martí” (UNISS). The system is accessible from a Web portal for the CUM and also will enable the dynamic exchange of information among different Colleges and display the work of the CUM. The database belongs to the open source Greenstone and the website tool was built on the Wordpress content management system. The system provides management information that reaches users appropriately and in a timely manner, achieving a contribution to the efficiency and effectiveness of substantive processes taking place in that institution.
Keywords: digital library, software, metadata, system content management, open sourcePara citar este artículo puede utilizar el siguiente formato: 
Yaniel Hernández Brito(2018): “Sistema de gestión documental para el CUM “Simón Bolívar” de Yaguajay”, Revista Caribeña de Ciencias Sociales (noviembre 2018). En línea:
 https://www.eumed.net/rev/caribe/2018/11/sistema-gestion-documental.html
//hdl.handle.net/20.500.11763/caribe1811sistema-gestion-documental
Actualmente, el proceso  de recuperación de información representa un verdadero reto para quienes  necesitan satisfacer alguna necesidad específica en un momento dado. Este  desafío se debe, en gran medida, al aumento exponencial de este recurso  estratégico, que alcanza volúmenes antes impensados, independientemente de la  dificultad consistente en la localización de información de calidad. Además,  pese a la existencia de Internet, tal reto se mantiene vigente dada la  imposibilidad de su utilización por millones de personas por disímiles causas (2008). Las instituciones dedicadas a la  gestión de información han experimentado importantes cambios al introducir las  nuevas tecnologías de información y la comunicación (TIC) que renuevan sus  formas de trabajo y logran ofrecer mejores servicios (Surajit Chaudhuri, 2003). 
   En Cuba, la gestión de  la información y el conocimiento, ha experimentado grandes avances  constructivos tras la utilización de las TIC en el desarrollo de sistemas de  gestión, los cuales han brindado destrezas centradas en el proceso de recogida  y análisis de información, permitiendo su mejor manipulación. Además, se han  proporcionado nuevos resultados debido al descubrimiento de nuevas  interrelaciones entre los datos manejados, logrando mejoras en la toma de  decisiones en el proceso de gestión de información. La Educación Superior,  desde el triunfo revolucionario en 1959, adquiere gran importancia,  convirtiéndose hoy, por las transformaciones que realiza, en uno de los mayores  proyectos que la sociedad cubana enfrenta, debido a los retos y desafíos que  plantea la Revolución del Conocimiento. Este proceso se produce a partir de la  transición de un paradigma a otro de mayor dinamismo, teniendo en cuenta que el  desarrollo económico y social está condicionado por factores insoslayables,  como aquellos que estén vinculados con el desarrollo del conocimiento, la  investigación y el progreso de la ciencia y la tecnología, en un mundo cada vez  más globalizado, donde sólo llevando la cultura a toda la sociedad se podrán  alcanzar saltos hacia niveles cualitativamente superiores. La universidad  cubana está inmersa en un constante proceso de desarrollo de diferentes  plataformas de difusión de la información, con el objetivo de poner las  diferentes fuentes de conocimiento a disposición de todos los educandos. 
   El CUM  Yaguajay, perteneciente a la UNISS, es una institución de carácter científico y  docente que potencia el autodesarrollo de las comunidades mediante los  resultados obtenidos por la investigación científico técnica y la formación  profesional y postgraduada mediante ediciones de Maestría en Desarrollo Local.  Este centro no cuenta con un medio para divulgar la información de todas las  actividades que en él se llevan a cabo como son los eventos y cursos de  postgrado, así como la publicación de la cátedra honorífica y el acceso al  contenido de su biblioteca. Es necesario aclarar que el mismo cuenta con la  infraestructura de hardware necesaria para establecer la comunicación con los  otros centros, pero no está creada la infraestructura de software que permita  mostrar la actividad del centro y crear espacios de intercambio de información  de forma dinámica. Por tanto es necesario determinar cómo crear espacios  dinámicos de intercambio de información entre el CUM y los demás centros universitarios,  empresas de producción locales y Gobierno Municipal.
   
   Este trabajo tiene como  objetivo crear un sistema de base de datos documental accesible desde la Web que  permita gestionar colecciones de documentos como revistas, cursos, libros y  multimedia para propiciar  la entrega dinámica de información. 
En el año 2009 fue resuelta la aprobación de la creación del CUM adscrito a UNISS, con la dirección metodológica de las cuatro filiales universitarias municipales, adscritas al INDER, MINED, MINSAP y el MES. Este centro es una organización de carácter científico docente en la educación superior cubana cuyas funciones tributan al ideal comunista de transformación social. Tiene como misión potenciar el autodesarrollo de las comunidades, como elemento clave para alcanzar niveles superiores de emancipación humana y dignificación personal, mediante el desarrollo de la investigación científico técnica, la formación profesional y postgraduada y los servicios científicos técnicos. Valores importantes que se forman y fomentan en este centro son:
Dado que el CUM está dirigido hacia el desarrollo local comunitario a través de la investigación científico-técnica, se trazan los siguientes objetivos generales de trabajo:
Los sujetos comunitarios hacia los que se dirigen los objetivos de trabajo son, esencialmente, las comunidades, gobernantes y funcionarios del Poder Popular, directivos, tutores de los colegios universitarios municipales, trabajadores sociales, directivos de la dirección municipal de trabajo social, profesionales del desarrollo comunitario, estudiantes universitarios, otros sujetos comunitarios. El Centro responde a una línea de investigación priorizada de la UNISS: “Comunidades: Estrategias para su autodesarrollo”, abordando las temáticas siguientes:
Dentro de las áreas de resultados clave del centro se encuentran la Dirección (Director, sustitutos, reservas, secretaria y económica), Formación (postgrado y pregrado), Investigación (proyectos científico estudiantil y publicaciones), Servicios Científico-Técnicos (DLC, Biblioteca, TIC, traducción, página Web y otros servicios), Relaciones (eventos y convenios).
Actualmente se tiene en el CUM siete proyectos de investigación:
Se realizan además:
El crecimiento incontrolable de los recursos de información existentes en la Web dio lugar a la paradoja “acceso global a la información”, mientras que en la realidad los usuarios se enfrentan a una red confusa carente del orden necesario para recuperar la información pertinente. En este contexto, la tarea profesional vinculada con los servicios de información se ha visto modificada en aspectos como la selección, adquisición, procesos de descripción y modo de acceso aplicados a los objetos de información; dando lugar a un nuevo reto acerca de cómo organizar la información en la Web para garantizar su localización y recuperación exitosa. El desarrollo de las TIC ha hecho que todos puedan crear y publicar en la red, sin prever que la falta de tratamiento de ese acopio documental provocaría puntos débiles en la tarea de localización y recuperación que realizan los usuarios a través de denominados buscadores de información. En este sentido la gestión documental juega un papel fundamental puesto que permite administrar el flujo de documentos de todo tipo en una organización.
Según (Escobar, 2009) un Sistema Gestor de Base de Datos  Documental (SGBDD) se ocupa de la gestión de documentos optimizando el  almacenaje y facilitando su recuperación. A diferencia de cualquier otro  sistema gestor de base de datos (SGBD), un SGBDD no realiza ningún tratamiento  sobre la información, éste la almacena y posibilita su recuperación. Un SGBDD  es un software que dispone de todas las funciones necesarias para el  almacenamiento, indexación, consulta y modificación de la información textual y  que aplica de manera limitada las técnicas de la informática documental. Están  basados en sistemas de archivos y ficheros inversos. El fichero inverso es una  modalidad de organización y utilización de los datos, especialmente apropiada  para la recuperación de información textual mediante consultas interactivas. 
   Dentro de los rasgos  característicos que podemos encontrar en un SGBDD tenemos la capacidad  de almacenar  información textual en forma estructurada, puede también manejar  información textual de longitud grande y variable, recuperar con rapidez, en  base a la generación de índices, registros que responden a un criterio de  búsqueda, realizar búsquedas sobre ficheros inversos utilizando la lógica  booleana, administrar tesauros y diccionarios terminológicos. Entre las tareas  básicas se puede distinguir la creación y gestión de bases de datos con la  creación de índices inversos, consulta de información en línea, edición de los  resultados de las búsquedas, producción de catálogos e índices impresos. Otras  de las funciones complementadas en un SGBDD son la seguridad de acceso y  protección del contenido, facilidades de interrogación asistida, almacenamiento  de las consultas para poder utilizarlas en cualquier momento, posibilidad de  formatear las salidas impresas así como el procedimiento de mantenimiento de la  base de datos y copias de seguridad (Escobar,  2009).
   Las bases de datos se  componen de diferentes registros con su correspondiente número de  identificación. En una base de datos bibliográfica cada registro se corresponde  con una referencia de un documento original, que puede ser una publicación  independiente (monografía, tesis, informe,...) o una parte con autonomía de  contenido dentro de otra publicación (artículo incluido en una revista, una  serie o una compilación, ponencia o comunicación en las actas de una reunión  científica,...). 
   La información contenida en cada registro bibliográfico se  estructura en diferentes campos para facilitar su control sistemático y su  recuperación individualizada. Algunos campos reflejarán la descripción formal  del documento y otros van destinados a reflejar su contenido temático. Según el  modelo de base de datos y el tipo de documentos vaciado en la misma se  establece una estructura de campos particular.
   Una base de datos  documental gestiona una gran cantidad de información con un alto grado de  homogeneidad, que permite que sea compartida por varios usuarios. Las  diferencias más claras con los gestores de bases relacionales son:
En resumen, podemos afirmar que para automatizar el proceso  de búsqueda  de información documental en  determinada entidad es más coherente decidirse por un SGBDD que por un SGBD  relacional. 
   Las organizaciones  necesitan sistemas de información que capturen y gestionen información  contextual que ayude al entendimiento, uso, acceso y gestión de sus documentos  a lo largo del tiempo. Esta información es crítica para afirmar la  autenticidad, fiabilidad, integridad, disponibilidad y valor probatorio de los  documentos. En su conjunto, esta información se conoce como metadatos para la  gestión de documentos (Escobar, 2008). 
En este contexto de modificación sustantiva las propuestas  de procesamiento y manejo de los recursos digitales tienen como pilar a los  metadatos, cuyo uso normalizado se presenta como la solución a los gestores y  creadores de recursos de información quienes tendrán que agregar a éstos  descripciones susceptibles de procesarse por los buscadores de información. Los  metadatos se emplean para describir el continente, el contenido y otras  características de los datos primarios posibilitando a una persona o máquina  ubicar y entender la información. Son datos secundarios como pueden ser el  autor, el título, las palabras clave, el resumen, la fecha u otros que  describen los datos primarios o recursos de información. A diferencia de las  fichas catalográficas, una de las características más importantes de los  metadatos, es su capacidad de relación o de establecer enlaces indizando y  clasificando inmensas cantidades de información de diversos tipos, razón por la  cual se han hecho imprescindibles en la recuperación de información en línea (Jaroszczuk, 2007). Más allá de su  identificación terminológica y etimológica así como de su evolución y condición  de documento secundario, lo destacable es que el concepto estricto de metadatos  surge en la Web; es amplio, permite muchas conceptualizaciones, interpretaciones  y aplicaciones. En cuanto a tipología, funciones y modelos los metadatos  presentan múltiples alternativas que dependen de factores también diversos  como: el tipo de información que describen, el nivel de estructuración de la  información, el lugar donde se encuentren, su ámbito de aplicación, el tipo de  usuario que los utiliza, así como también sus finalidades.
   A propósito de la  preservación digital, se define a los metadatos como “elementos o estructuras  de organización de la información que, asignados a cada objeto de información  electrónica la clasifican, categorizan y describen. En definitiva “es  información estructurada sobre información distribuida” y su papel emergente es  la actualización y la preservación de la información (Jaroszczuk, 2007). Entre sus funciones fundamentales está la de  describir los objetos de información, informar a los usuarios la existencia, el  contenido, la calidad y los objetivos de los recursos de información descritos,  garantizando el punto de acceso a la información que los usuarios desean  consultar. Los metadatos se clasifican de varias formas para las cuales se  establecen tres categorías  que responden  a las funciones que desempeñan y a la información que se desea ofrecer:
  2.1 Metadatos descriptivos: como su  nombre lo indica tienen  como objetivo la  descripción e identificación de la información contenida en el recurso. Estos  metadatos ayudan a responder preguntas como: ¿Cuál es el tema de este  documento? ¿Quiénes son sus autores?
  2.2 Metadatos estructurales: facilitan la  navegación y presentación de los recursos electrónicos proporcionando  información sobre la estructura interna de los mismos. Ayudan a responder  preguntas como: ¿Es un informe o un libro? ¿Cuántos capítulos o secciones  tiene?
  2.3 Metadatos administrativos: facilitan la  gestión y procesamiento tecnológico y físico de las colecciones digitales tanto  a corto como largo plazo, refiriéndose a características y propiedades de la  imagen. Ayudan a responder preguntas como: ¿Cuál es el formato del archivo?  (PDF, JPG, etc.)¿Cuán grande es el archivo digital? ¿Cuál es la resolución de  la imagen?
   Es importante que la definición de un  esquema de metadatos para cada tipo de recurso sea definido con antelación,  tomando siempre muy en cuenta el uso que se le dará a la información en  términos de localización y respuesta. 
La construcción del  repositorio modelo responde al recurso de código libre denominado Greenstone;  conjunto de programas de software diseñado para crear y distribuir colecciones  digitales, proporcionando así una nueva forma de organizar y publicar la  información a través de internet o en forma de CD-ROM. Es una aplicación que  tiene como núcleo el motor de indización y recuperación de información textual.  Es capaz de procesar e incorporar a las colecciones documentos en numerosos  formatos.
   Para la selección de  este Software se han hecho los recorridos teóricos por espacios institucionales  que ofrecen herramientas para la creación de repositorios comparando Dspace,  Fedora, Content DM y Greenstone.
   Aspectos a tener en cuenta en la comparación:
La amplia proliferación de las herramientas para crear colecciones digitales hace que su selección requiera de un proceso de análisis antes de escoger la que se utilizará en cada institución, según sus necesidades y las bondades que ofrezca dicha herramienta. La selección debe centrarse principalmente en los siguientes aspectos:
Greenstone se soporta en Windows y Unix. Además, puede desarrollarse perfectamente sobre servidores Web Apache, PWS o IIS de Microsoft y requiere la aplicación Java para su correcto funcionamiento. Las computadoras clientes podrán mostrar las colecciones en ambiente Web mediante sus navegadores, Internet Explorer u otros. En el proceso de instalación, se ofrece la posibilidad de instalar la herramienta en varios idiomas, entre los que se encuentra el español. Esta alternativa permite que la interfaz, tanto para el trabajo bibliotecario como de presentación de los usuarios, pueda consultarse en el idioma nativo. Greenstone tiene dos posibilidades para instalarse: biblioteca local y biblioteca Web. La biblioteca local es para computadoras autónomas. Tiene incluido un servidor Web, limitado, para poder utilizarlo por otras computadoras de la red. No necesita ningún tipo de configuración por parte de sus usuarios. La biblioteca Web puede instalarse en cualquier computadora con un servidor Web para distribuir las colecciones con mayor amplitud. El procesamiento de documentos con Greenstone, que acepta todo tipo de formatos, como son: texto, imágenes, bases de datos en Isis, etc., se realiza de forma fácil y ágil por medio de la interfaz del bibliotecario. En este ambiente de trabajo se asignan metadatos a los documentos mediante una plantilla, según el modelo de metadatos escogido, entre los que está Dublin Core (Paulus, 2001), y un formato propio que ofrece Greenstone. Es posible asignar metadatos a los documentos individuales o a varios, agrupados en carpetas. La página principal de cada colección creada con Greenstone, tiene una breve descripción del tema de la colección y las formas en las que pueden realizarse las búsquedas. La recuperación puede hacerse por medio de los índices que declare el creador de la colección; incluye autor, título, materia y el texto completo. Además, puede navegarse en la colección por medio de la consulta de listas, también declaradas por el creador de la colección, principalmente autor, temática y fecha.
DSpace es un sistema que provee una forma de gestionar materiales y publicaciones resultantes, tanto de la actividad de investigación como de educación, almacenadas en un repositorio que ofrece a los usuarios accesibilidad en todo momento. Es una herramienta open source, gratuita y de licencia GPL. Puede instalarse sobre el sistema operativo Unix, que además necesita de la aplicación Java para su funcionamiento. Esta herramienta también incluye un sistema de bases de datos relacionales; este repositorio de colecciones digitales puede montarse sobre servidores Web PostgreSQL, Apache o Tomcat. DSpace utiliza el estándar de metadatos Dublin Core para la descripción de los documentos, que van desde texto, hasta imágenes y videos, entre otros, y que luego posibilita su recuperación precisa. La interfaz en ambiente Web varía en dependencia de la persona que la utilice; así, los responsables de la colección tienen una, los administradores del sistema otra y los usuarios finales otra; aunque todas coinciden en que son en idioma inglés. Los usuarios pueden hacer sus búsquedas a partir de los metadatos declarados por los especialistas o simplemente mediante las listas de documentos por campos específicos, como son: autor, título y fecha.
Fedora es el acrónimo de Flexible Extensible Digital Object Repository Architecture (Arquitectura digital de repositorio de objetos digitales flexible y extensible). El repositorio de documentos digitales Fedora requiere de la instalación previa del programa Java en el servidor en el que funcionará; además, Fedora incluye en su paquete de instalación una base de datos que en caso de que los especialistas decidan no utilizarla, puede sustituirse por otras como Oracle y MySQL. Este software funciona con los sistemas operativos Windows y Unix y sobre servidores Web Apache y Tomcat. Fedora, al ser un sistema open source gratuito, ofrece a los programadores su código fuente. Se distribuye bajo la Licencia de la Comunidad Educativa, que permite que el programa se propague a todos los que lo requieran y que se hagan modificaciones, siempre que se coloquen en forma visible los términos de esta licencia para que otras personas puedan conocer sobre ella. El procesamiento de los documentos se realiza según los metadatos asignados por los especialistas en formato Dublin Core. La interfaz de presentación de Fedora es distinta para cada una de sus sesiones, es decir, una para el procesamiento de los documentos y otra para los usuarios finales, que además tendrán la posibilidad de recuperar los contenidos mediante búsquedas en varios índices, previamente declarados por los procesadores o mediante la navegación por las listas de las colecciones. Fedora permite crear colecciones digitales en varios formatos de documentos, como son: texto, imagen, sonido, etcétera. El lenguaje del programa, tanto de la interfaz de trabajo como de presentación a los usuarios, es en inglés, aunque es posible configurar, por medio de la agregación de aplicaciones adicionales que ofrece el sistema, el programa en varios idiomas.
CONTENTdm provee herramientas para la organización, gestión, publicación y recuperación de colecciones digitales de todo tipo de documentos, desde texto (en varios formatos) hasta imágenes, videos y audio. Este programa se utiliza desde servicios Web; así los usuarios pueden ver los resultados desde sus navegadores Web, sin necesidad de instalar herramientas adicionales. Los servidores en los que se instala CONTENTdm requieren de Windows Server, Linux o Solaris, además de servidores Web dedicados, montados en IIS con Windows o Apache. Las estaciones de trabajo de las personas que se ocupan de desarrollar las colecciones necesitan instalar Windows 2000 o superior para poder trabajar con el programa. El procesamiento de los documentos con CONTENTdm se realiza según metadatos predefinidos, que los creadores de las colecciones pueden seleccionar, tanto entre los propios del programa como de Dublin Core. También permite exportar metadatos definidos en otras bases de datos de la institución que lo utilice, con vista a lograr una compatibilidad entre todas. CONTENTdm ofrece, además, un vocabulario controlado para la indización de los documentos, aunque permite que los usuarios utilicen otros, si así lo desea o necesitan. La recuperación de información se realiza mediante una interfaz Web, que presenta una descripción detallada de la colección y por medio de la que se puede hacer búsquedas por varios índices, como son: autor, título, materia, en el texto completo o como lo declaren los creadores. Los usuarios también pueden, si lo desean, navegar en la colección, por título, autores o como lo definan los creadores. CONTENTdm es una herramienta paga, con licencia privada, que permite a los usuarios desarrollar sus colecciones a partir de los patrones que ellos definen, pero no pueden hacer ningún tipo de cambio o adecuación si lo necesitaran. CONTENTdm soporta los lenguajes de los creadores y usuarios, y permite que se puedan construir colecciones en idiomas distintos al inglés.
El análisis de repositorios institucionales efectuados permitió seleccionar el software Greenstone por las siguientes razones:
Se ha procedido a seleccionar diversos tipos de materiales documentales conocido como corpus documental, así como también memorias de eventos realizados, generados en los últimos años y siendo resultados de investigaciones, informes de proyectos académicos, conferencias impartidas por profesores del CUM que merecen ser visibles, accesibles y disponibles a través de esta acción de composición del repositorio documental. Así es que la tipología de recursos que componen el corpus documental seleccionado está conformado por artículos científicos y de divulgación, ponencias a texto completo y resumido, proyectos, libros y partes de libros, informes de investigación, conferencias en audio y video. También se han incorporado los planes de estudio.
La creación de una  colección de documentos se asocia al usuario autorizado, en ella se escribe el  nombre de la colección a crear, se especifica si la colección se construye  sobre la base de una existente o sobre un perfil nuevo. Se adjunta el fichero  que contiene el conjunto de documentos a contener. Finalmente se detalla una  descripción de la colección que se va a crear. Una vez llenados cada uno de  estos campos se oprime el botón siguiente, que nos lleva a la opción siguiente  (véase figura 2).
   En la ventana siguiente  (véase la figura 2) se escribe el correo de la persona que crea la colección,  seguidamente se especifica si será pública o no. Puede especificarse que índice  se mostrará en la ventana de gestión de documentos dentro de una colección.  Pueden ponerse combinación de cada uno de ellos. Estos índices varían según el  clasificador de búsqueda que se especifique, que puede ser List o VList. 
   En la  figura que se muestra a continuacion (véase la figura 3) se añaden los valores  correspondientes a cada uno de los metadatos, los metadatos seleccionados  siguen el modelo Dublin Core una vez seleccionado el archivo al cual pertenecen  los valores de los metadatos y también seleccionada la colección a la cual  pertenece este documento. Se oprime el botón enriquecer. Este procedimiento se  sigue para cada uno de los documentos.
   Una  vez realizados todos estos pasos se puede buscar documentos en la interfaz  correspondiente a la colección seleccionada. Se puede buscar por palabras  específicas o palabras completas en el documento o en el título.
El recurso electrónico logrado en esta experiencia es la demostración práctica de aplicar las alternativas del modelo de “acceso abierto” representado en la creación de un repositorio de documentos relacionados con la labor de gestión documental. Constituye una herramienta para la gestión del corpus documental, adecuada a las necesidades del contexto en que se enmarca el CUM.