Boletín de RedIRIS n. 58-59

TDC@t: Una base de datos cooperativa para las tesis doctorales de las universidades públicas de Cataluña

TDC@t: A Cooperative Database for Doctoral Theses in Catalonian Public Universities

Ramon Ros

Resumen

El proyecto TDC@t, fruto de la colaboración de dos instituciones: el CBUC y el CESCA y promovido por el Comissionado para la Sociedad de la información de la Generalitat de Catalunya, tiene como objetivo promover la difusión de las tesis doctorales de las universidades de Catalunya y avanzar hacia su publicación electrónica. TDC@t està inpirado en los logros de la asociación internacional NDLTD.

Palabras clave: tesis doctorales, TDC@t, tesis electrónicas, bibliotecas, universidades públicas catalanas, base de datos de tesis

Summary

The TDC@t project is the result of the collaboration between two institutions: CBUC and CESCA. It has been promoted by the Information Society Commission from the Generalitat of Catalonia and its main objective is to promote the spreading of Catalonian Universities doctoral theses and go towards their electronic publication. TDC@t is inspired in the success achieved by the International Association NDLTD.

Keywords: doctoral theses, TDC@t, electronic theses, libraries, Catalonian Public Universities, theses database

1.- Introducción

Desde 1995 hasta 1997 José Samos, un compañero de facultad, estuvo escribiendo su tesis doctoral. Durante ese tiempo estuvo trabajando muy duro: no salía los fines de semana, dormía poco, no hizo vacaciones, .... Quería doctorarse en informàtica y para ello debía presentar ante un tribunal su tesis.

Este trabajo, fruto de muchas investigaciones, estudios, charlas con colegas y asistencias a congresos, se concretó en un documento de 270 pàginas que tituló "Definition of external schemas and derived classes in object oriented databases" y que Pepe escribió en su ordenador en formato PDF de Adobe.

Antes de escribir este artículo fui a la biblioteca de la universidad donde està la tesis para consultarla. Por temas evidentes de espacio las tesis no están disponibles en la sala, tuve que pedirla, el documento tampoco podía ser extraido de la biblioteca.

Mientras la hojeaba me di cuenta de que el documento que yo tenía como "la tesis de Pepe" era sólo una impresión del documento electrónico original. El primer anexo de la tesis era código SQL para la definición de esquemas conceptuales en bases de datos, donde mi amigo justificaba su estudio sobre las clases derivadas, me pareció un buen método, pero me costaba imaginar a alguien intentando memorizar páginas y páginas de código para reproducirlas después en su ordenador y probar esas teorias.

2.- El proyecto

En 1999 y dentro del plan "Catalunya en xarxa" promovido por el Comisionado para la Sociedad de la Información de la Generalitat de Catalunya. El CBUC y el CESCA firmaron un convenio por el que se comprometían a crear un servidor de tesis doctorales en formato digital para la universidades públicas de Cataluña. Mediante este servidor se pretendía dar una mayor visibilidad a las tesis, incentivar su uso y facilitar su conservación.

Después de una fase de estudio y un informe encargado por el CBUC, se fijaron los objetivos del proyecto, que se bautizó como TDC@t. Sus principales objetivos eran:

  • disponer de un software y un servidor para acceder y visualizar las tesis doctorales en formato electrónico, a texto completo
  • generar un conjunto de procedimientos y directrices sobre cómo redactar tesis electrónicas para su posterior publicación en Internet
  • ofrecer asesoramiento a los estudiantes para publicar sus tesis en formato electrónico según los requisitos del proyecto
  • armonizar el acceso público a las tesis doctorales electrónicas con las leyes de propiedad intelectual y los derechos de los autores
  • lograr un compromiso de los gestores universitarios y crear una plataforma de colaboración entre docentes, personal de servicios, estudiantes y bibliotecas para garantizar el acceso y la conservación a las tesis doctorales electrónicas.

La inauguración del servidor se fijó para septiembre de 2000, en ese momento las universidades podrían empezar a alimentar la base de datos. Todo el proyecto y, en concreto estos objetivos, están inspirados en gran medida en el modelo NDLTD, la iniciativa de mayor ámbito internacional hasta el momento.

3.- NDLTD

El proyecto NDLTD (Networked Digital Library of Theses and Disertations) fue iniciado en 1996 por la Virginia Tech University. Actualmente consta de más de 1.000 universidades e instituciones entre las que están, desde el año 2000, el CBUC y las universidades públicas catalanas. Los objetivos de esta `federación' son los de avanzar en la publicación electrónica de tesis y, en consecuencia, aumentar su difusión, disminuir los costes, explorar nuevos formatos de publicación, etc. En definitiva, preparar el camino hacia la tecnologia de la biblioteca digital.

Uno de los resultados más visibles de NDLTD ha sido el desarrollo de un software genérico para la gestión y publicación de las tesis doctorales. Esta aplicación, cedida gratuitamente a los miembros del proyecto, ha sido adaptada por el CESCA a la realidad de las universidades catalanas y a un proyecto de consorcio inter-universitario.

4.- TDC@t

A octubre de 2001, el servidor TDC@t dispone ya de más de 200 tesis doctorales a texto completo y la mayoría de las universidades que forman el proyecto han modificado ya sus procedimientos administrativos para introducir allí sus tesis a medida que estas se leen.

El servidor corresponde actualmente a un HP Exemplar V2500 con 16 procesadores PA8500. Esta máquina es uno de los supercomputadores de los que dispone el CESCA y, además de TDC@t, está dedicado al cálculo científico. La base de datos, que se presenta única para el usuario que consulta el servicio, es una fusión de ocho bases de datos internas desde donde se administra el proceso de introducción de las tesis, de esta manera, se conserva la independencia y seguridad de datos dentro de cada universidad. El gestor de la base de datos es MySQL y a la aplicación original desarrollada en Perl se le han añadido algunos módulos en PHP.

Respecto a la estructura y formato de los datos, se ha elegido el formato PDF. Este formato, aunque propietario de Adobe Inc., es ya un estándar de facto en la publicación electrónica por Internet con las ventajas de ofrecer cierta protección (una tesis depositada en TDC@t no puede modificarse directamente) y conservar la presentación y formato de la tesis original con independencia del dispositivo utilizado por el usuario para su consulta.

Las tesis se publican en el servidor acompañadas de un conjunto de metadatos que permiten la búsqueda por autor, título, palabras clave, restricción a la búsqueda en una sola universidad, etc. Este conjunto de metadatos es el mismo para los otros servidores de NDLTD, lo que posibilitará en un futuro la creación de un catálogo común.



5.- Ampliaciones futuras

En una segunda fase del proyecto, y una vez esté estabilizado por parte de cada universidad el proceso de introducción de las tesis, se pretende hacer una catalogación retrospectiva de tesis ya leidas. Como el coste económico de la conversión de todas esas tesis sería muy elevado se preferirá hacer una selección de aquellas tesis que han resultado más relevantes.

Respecto a los avances técnicos del proyecto, estos pasarán necesariamente por aquellos en los que ya està trabajando NDLTD. Los más immediatos son:

  • Desarrollo de una base de datos común: después de un largo periodo de exploración en el que se intentó la aproximación de una `búsqueda federada' para crear un portal común donde poder buscar en todas las tesis inscritas en el marco NDLTD, se ha optado por la creación de una base de datos real. Esta base de datos se alimentará a través de un proceso automático de recolección (harvesting) de los servidores que, como TDC@t utilizan el conjunto de metadatos definido por NDLTD.
  • Definición de un esquema XML para la publicación e intercambio de tesis doctorales abierto a toda la comunidad internacional y sobre el que NDLTD basaría sus futuros desarrollos. Esta definición, bautizada como ETDMS se basa en el conjunto de metadatos del Dublin Core Element Set con algunos elementos específicos para tratar con tesis doctorales.

Hay que resaltar que la tesis de José Samos fue la primera introducida a TDC@t [3] y su contenido ha sido consultado en más de un centenar de ocasiones desde ordenadores fuera de las universidades catalanas.

6.- Referencias

Ramon Ros,
(dirección de correo rros [at] cbuc [dot] es)

Jefe de soporte informático
Consorcio de Bibliotecas Universitarias
de Cataluña (CBUC)