Conocimiento abierto en la UOC

¿Qué es el acceso abierto? ¿Cuáles son sus beneficios? Las estrategias de publicación en acceso abierto, su marco legal, y mucho más.

Gestión de los datos de investigación

La importancia de la gestión de los datos en el ámbito de la investigación ha ido en aumento en los últimos años junto con la posibilidad de difunirlas y compartirlas con otros investigadores y con el público en general.

Gestión de datos de investigación en la UOC

Valoración de los investigadores sobre el servicio ofrecido desde la Biblioteca de apoyo en la gestión de los datos de investigación.

 

Conoce qué son los datos de investigación, cómo se gestionan y los beneficios de compartirlos.

La Comisión Europea (CE) define los datos de investigación como aquella información factual o numérica recogida para ser examinada y considerada como la base de un razonamiento, de una discusión o de un cálculo. Los datos incluyen estadísticas, resultados de experimentos, medidas y observaciones resultantes del estudio de campo, de encuestas o de entrevistas e imágenes.

  • Observacionales: datos capturados en tiempo real. Por ejemplo, neuroimágenes, datos de muestras, datos de sensores, datos de encuesta
  • Experimentales: datos capturados en equipos de laboratorio. Por ejemplo, secuencias de genes, cromatogramas, datos de campos magnéticos
  • Simulación: datos generados a partir de modelos de prueba. Por ejemplo, climatológicos, matemáticos o modelos económicos.
  • Derivados o compilados: datos reproducibles, pero de difícil reproducción. Por ejemplo, de texto y minería de datos, modelos 3D, bases de datos compilados.
  • De referencia: conglomerado o conjunto de datos. Por ejemplo, bancos de datos de secuencias de genes, estructuras químicas o portales de datos espaciales.

La gestión de los datos de investigación (RDM) engloba la organización, la estructura, el almacenamiento y el tratamiento de los datos utilizados o generados durante un proyecto de investigación.

La gestión de los datos de investigación (RDM) está presente en todas las fases de una investigación:

  • Validación de los resultados obtenidos.
  • Localización y comprensión de los datos.
  • Reducción de la duplicidad de recogida de datos y los costes que ello comporta.
  • Cumplimiento de los requisitos de las convocatorias de investigación.
  • Fomento del debate científico.
  • Fomento de la innovación y los nuevos usos potenciales de los datos.
  • Fomento de la colaboración entre los usuarios de datos y sus creadores.
  • Incremento del impacto y la visibilidad de la investigación.
  • Aumento de la propia reputación cuando los demás citen la obra propia.

  • ¿Qué tipo de datos generarás?
  • ¿Tienes previsto el depósito y la difusión de los datos en abierto?
  • ¿Cuándo tienes previsto publicarlos?
  • ¿Sabes qué plataforma utilizarás para depositarlos y difundirlos?
  • ¿Sabes con qué licencia los publicarás?
  • ¿Quieres preservar los datos? ¿Cuánto tiempo? ¿Cuál es el volumen de datos que quieres preservar? ¿En qué formatos?
  • ¿Los datos requieren software específico para ser consultados?
  • ¿Trabajas con datos personales? ¿Qué vas a hacer con ellos?
  • ¿Trabajas con datos confidenciales? ¿Qué vas a hacer?
  • ¿Quién es el máximo responsable de la gestión de los datos?

Según el artículo 12 de la Ley de propiedad intelectual, las bases de datos «que por la selección o disposición de sus contenidos constituyan creaciones intelectuales» están protegidas por derechos de autor. Sin embargo, los datos en bruto incluidos en una base de datos no tienen autoría, por tanto, no son objeto de propiedad intelectual.

El artículo 29.3 del H2020 establece que los proyectos participantes en el plan piloto deben desarrollar un Plan de gestión de datos - PGD (Data Management Plan - DMP):

 

  1. Depositar los datos de la investigación (los necesarios para validar los resultados presentados en las publicaciones científicas) en un repositorio lo antes posible para garantizar a cualquier persona y de manera libre, su acceso, minería, explotación, reproducción y difusión.
  2. Documentar los datos de investigación: proporcionar información, a través del repositorio, sobre las herramientas y los instrumentos necesarios para validar, interpretar y reproducir la investigación llevada a cabo.

 

Excepciones: por razones de seguridad, privacidad, protección de datos personales o explotación comercial/industrial puede excluirse la difusión en abierto de los resultados del proyecto.

 

Costos: los costos asociados a los datos se consideran gastos elegibles en el proyecto.

Áreas previstas en el plan piloto:

  • Future and Emerging Technologies.
  • Research Infrastructures – part e-Infrastructures.
  • Leadership in Enabling and Industrial Technologies – Information and Communication Technologies.
  • Societal Challenge: Secure, Clean and Efficient Energy – part smart cities and communities.
  • Societal Challenge: Climate Action, Environment, Resource Efficiency and Raw Materials – with the exception of topics in the area of raw materials.
  • Societal Challenge: Europe in a changing world – inclusive, innovative and reflective Societies.
  • Science with and for Society.

 

Importante: aunque un proyecto no esté dentro de estas áreas, puede solicitarse que sea incluido en el plan piloto.

Las directrices de la Comisión Europea para publicar datos en abierto quedan recogidas en el Manual del participante en el H2020 consultable en el Portal del participante.

  • Validación de resultados.
  • Localización y comprensión de datos.
  • Reduce la duplicación de datos y los costes implicados.
  • Cumple los requisitos de las convocatorias de investigación.
  • Promueve el debate científico.
  • Promueve la innovación y los nuevos usos potenciales de los datos.
  • Fomenta la colaboración entre usuarios y creadores de datos.
  • Aumenta el impacto y la visibilidad de la investigación.
  • Aumenta tu reputación cuando otras personas citan su trabajo

¿Qué es un PGD?

 

Un Plan de gestión de datos (Data Management Plan - DMP) es un documento formal que debe describir el ciclo de vida de los datos tanto durante un proyecto de investigación como cuando este haya finalizado. El objetivo del PGD es que se consideren aspectos como la metodología y los estándares que se emplearán para gestionar los datos, cómo se compartirán, cómo se conservarán y cómo se preservarán en el futuro.

El Plan de gestión de datos no es un documento definitivo, sino que va evolucionando a lo largo del proyecto de investigación. Las especificaciones para elaborar un PGD para un proyecto H2020 pueden consultarse en: Guidelines on Data Management in Horizon 2020 (Annexo 1 y 2). Horizon 2020 actualmente solicita el depósito y la preservación de aquellos datos (incluidos los metadatos asociados) necesarios para validar los resultados de una investigación presentados en las publicaciones científicas.

 

¿Cómo se elabora un PGD?

Herramientas y recursos que tienes a tu alcance y que te ayudarán a redactar tu PGD:

 

Plantilla para realizar un plan de gestión de datos según los requisitos del Programa H2020:

Este documento ha sido elaborado por el Grupo de Trabajo de Apoyo a la Investigación del CSUC.

 

¿Dónde puedo encontrar ejemplos de PGD?

Casos de éxito de planes de gestión de datos desarrollados con DMP Online u otras herramientas.

 

¿Cómo se describen los datos? Conjuntos de datos (datasets), estándares y metadatos

La descripción de los datos debería incluir la información necesaria para entender y analizar nuestros datos o reproducir los resultados de aquí a veinte años.

  • Conjuntos de datos: hay que referenciar y nombrar cada conjunto de datos. La descripción de cada conjunto de datos debería incluir la siguiente información:
  • Origen de los datos: si los datos se generan dentro del proyecto o bien si son recolectados. En caso de que los datos sean recolectados, es necesario indicar la fuente de donde se han extraído.
  • Tipología y formato de los datos de investigación (datos observacionales, experimentales, computacionales, etc.)
  • Estándares: hay que indicar el estándar de metadatos que se utilizará.
  • Metadatos de descripción: los metadatos deberían responder a preguntas del tipo:
  • ¿Qué son los datos?
  • ¿Quién los puede utilizar?
  • ¿Cuándo pueden utilizarse?
  • ¿Cómo pueden utilizarse?
  • ¿Con qué finalidad pueden utilizarse?
  • ¿Dónde pueden encontrarse?
  • ¿Cuánto tiempo estarán disponibles?

 

¿Cuáles son los aspectos legales sobre la protección de datos?

La protección de los datos personales incluye la protección de las libertades y los derechos fundamentales de las personas físicas aplicados a un proyecto de I+D+I, así como su protección ante la posible utilización por terceros no autorizados.

 

​¿Cuáles son los aspectos éticos sobre la protección de datos?

Los aspectos éticos afectan a los datos que pueden mostrarse, el tiempo y el anonimato de las personas implicadas, y respetan la dignidad y la integridad para garantizar su privacidad y confidencialidad.

Recursos y documentación relacionada:

¿Con qué licencia puedes publicar los datos?

El documento Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020 explicita:

«As far as possible, projects must then take measures to enable for third parties to access, mine, exploit, reproduce and disseminate (free of charge for any user) this research data. One straightforward and effective way of doing this is to attach Creative Commons Licence (CC-BY or CC0 tool) to the data deposited.»

Encontrarás más información en:

 

¿Cómo se citan los datos?

DataCite establece que los datos deben citarse igual que citamos otras fuentes de información bibliográfica, como artículos o libros.

Citar los datos de investigación te permitirá:

  • Reutilizar los datos fácilmente y, además, verificarlos
  • Hacer un seguimiento del impacto que puedan tener los datos
  • Crear una estructura académica que reconozca y recompense a los productores de datos

Modelos de estructura:

  1. Creador (año de publicación): Título. Editor. Identificador.
  2. Creador (año de publicación): Título. Versión. Editor [Tipo de recurso]. Identificador

Nota: el identificador corresponde a DOI, Handle o URL permanente (preferiblemente enlazable).

 

Ejemplos de citación de datos (fuente Datacite):

Irino, T; Tada, R (2009): Chemical and mineral compositions of sediments from ODP Site 127‐797. Geological Institute, University of Tokyo

Geofon operator (2009): GEFON event gfz2009kciu (NW Balkan Region). GeoForschungsZentrum Potsdam (GFZ)

Denhard, Michael (2009): dphase_mpeps: MicroPEPS LAF‐Ensemble run by DWD for the MAP D‐PHASE project. World Data Center for Climate

En los últimos años se ha dado un interés creciente por publicar los datos de investigación en abierto con el fin de favorecer la transparencia, la visibilidad y el impacto de la investigación, así como garantizar el acceso a los datos de forma libre y gratuita; asegurando su preservación, explotación y reproducción.

En este contexto, han aparecido los Data Journals o revistas de datos que comprenden dos tipologías principales:

  1. Publicación de datos como artículos de datos (o data paper): son revistas donde sólo se publican datos en forma de artículo de datos (data papers). Son un nuevo formato de publicación centrado en el conjunto de datos.
  2. Publicación de datos juntamente con el artículo (o enriched/enhanced publication): son revistas que presentan, conjuntamente, artículos y datos. Habitualmente, este tipo de revistas no recogen los datos completos si no que recomiendan donde se deben depositar (en repositorios de datos concretos) y enlazan a estos desde los artículos.

Algunos ejemplos de revistas de datos son las editoriales siguientes:

  • Nature Publishing Group: los autores pueden enviar su conjunto de datos a depósitos de datos, por disciplinas y reconocidos por la comunidad, incluídos en su listado.
  • Ubiquity Press (serie de acceso abierto): ofrece la red de repositorios de acceso abierto Dataverse. Echad un vistazo a la siguiente selección de data journals, según el área temática, tipo de acceso e impacto científico en los índices internacionales más relevantes.

Echad un vistazo a la siguiente selección de data journals, según el área temática, tipo de acceso e impacto científico en los índices internacionales más relevantes. 

Para seleccionar un repositorio donde depositar los datos de investigación, recomendamos tener en cuenta las siguientes consideraciones:

  • Considerar el ámbito temático (hay repositorios multidisciplinares y temáticos) y el ámbito geográfico.
  • Identificar el tipo de datos que de que se dispone (software, imágenes, datos sin tratar, etc.)
  • Identificar si los datos son abiertos, embargados, restringidos o cerrados.
  • Tener en cuenta el tamaño aproximado de los archivos de datos.
  • Tener en cuenta la licencia con la que quieren difundirse los datos.
  • Identificar si hay que utilizar identificadores permanentes (DOI, Handle).

Es recomendable utilizar recursos europeos para asegurarse que cumplen con la ley de protección de datos.

​¿Cuáles son los repositorios de datos multidisciplanes más destacables y qué carectísticas tienen?

Repositorios de datos multidisciplinarios:
Repositoris i portals de dades de ciències socials:

También puedes consultar la tabla comparativa de repositorios, elaborada por la Biblioteca de la Universidad Autónoma de Barcelona o bien la lista de repositorios que mantiene la Biblioteca de la Erasmus University.