BIBLIOTECA CRAI

Datos de Investigación - Biblioteca - Universidad de Alcalá (UAH)
Foto1

Qué son los datos

Los datos de investigación son aquellos materiales generados o recolectados durante el transcurso de una investigación. En general es todo aquello que un investigador necesita para validar los resultados obtenidos en esa investigación.

“Los datos de la investigación son hechos, observaciones o experiencias en que se basa el argumento, la teoría o la prueba. Los datos pueden ser numéricos, descriptivos o visuales. Los datos pueden ser en estado bruto o analizado, pueden ser experimentales u observacionales. Los datos incluyen: cuadernos de laboratorio, cuadernos de campo, datos de investigación primaria (incluidos los datos en papel o en soporte informático), cuestionarios, cintas de audio, videos, desarrollo de modelos, fotografías, películas, y las comprobaciones y las respuestas de la prueba. Las colecciones de datos para la investigación pueden incluir diapositivas; diseños y muestras. En la información sobre la procedencia de los datos también se podría incluir: el cómo, cuándo, donde se recogió y con que (por ejemplo, instrumentos). El código de software utilizado para generar, comentar o analizar los datos también pueden ser considerados datos.” (Grupo de Trabajo de “Depósito y Gestión de datos en Acceso Abierto” del proyecto RECOLECTA. La conservación y reutilización de los datos científicos en España. Informe del grupo de trabajo de buenas prácticas (Recolecta-Fecyt)

Es decir, pueden tener formatos variados y múltiples orígenes dependiendo de la disciplina científica de donde procedan.
Se denomina dataset al conjunto de datos reunidos durante la ejecución de un proyecto de investigación.

 

 

Gestión de datos

La Gestión de datos de investigación o Research Data Management (RDM) es un concepto que abarca las tareas de organizar, estructurar, almacenar y preservar los datos utilizados durante un proyecto de investigación (University of Oxford). Los datos se deben gestionar desde el inicio de su ciclo de vida.
Una gestión de datos adecuada supone:

  • La validación de los resultados de la investigación.
  • Asegurar que los datos sean localizables, accesibles, interoperables y reutilizables.
  • Mejorar el perfil del investigador, el impacto y la visibilidad de la investigación.
  • Mejorar la protección e integridad de los datos y minimizar el riesgo de pérdida de los mismos.
  • Mejorar la calidad de los datos, asegurando que éstos sean precisos, completos, auténticos y fidedignos.
  • Alto nivel de cooperación, ya que permite compartir los datos y reutilizarlos en otras investigaciones.
  • Ahorrar tiempo, reduciendo las posibilidades de duplicar esfuerzos y recursos.
  • El uso eficiente de los recursos públicos cumpliendo con los requisitos de los organismos financiadores.
                                                                          

 

Ciclo de vida de los datos de investigación. Traducción del sitio web http://www.data-archive.ac.uk/create-manage/life-cycle

Infografía: El ciclo de los datos científicos 

 

 

Datos en abierto y Horizonte 2020

Horizonte 2020 (H2020) -  Programa Marco de Investigación e Innovación de la Unión Europea para el periodo 2014-2020 -,  desarrolló un programa piloto para ofrecer el acceso abierto a los datos de investigación de aquellos proyectos financiados con fondos europeos - Piloto de Datos de Investigación en abierto (ORD Pilot) -,  con el objetivo de mejorar y maximizar el acceso y la reutilización de los datos de investigación.

 “Los que participan en el Piloto de Datos de Investigación en Abierto … deben depositar los datos de la investigación en abierto en un repositorio de datos, para validar los resultados presentados en las publicaciones científicas”
(H2020 GENERAL MGA – Multi Julio 2016 versión 3.0 Art. 29.3 del MGA)

 

La visión de la Comisión Europea es que no se debe pagar por la información sufragada con fondos públicos cada vez que se acceda a ella o se utilice, y que los ciudadanos puedan beneficiarse de dicha información. Esto conlleva la necesidad de hacer disponible la información científica, financiada con fondos públicos, sin coste adicional, gantizándose al mismo tiempo su preservación a largo plazo.

Los datos que obliga a depositar H2020, son aquellos necesarios para validar los resultados presentados en las publicaciones científicas, incluidos sus metadatos.

Este mandato de publicación en abierto de los datos de investigación tiene excepciones por motivos de protección de datos personales, de derechos de propiedad intelectual, razones de seguridad nacional u otras razones legítimas que se justifiquen.

Más información en Guidelines on FAIR Data Management in Horizon 2020.

Además de H2020, los editores también están estableciendo políticas de datos en las que solicitan a los autores que compartan todos sus datos o algunos conjuntos de datos específicos a través de los repositorios (por ejemplo, revistas Nature, PLOS One, etc), lo que confirma que la obligación de depositar los datos de investigación en abierto se está extendiendo.

Infografía: Cómo cumplir con los mandatos sobre gestión y publicación de datos en Horizonte 2020

 

 

Dónde depositar los datos

 

 

 

A partir de 2017, todos los proyectos financiados por H2020 deberán depositar sus datos en acceso abierto (Infografía: Open Research Data in Horizon2020).

Los datos de investigación se deben depositar en un repositorio de datos que  garantice tanto la recuperación y acceso a los datos, como la preservación a largo plazo.

Para publicar los datos de investigación se recomienda utilizar e-cienciaDatos, repositorio de datos multidisciplinar del Consorcio Madroño que alberga los conjuntos de datos científicos de los investigadores de las universidades públicas de la Comunidad de Madrid y la UNED, cuyo fin es dar visibilidad a dichos datos, garantizar su preservación y facilitar su acceso y reutilización.

e-cienciaDatos está constituido por distintas comunidades denominadas dataverse que agrupan los datasets de cada una de las universidades, como el Dataverse Repositorio de Datos de la UAH.
Permite el depósito y la publicación de conjuntos de datos, asignando un identificador de objeto digital DOI a cada uno de ellos.

El depósito de los conjuntos de datos en e-cienciaDatos lo realiza la Biblioteca a través del archivo delegado. Es decir, el investigador/grupo de investigación solicitará a la biblioteca la creación de un dataset mediante un mensaje de correo a ebuah@uah.es, donde enviará los datos y la información que los describa (título, autor, descripción, materias, palabras clave, etc.).

El repositorio e-cienciaDatos está recogido en el Proyecto Dataverse y en los directorios re3data y ODiSEA , donde también se pueden consultar otros repositorios de datos. Entre todos destacamos Zenodo, repositorio de datos de la Unión Europea financiado por el proyecto OpenAIRE.

Infografía: Ciencia Abierta: la investigación y los datos científicos accesibles y abiertos a todos los ciudadanos

 

PAGODA_PlAn de GestiÓn de DAtos

 

 

Entre los requisitos exigidos por H2020 está desarrollar y mantener un Plan de Gestión de Datos (PGD) de los proyectos subvencionados.
El Plan de Gestión de Datos (Data Management Plan – DPM) es un documento que describe el ciclo de vida de los datos de investigación recopilados y generados hasta la finalización del proyecto, e incluso después de su finalización. Detalla aspectos sobre la recolección o creación, organización, documentación, compartición y preservación de los datos, que puede modificarse en el transcurso del proyecto.

Se debe presentar una primera versión en los 6 primeros meses del proyecto.

Al igual  que la publicación de los datos de investigación en abierto, la presentación de un PGD  es un requerimiento cada vez más demandado en las convocatorias de proyectos financiados con fondos públicos, sobre todo en Europa, ya que favorece la claridad y transparencia en el proceso de investigación y garantiza el retorno de la inversión pública en la financiación del proyecto.

El Consorcio Madroño ha traducido al español y adaptado la herramienta de gestión PGDonline desarrollada por el Digital Curation Centre del Reino Unido. Es una plantilla adaptada a los requerimientos de las directrices Horizonte 2020 que permite crear, almacenar y compartir un PGD.

Infografía: 10 pasos para elaborar un Plan de Gestión de Datos

 Más información en:  PAGODA portal del Consorcio Madroño para la elaboración de PGD

 

 

Citar datos científicos

Los conjuntos de datos originales que sustentan una investigación, así como los datos resultantes de la misma deben citarse para su correcta identificación, localización, validación y reutilización posterior y deben aparecer con el resto de referencias bibliográficas de la publicación final.
De esta manera además de favorecer la transparencia de la investigación científica, se permitirá reconocer la autoría de los creadores, facilitar métricas de uso y el impacto de los datos, a la vez que generar créditos.
Se pueden utilizar diferentes formatos para citar los conjuntos de datos y cada disciplina suele utilizar un estilo de cita determinado.
Su correcta citación tiene muchas ventajas:
  • Permite conocer las fuentes del autor
  • Facilita la identificación de los datos
  • Promueve la reproducción de los resultados de la investigación    
  • Facilita encontrar los datos  
  • Permite rastrear el impacto de los datos
  • Reconoce y recompensa al creador de datos

Los requisitos de las citas de datos según Digital Curation Centre (DDC) son:

  • La cita debe ser capaz de identificar unívocamente al objeto citado
  • Debe ofrecer la posibilidad de identificar tanto a los subconjuntos de datos, como el conjunto de datos completo.
  • Debe facilitar la recuperación del objeto citado proporcionando el acceso al repositorio que alberga el conjunto de datos y de esta forma facilitar la recuperación del objeto, lo que permitirá la reutilización, validación y reproducción del mismo.
  • Debe ser legible por distintas herramientas de software para permitir generar servicios adicionales (por ejemplo, métricas alternativas que analicen la difusión de los datos).

DOI Citation Formatter ( http://crosscite.org/citeproc/ ) es un servicio ofrecido por DataCite que construye automáticamente las citas conforme al estilo que seleccionemos. Recomiendan el siguiente formato:

Creator (PublicationYear): Title. Version. Publisher. ResourceType. Identifier (DOI)

  • Creator/ Autor: puede ser un autor individual, colectivo (grupo de personas) o una organización.
  • Fecha de publicación: año de publicación del dataset o fecha en que fue accesible online
  • Título: denominación del dataset
  • Edición: etapa del procesamiento de datos, indicando si son datos en bruto o refinados
  • Versión: aumenta de número según cambian los datos, fruto de revisiones y actualizaciones
  • Editor/Productor: entidad responsable de producir y/o distribuir el dataset. El productor es la organización que patrocina la investigación; y el distribuidor es la organización que da accesibilidad al dataset para su descarga y uso.
  • Tipo de recurso: “database”, “dataset”
  • Ubicación: URL persistente que permita acceder al conjunto o subconjunto de datos (DOI, Handle …)

Ejemplos:

Irino, T; Tada, R (2009): Chemical and mineral compositions of sediments from ODP Site 127-797. Geological Institute, University of Tokyo.     http://dx.doi.org/10.1594/PANGAEA.726855

Denhard, Michael (2009): dphase_mpeps: MicroPEPS LAF-Ensemble run by DWD for the MAP D‐PHASE project. Versión 3.0. World Data Center for Climate. Video.
http://dx.doi.org/10.1594/WDCC/dphase_mpeps

DIGITALCSIC: Marbá Núria, Jordá Gabriel, Agustí Susana, Girard Coraline and Duarte Carlos M., 2014 “impacts of climate change on organisms in the mediterranean Sea [Dataset]”, DIGITAL CSIC. http://hdl.handle.net/10261/116098

 

Infografía: Cita tus datos de investigación

 

 

Intranet

Biblioteca