8 Principios FAIR
8.1 Visión general
Desde hace años, dentro de la comunidad científica se ha desarrollado un movimiento imparable para favorecer el acceso a toda la información relacionada con los trabajos, experimentos y publicaciones científicas, de forma que se facilite su validación y reproducción/replicación por parte de otros investigadores/as o expertos/as interesados.
Este movimiento se ha concentrado especialmente, en su fase inicial, en garantizar al menos el acceso a la materia prima necesaria para desarrollar muchos de estos proyectos: los datos. Los principios fundamentales que deben cumplirse para que los datos puedan ser indexados y reutilizados al máximo se denominan Principios FAIR y vienen recogidos, entre otras fuentes, en los documentos de guía de la Comisión Europea para los investigadores que participan en proyectos financiados por dicha organización. Estos principios FAIR fueron establecidos inicialmente por Wilkinson et al. (2016) y son:
Findable: Los datos y metadatos (datos que describen a los datos, como su formato, contenido, significado, enlace con otros datos, etc.) deben recibir un identificador único global y persistente que permita localizarlos de forma directa. El estándar más utilizado hoy en día es el sistema DOI (ISO 26324). Los metadatos deben incluir de forma clara y explícita el identificador del dato al que describen, y tanto datos como metadatos deben estar registrados o indexados en fuentes que permitan su búsqueda y recuperación.
Accessible: Datos y metadatos deben poder obtenerse mediante un protocolo de comunicación estándar y abierto. Los metadatos deben seguir permaneciendo accesibles aún cuando los datos ya no estén disponibles.
Interoperable: Los datos y metadatos deben usar formatos estándar y abiertos de representación del conocimiento, vocabularios que sigan principios FAIR y deben incluir referencias a otros datos y metadatos con los que estén relacionados.
Reusable: Los datos y metadatos están descritos de manera rica y precisa, con múltiples atributos relevantes que faciliten su utilización por otros usuarios/as.
Es importante recalcar la trascendencia de publicar en abierto y siguiendo buenas prácticas de investigación revisable y reproducible/replicable. Por ejemplo, la Comisión Nacional Evaluadora de la Actividad Investigadora (CNEAI) ha publicado en 2023-2024 nuevos criterios para evaluación de las publicaciones válidas para poder ser evaluadas en la concesión de un sexenio de investigación. Así mismo, en todas las convocatorias recientes financiadas por los distintos ministerios del Gobierno de España se exige que los resultados de investigación, especialmente todas las publicaciones, datasets, software y procedimientos sean públicamente accesibles y cumplan con los principios FAIR.
Sin embargo, todavía queda camino por recorrer. Un reciente estudio (Kumar et al., 2024) analizó el grado de cumplimiento de los principios FAIR (el llamado FAIRness) de los resultados de investigación publicados por proyectos multi-actor financiados recientemente dentro del programa marco H2020 europeo y relacionados con el sector agroalimentario. Como principales conclusiones, menos de un 10% de los proyectos analizados lograron cumplir con los principios FAIR, aunque dichos principios se cumplían en mayor medida en los artículos de investigación publicados en revistas y conferencias, así como en libros.
En general, otra de las conclusiones es que el sector agroalimentario y rural europeo se está conviertiendo en dependiente de los datos de manera cada vez más intensa y que la aplicación de los principos FAIR contribuye a mejorar la toma de decisiones y a explotar mejor los resultados de innovación derivados de estos proyectos. Sin embargo, también se constata que la comunidad de investigación para el desarrollo del sector agroalimentario y rural todavía tiene una experiencia limitada en la aplicación de estos principios.
8.2 Publicación del código fuente y documentación técnica
Plataformas como GitHub y GitLab facilitan en gran medida la gestión y publicación de proyectos software dentro de iniciativas y proyectos de investigación, así como la publicación y mantenimiento de centros de documentación técnica digital sobre herramientas, procedimientos y buenas prácticas relacionas con la actividad de dichas iniciativas.
Ejemplos del proyecto SoilWise, financiado dentro del programa HE de la Comunidad Europea.
Espacio de co-creación digital de SoilWise en GitHub. Se ha conseguido creando una organización (sin coste), de forma que se puedan crear repositorios en esta plataforma, agrupados bajo el paraguas del proyecto, para diferentes fines: listados de software de interés, documentación técnica, manuales de uso, arquitectura de la plataforma propuesta, etc.
Centro de documentación. Aquí se usa la solución MkDocs, que funciona con el lenguaje Python (Quarto tiene grandes ventajas en este aspecto).
Repositorio con las herramientas para recolección de datos, documentadas en la página que describe el proceso de obtención de datos en la infraestructura del proyecto.
Repositorios abiertos de datos y material de investigación como Zenodo y Figshare pueden ayudar a publicitar y citar material de investigación. Por ejemplo, Zendo puede emitir un identificador persistente (DOI) para un repositorio de sofware en GitHub apuntando a una versión en particular del software que se haya publicado y etiquetado desde dicho proyecto en GitHub. Esto permite incluirlo en una publicación científica para saber con certerza qué versió exacta del código software se ha utilizado para realizar el trabajo recogido en esa publicación.
Como ejemplo, la Figura 8.1 muestra la página de Zenodo correspondiente al software PyMPDATA, que apunta al repositorio original del software alojado en GitHub, mostrado a su vez en la Figura 8.2. Podemos ver las referencias cruzadas de metadatos que mantienen la coherencia de conexión en ambos sentidos.
La página del proyecto en Zenodo apunta a una versión concreta del repositorio en GitHub, y mantiene un listado de todas las versiones del mismo proyecto anteriormente referenciadas. Cada nueva versión recibe un DOI diferente, para diferenciarlas unívocamente.
La página de descripción del repositorio en GitHub exhibe, entre otras etiquetas, el DOI para esa versión en particular, el DOI al artículo científico publicado en el JOSS explicando este software, así como otras etiquetas para atribución de las fuentes de financiación del proyecto.
8.3 Publicación de conjuntos de datos
Zenodo es, probablemente junto con Figshare, uno de los repositorios de datos abiertos más conocidos y ampliamente utilizados en investigación, sobre todo en Europa, al ser un proyecto integrado en OpenAIRE, una organiación sin ánimo de lucro creada por la Unión Europea para favorecer la ciencia abierta.
Publicaciones científicas en acceso abierto (open access).
Importante enlazar el DOI de un dataset en un artículo, de forma que se puedan trazar (en sentido inverso) los DOIs de las publicaciones que emplean dicho dataset*.
8.4 Gestión de referencias y publicación en abierto
Además de la asignación de un DOI a artículos, conjuntos de datos, software y otros elementos de los trabajos de investigación, existen algunas herramientas adicionales que facilitan la identificación de los trabajos y la autribución de su autoría (muchas de ellas con soporte explícito en Quarto)
El ORCID es un identificador gratuito, unívoco y persistente para individuos que se involucran en actividades de investigación, innovación y académicas. Permite identificar rápidamente la identidad de un autor/a en una publicación o trabajo científico o la persona encargada de publicar y mantener un recurso (dataset, repositorio de software, etc.). Además, el ORCID permite generar listado de todas las contribuciones realizadas por el individuo identificado.
Existe una amplia lista de archivos de preprints que permiten la publicación de trabajos preliminares que no han pasado aún un proceso de revisión por pares para su publicación en una revista. Cada vez más editoriales aceptan (e incluso fomentan) la publicación de estos documentos para dejar constancia rápida de los avances de investigación, debido a los elevados tiempos que requiere el proceso de revisión y publicación en muchas revistas de prestigio.
PLOS es una editorial Open Access sin ánimo de lucro, que edita y publica varias revistas digitales de elevado impacto y gran difusión en muchas áreas incluyendo, transformación y sostenibilidad.
Un número creciente de editoriales están adoptando igualmente principios de publicación abierta (Open Access), aunque normalmente repercutiendo un coste significativo en los autores o las instituciones a las que están afiliados para sufragar los gastos de publicación.