Apoyo en el proceso de limpieza retrospectiva de datos publicados a través del SiB Colombia para mejorar su visibilidad, consulta y uso

Fecha

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Compartir

Altmetric

Resumen

The National Environmental System (SINA) was established from Law 99 of 1993, during its creation process the Biodiversity Information System of Colombia (SiB Colombia) was created from Decree 1603 of 1994. The SiB Colombia provides open access to data and information on the biological diversity of the national territory with the support of multiple organizations from academia, the private sector, NGOs, the SINA institutes themselves, among others. Through the use of international standards for data publication, such as the Darwin Core (DwC), it is possible to share different types of data through SiB Colombia such as biological records, species lists and sampling events. The DwC standard is strongly consolidated globally and is supported by the TDWG (Taxonomic Databases Working Group) community, who are constantly reviewing and updating it.

The publication of primary data through SiB Colombia facilitates the consolidation of reliable and timely information that supports national and international decision-making on the management of biological resources, research and education. However, for the use of the data to be relevant, it is necessary to improve its quality through different validation and cleaning processes on the three dimensions of data on biodiversity: taxonomy, geography and temporality.

Taking into account the above, in this internship a retrospective cleaning process of data published in the IPT (Integrated Publishing Toolkit) of SiB Colombia was carried out, prioritizing the data sets published by the Alexander von Humboldt Biological Resources Research Institute ( IAvH), in order to improve its quality based on prioritized elements of the DwC standard and the correct documentation of the metadata in a way that guarantees its correct visibility, consultation and use, subsequently a geographical review of the data sets was carried out. published in the IPT of the SINA research institutes (IAvH, IIAP, Invemar, Sinchi and PNN) to verify the coherence of the location of the coordinates reported with respect to the superior geography of the data, with this review a report of quality and geographical for each institute and finally a python script was developed for the generation of quality diagnoses that can eda be replicable for future processes.

Descripción

El Sistema Nacional Ambiental (SINA) se estableció a partir de la Ley 99 de 1993, durante su proceso de creación se dio origen al Sistema de Información sobre Biodiversidad de Colombia (SiB Colombia) a partir del Decreto 1603 de 1994. El SiB Colombia brinda acceso abierto a datos e información sobre la diversidad biológica del territorio nacional con el apoyo de múltiples organizaciones de la academia, el sector privado, ONG 's, los propios institutos SINA, entre otros. A través del uso de estándares internacionales para la publicación de datos, como el Darwin Core (DwC) es posible compartir distintos tipos de datos a través del SiB Colombia como registros biológicos, listas de especies y eventos de muestreo. El estándar DwC se encuentra fuertemente consolidado a nivel global y está soportado por la comunidad de TDWG (Taxonomic Databases Working Group) quienes están en constante trabajo de revisión y actualización de este. La publicación de datos primarios a través del SiB Colombia facilita la consolidación de información confiable y oportuna que apoya la toma de decisiones a nivel nacional e internacional sobre el manejo de recursos biológicos, investigación y educación. Sin embargo, para que el uso de los datos sea relevante es necesario mejorar la calidad de estos por medio de distintos procesos de validación y limpieza sobre las tres dimensiones de los datos sobre biodiversidad: taxonomía, geografía y temporalidad. Teniendo en cuenta lo anterior, en la presente pasantía se realizó un proceso de limpieza retrospectiva de datos publicados en el IPT (Integrated Publishing Toolkit) del SiB Colombia, priorizando los conjuntos de datos publicados por el Instituto de Investigación de Recursos Biológicos Alexander von Humboldt (IAvH), con el fin de mejorar su calidad a partir de unos elementos priorizados del estándar DwC y la correcta documentación de los metadatos de forma que se garantice su correcta visibilidad, consulta y uso, posteriormente se realizó una revisión geográfica a los conjuntos de datos publicados en los IPT de los institutos de investigación SINA (IAvH, IIAP, Invemar, Sinchi y PNN) para verificar la coherencia de la ubicación de las coordenadas reportadas con respecto a la geografía superior de los datos, con esta revisión se generó un reporte de calidad y geográfico para cada instituto y finalmente se desarrolló un script en python para la generación de diagnósticos de calidad que pueda ser replicable para futuros procesos.

Palabras clave

SiB Colombia, Calidad de datos, Conjuntos de datos, Metadatos, Institutos SINA

Materias

Licenciatura en Biología - Tesis y disertaciones académicas , Sistemas de información - Recursos naturales - Colombia , Gestión de información - Recursos naturales - Colombia , Conservación de la diversidad biológica - Sistemas de información - Colombia , Recursos biológicos - Sistemas de información - Colombia , Metadatos - Automatización - Colombia

Citación