Metodología para la gestión de información agricola implementando cubos de datos para el fortalecimiento de aplicaciones espaciales con machine learning

Fecha

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Distrital Francisco José de Caldas

Compartir

Altmetric

Resumen

Contemporary agriculture faces challenges arising from climate change, economic pressures, and population growth that require the adoption of techniques and systems capable of improving productivity without compromising environmental sustainability or food security. In this context, satellite observations together with machine learning methods can contribute to monitoring and decision-making; however, their practical application is limited by input heterogeneity, the lack of interoperability standards, and radiometric variability among products. This thesis addresses these limitations by proposing a methodology for the management of agricultural information through multitemporal raster data cubes. The proposed methodology defines a modular workflow: requirements definition and field data capture (FieldMaps); acquisition of multitemporal series (PlanetScope and Sentinel-2); preprocessing and normalization (TOA and surface reflectance, atmospheric corrections with ENVI); calculation of spectral indices (NDVI, GNDVI, CLGreen, TVI, among others); spectral segmentation (mean-shift); and assembly of the raster cube in ArcGIS Pro. The cube organizes information by pixel and date, enabling temporal queries and the systematic extraction of training vectors for regression and classification models. Reference meteorological variables (e.g., NASA-POWER) are also incorporated to complement the inputs, with emphasis on their use as auxiliary data. Validation was performed through two case studies. The first involved estimating the phenological stage of onion in Tota (Boyacá), using 17 PlanetScope scenes (Dec 2023–May 2024) and a field control point recorded on 19 May 2024; linear regression, a multilayer perceptron (MLP) neural network, and Random Forest were compared, with the MLP obtaining the best results (R² = 0.91, MSE = 4.07). The second study addressed detection and classification of agricultural cover in prioritized areas (Putumayo, Guaviare, and Antioquia), comparing Random Forest and the Spectral Angle Mapper (SAM); Random Forest showed higher overall accuracy (94.4%), Kappa = 0.84, and recall for the “Crop” class close to 96%. The analysis highlights that organizing inputs into raster cubes contributes to greater spatial and radiometric coherence among sources and facilitates experimental repeatability. Nonetheless, practical limitations were identified: direct inclusion of meteorological variables in the models produced signs of overfitting in some cases; the availability of Surface Reflectance (SR) or Analysis Ready Data (ARD) products improves spectral consistency; and discrimination of very similar species may require inputs with higher spectral resolution. Consequently, cautious use of auxiliary variables is advised, along with prioritization of SR/ARD products and evaluation of hyperspectral inputs when discrimination requirements justify them. Overall, the document presents a modest technical proposal applicable to operational contexts, accompanied by empirical evidence and practical recommendations for its implementation and scaling in settings with varying resources and capacities.

Descripción

La agricultura contemporánea enfrenta desafíos derivados del cambio climático, las tensiones económicas y el crecimiento demográfico, que requieren la adopción de técnicas y sistemas capaces de mejorar la productividad sin comprometer la sostenibilidad ambiental ni la seguridad alimentaria. En este contexto, las observaciones satelitales junto con métodos de aprendizaje automático pueden contribuir al monitoreo y la toma de decisiones; sin embargo, su aplicación práctica se ve limitada por la heterogeneidad de los insumos, la falta de estándares de interoperabilidad y la variabilidad radiométrica entre productos. Esta tesis aborda esas limitaciones proponiendo una metodología para la gestión de información agrícola mediante cubos ráster multitemporales. La metodología propuesta define un flujo modular: definición de requisitos y captura de datos de campo (FieldMaps); adquisición de series multitemporales (PlanetScope y Sentinel-2); preprocesamiento y normalización (TOA y Surface Reflectance, correcciones atmosféricas con ENVI); cálculo de índices espectrales (NDVI, GNDVI, CLGreen, TVI, entre otros); segmentación espectral (mean-shift) y ensamblaje del cubo ráster en ArcGIS Pro. El cubo organiza la información por píxel y fecha, lo que permite consultas temporales y la extracción sistemática de vectores de entrenamiento para modelos de regresión y clasificación. Se incorporan además variables meteorológicas de referencia (p. ej. NASA-POWER) para complementar los insumos, con énfasis en su uso como datos auxiliares. La validación se realizó mediante dos estudios de caso. El primero consistió en la estimación del estado fenológico de cebolla en Tota (Boyacá), empleando 17 escenas PlanetScope (dic. 2023–may. 2024) y un punto de control de campo registrado el 19 de mayo de 2024; se compararon regresión lineal, una red neuronal MLP y Random Forest, obteniéndose mejores resultados con la MLP (R² = 0.91, MSE = 4.07). El segundo estudio abordó la detección y clasificación de coberturas agrícolas en áreas priorizadas (Putumayo, Guaviare, Antioquia), comparando Random Forest y Spectral Angle Mapper (SAM); Random Forest mostró mayor precisión global (94.4 %), Kappa = 0.84 y recall para la clase “Cultivo” cercano al 96 %. El análisis destaca que la organización en cubos ráster contribuye a una mayor coherencia espacial y radiométrica entre fuentes y facilita la repetibilidad de experimentos. No obstante, se identificaron limitaciones prácticas: la inclusión directa de variables meteorológicas en los modelos produjo indicios de sobreajuste en algunos casos; además, la disponibilidad de productos Surface Reflectance o ARD mejora la consistencia espectral, y la discriminación de especies muy similares puede requerir insumos con mayor resolución espectral. En consecuencia, se sugieren usos precautorios de variables auxiliares, priorización de productos SR/ARD y evaluación de insumos hiperespectrales cuando la discriminación lo amerite. En conjunto, el documento presenta una propuesta técnica aplicable a contextos operativos, junto con evidencias empíricas y recomendaciones prácticas para su implementación y escalamiento en entornos con recursos y capacidades variables.

Palabras clave

Cubo de datos espaciales, Máquinas de aprendizaje, Segmentación espectral, Estimación fenológica, Clasificación de cultivos

Materias

Maestría en Ciencias de la Información y las Comunicaciones -- Tesis y disertaciones académicas , Agricultura de precisión , Aprendizaje automático (Inteligencia artificial) , Sistemas de Información Geográfica

Citación