Diseño de un prototipo para clasificación automática de imágenes satelitales mediante algoritmos de machine learning

Fecha

Autor corporativo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Compartir

Altmetric

Resumen

In this document, a prototype is designed and implemented that, using machine algorithms learning allows automatic land cover classification for classes predefined; Additionally, the training set is presented, this will allow, In the future, said prototype can be versioned so that new training data, new preprocessing steps, different algorithms or different combinations of hyperparameters can be taken into account at the time of training and thus avoid The performance of the model decreases over time. To achieve this result, a selection of areas is made in Colombian territory and in different times (years 2021 and 2022) so that a set of data can be obtained multitemporal and spatially distributed, these areas are chosen taking into account that have little presence of clouds (although areas that have them are chosen, so that the model learn to characterize them correctly, as well as the shadows generated). Later,14 For each image, a series of unsupervised models were trained which identify different clusters present in each image. Following this, a reclassification of the previously mentioned clusters to predefined classes. Then, for each image and with the In order to slightly reduce the amount of data due to issues associated with hardware, a stratified random sample to ensure that all classes of all images are present in the final training set. Then a model is built and trained proposed, the hyperparameters of the model are found using group validation, where each image is a group. The validation of the hyperparameterized model is carried out on images from 2023 which were not taken into account in the modeling process. Finally, the hyperparameters of the model that maximize the effectiveness of the model have been obtained. The prototype is developed, which is deployed in an open repository for free consumption.

Descripción

En este documento se diseña e implementa un prototipo que mediante algoritmos de machine learning permite realizar clasificación automática de coberturas de la tierra para clases predefinidas; adicionalmente, se presenta el conjunto de entrenamiento, esto permitirá que, a futuro, dicho prototipo pueda ser versionado de manera que nuevos datos de entrenamiento, nuevos pasos de preprocesamiento, difereos o diferentes combinaciones de hiperparámetros puedan ser tenidas en cuenta en el momento del entrenamiento y evitar así que el rendimiento del modelo decrezca con el tiempo. Para lograr este resultado se realiza una selección de zonas en el territorio colombiano y en tiempos diferentes (años 2021 y 2022) de manera que se logre obtener un conjunto de datos multitemporal y espacialmente distribuido, dichas zonas son escogidas teniendo en cuenta que tengan poca presencia de nubes (aunque se escogen zonas que las posean, para que el modelo aprenda a caracterizarlas correctamente, al igual que las sombras generadas). Posteriormente,14 para cada imagen se entrenaron una serie de modelos no supervisados los cuales identifican diferentes clústeres presentes en cada imagen. Seguido a esto, se realiza una reclasificación de los clústeres previamente mencionados a clases predefinidas. Después, por cada imagen y con la finalidad de reducir un poco la cantidad de datos por temas asociados a hardware se realiza una muestra aleatoria estratificada para asegurar que todas las clases de todas las imágenes estén presentes en el conjunto de entrenamiento final. Luego se construye y entrena un modelo propuesto, los hiperparámetros del modelo son encontrados utilizando una validación por grupos, donde cada imagen es un grupo. La validación del modelo hiperparametrizado es realizada sobre imágenes del 2023 las cuales no fueron tenidas en cuenta en el proceso de modelamiento. Finalmente, obtenidos los hiperparámetros del modelo que maximizan la efectividad del modelo se desarrolla el prototipo, el cual es desplegado en un repositorio abierto para su consumo libre.

Palabras clave

XGBoost, Apredizaje de máquina, Imágenes de satélite, Clasificación supervisada

Materias

Maestría en Ciencias de la Información y las Comunicaciones -- Tesis ay disertaciones académicas , Clasificación automática de imágenes satelitales , Algoritmos de machine learning , Datos multitemporales y espaciales , Modelos no supervisados

Citación