Comparación de métricas de similitud en el método de imputación de datos k-vecinos más cercanos
Fecha
Autores
Autor corporativo
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Distrital Francisco José de Caldas
Compartir
Director
Altmetric
Resumen
The treatment of missing data is a common problem in data analysis, and data imputation is a widely used technique to address this issue. However, the choice of the appropriate imputation method can significantly influence the analysis results. Therefore, it is crucial to investigate and compare different imputation methods to understand their performance and effectiveness in various situations. In this context, this project focuses on the k-nearest neighbors data imputation methodology. It proposes to compare variations of this method using different similarity metrics such as Chebyshev, Canberra, Manhattan, Euclidean, and cosine similarity to evaluate its performance in estimating means from incomplete datasets.
Descripción
El tratamiento de datos faltantes es un problema común en el análisis de datos, y la imputación de datos es una técnica ampliamente utilizada para abordar este problema. Sin embargo, la elección del método de imputación adecuado puede influir significativamente en los resultados del análisis. Por lo tanto, es crucial investigar y comparar diferentes métodos de imputación para comprender su desempeño y efectividad en diversas situaciones. En este contexto, este proyecto se centra en la metodología de imputación de datos k-vecinos más cercanos. Se propone realizar una comparación de las variaciones de este método, utilizando diversas métricas de similitud como Chebyshov, Camberra, Manhattan, Euclidea y la medida de similaridad del coseno, para evaluar su desempeño en la estimación de medias a partir de conjuntos de datos incompletos.
Palabras clave
K-vecinos más cercanos, Métricas de similitud, Imputación de datos, Análisis de datos faltantes