Comparación de métricas de similitud en el método de imputación de datos k-vecinos más cercanos
dc.contributor.advisor | Másmela Caita, Luis Alejandro | |
dc.contributor.author | Niño Traslaviña, Gisel Fernanda | |
dc.date.accessioned | 2025-05-05T20:33:58Z | |
dc.date.available | 2025-05-05T20:33:58Z | |
dc.date.created | 2024-12-12 | |
dc.description | El tratamiento de datos faltantes es un problema común en el análisis de datos, y la imputación de datos es una técnica ampliamente utilizada para abordar este problema. Sin embargo, la elección del método de imputación adecuado puede influir significativamente en los resultados del análisis. Por lo tanto, es crucial investigar y comparar diferentes métodos de imputación para comprender su desempeño y efectividad en diversas situaciones. En este contexto, este proyecto se centra en la metodología de imputación de datos k-vecinos más cercanos. Se propone realizar una comparación de las variaciones de este método, utilizando diversas métricas de similitud como Chebyshov, Camberra, Manhattan, Euclidea y la medida de similaridad del coseno, para evaluar su desempeño en la estimación de medias a partir de conjuntos de datos incompletos. | |
dc.description.abstract | The treatment of missing data is a common problem in data analysis, and data imputation is a widely used technique to address this issue. However, the choice of the appropriate imputation method can significantly influence the analysis results. Therefore, it is crucial to investigate and compare different imputation methods to understand their performance and effectiveness in various situations. In this context, this project focuses on the k-nearest neighbors data imputation methodology. It proposes to compare variations of this method using different similarity metrics such as Chebyshev, Canberra, Manhattan, Euclidean, and cosine similarity to evaluate its performance in estimating means from incomplete datasets. | |
dc.format.mimetype | ||
dc.identifier.uri | http://hdl.handle.net/11349/95228 | |
dc.language.iso | spa | |
dc.publisher | Universidad Distrital Francisco José de Caldas | |
dc.relation.references | Jorge Dagnino. Datos faltantes (missing values). 43:332–334, 01 2014. | |
dc.relation.references | Craig K. Enders. Applied Missing Data Analysis. Guilford Press, 2010. | |
dc.relation.references | Huang MW. Ke SW. et al. Hu, LY. The distance function effect on k-nearest neighbor classification for medical datasets. SpringerPlus, 2016. | |
dc.relation.references | Donald B. Rubin. Inference and missing data. Biometrika, 63(3):581–592, 1976. | |
dc.relation.references | Miriam Santos, Ricardo Cardoso Pereira, Adriana Costa, Jastin Soares, Joao Santos, and Pedro Henriques Abreu. Generating synthetic missing data: A review by missing mechanism. IEEE Access, PP:1–1, 01 2019. | |
dc.relation.references | Miriam Seoane Santos, Pedro Henriques Abreu, Szymon Wilk, and João Santos. How distance metrics influence missing data imputation with k-nearest neighbours. Pattern Recognition Letters, 136:111–119, 2020. | |
dc.relation.references | Joseph L Schafer and John W Graham. Missing data: our view of the state of the art. Psychol Methods, 2002. | |
dc.relation.references | Gerhard Tutz and Shahla Ramzan. Improved methods for the imputation of missing data by nearest neighbor methods. Computational Statistics Data Analysis, 90:84–99, 2015. | |
dc.relation.references | Stef van Buuren. Flexible Imputation of Missing Data. Chapman and Hall/CRC, 2018. | |
dc.rights.acceso | Abierto (Texto Completo) | |
dc.rights.accessrights | RestrictedAccess | |
dc.subject | K-vecinos más cercanos | |
dc.subject | Métricas de similitud | |
dc.subject | Imputación de datos | |
dc.subject | Análisis de datos faltantes | |
dc.subject.keyword | K-nearest neighbors | |
dc.subject.keyword | Similarity metrics | |
dc.subject.keyword | Data imputation | |
dc.subject.keyword | Missing data analysis | |
dc.subject.lemb | Matemáticas -- Tesis y disertaciones académicas | |
dc.title | Comparación de métricas de similitud en el método de imputación de datos k-vecinos más cercanos | |
dc.title.titleenglish | Comparison of similarity metrics in the k-nearest neighbors data imputation method | |
dc.type | bachelorThesis | |
dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
dc.type.degree | Monografía | |
dc.type.driver | info:eu-repo/semantics/bachelorThesis |
Archivos
Bloque de licencias
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- license.txt
- Tamaño:
- 7 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: